Convolutional Neural Networks (CNNs) nutzen Faltungsschichten, um automatisch hierarchische Darstellungen von Eingabedaten wie Bildern zu lernen. Jede Faltungsschicht besteht aus Filtern (auch Kernel genannt), die über die Eingabedaten gleiten und Faltungsoperationen ausführen, um Merkmale zu extrahieren. Diese Funktionen erfassen räumliche Muster wie Kanten, Texturen und Formen. Das Netzwerk lernt, immer komplexere Muster zu erkennen, während Informationen durch aufeinanderfolgende Faltungsschichten fließen. Durch die Bündelung von Ebenen werden dann die räumlichen Dimensionen von Feature-Maps reduziert, wodurch wichtige Informationen erhalten bleiben und gleichzeitig die Recheneffizienz verbessert wird. Schließlich verarbeiten vollständig verbundene Ebenen abgeflachte Feature-Maps, um Vorhersagen auf der Grundlage erlernter Features zu treffen.
CNNs funktionieren, indem sie eine Reihe von Faltungs- und Pooling-Schichten auf Eingabedaten anwenden. Faltungsschichten verwenden kleine Filter, die über die Eingabe gleiten und eine elementweise Multiplikation und Summierung durchführen, um Feature-Maps zu generieren. Diese Feature-Maps erfassen lokalisierte Muster in den Eingabedaten. Durch die Bündelung von Layern werden die Feature-Maps anschließend heruntergerechnet, wodurch die räumlichen Dimensionen reduziert und dominante Features extrahiert werden. Dieser hierarchische Merkmalsextraktionsprozess ermöglicht es CNNs, robuste Darstellungen komplexer Daten zu erlernen, wodurch sie für Aufgaben wie Bildklassifizierung, Objekterkennung und Bildsegmentierung effektiv sind.
Deep Convolutional Neural Networks (DCNNs) erweitern die Architektur von CNNs, indem sie mehrere Faltungsschichten stapeln, um immer abstraktere Merkmale zu lernen. Während Daten durch tiefere Schichten fließen, lernt das Netzwerk hierarchische Darstellungen von Features und erfasst komplexe Beziehungen in den Eingabedaten. DCNNs integrieren häufig zusätzliche Techniken wie Batch-Normalisierung, Dropout-Regularisierung und Restverbindungen, um die Trainingsstabilität und -leistung zu verbessern. Diese tieferen Architekturen ermöglichen es DCNNs, modernste Ergebnisse bei Computer-Vision-Aufgaben wie Bilderkennung und semantischer Segmentierung zu erzielen.
Der Mechanismus von CNNs basiert auf der Verwendung von Faltungsschichten, die Filter verwenden, um Merkmale in Eingabedaten zu erkennen. Jeder Filter gleitet über die Eingabe und führt Faltungsoperationen durch, um Merkmale wie Kanten, Texturen und Muster zu extrahieren. Das Netzwerk lernt, diese Merkmale zu erkennen, indem es die Filtergewichte während des Trainings durch Backpropagation anpasst, wobei Fehler iterativ minimiert werden. Durch das Stapeln mehrerer Faltungsschichten mit nichtlinearen Aktivierungsfunktionen können CNNs komplexe Beziehungen und hierarchische Darstellungen innerhalb von Daten modellieren und so effektives Lernen und Inferenz ermöglichen.
Fully Convolutional Networks (FCNs) passen CNN-Architekturen für Aufgaben an, die eine räumliche Ausgabe erfordern, wie beispielsweise die Bildsegmentierung. Im Gegensatz zu herkömmlichen CNNs, die vollständig verbundene Schichten zur Klassifizierung verwenden, ersetzen FCNs diese Schichten durch Faltungsschichten. Diese Modifikation ermöglicht es FCNs, räumliche Informationen im gesamten Netzwerk zu bewahren und pixelweise Vorhersagen zu erstellen. FCNs enthalten häufig Upsampling-Schichten oder transponierte Faltungen, um die bei Pooling-Vorgängen verlorene räumliche Auflösung wiederherzustellen. Durch die Aufrechterhaltung der End-to-End-Faltungsverarbeitung verarbeiten FCNs effizient Ein- und Ausgaben beliebiger Größe, wodurch sie sich gut für Aufgaben wie semantische Segmentierung und Objekterkennung in Bildern eignen.