Eine Faltungsschicht in einem neuronalen Netzwerk, die speziell für Faltungs-Neuronale Netzwerke (CNNs) entwickelt wurde, wendet Faltungsoperationen auf Eingabedaten an. Diese Schichten bestehen aus Filtern (auch als Kernel bezeichnet), die über Eingabedaten gleiten und Skalarprodukte zwischen den Filtergewichten und lokalen Regionen der Eingabe berechnen. Die Ausgabe dieser Operationen bildet Feature-Maps, die räumliche Hierarchien und Muster innerhalb der Eingabedaten hervorheben. Faltungsschichten sind in CNN-Architekturen von grundlegender Bedeutung und tragen zu ihrer Fähigkeit bei, hierarchische Darstellungen von Merkmalen wie Kanten, Texturen und Formen aus Bildern und anderen räumlichen Daten zu extrahieren und zu lernen.
Ein Convolutional Neural Network (CNN) ist eine Art Deep-Learning-Modell, das speziell auf die Verarbeitung strukturierter gitterartiger Daten wie Bilder oder Zeitreihendaten zugeschnitten ist. Vereinfacht ausgedrückt besteht ein CNN aus mehreren Schichten, einschließlich Faltungsschichten, Pooling-Schichten und vollständig verbundenen Schichten. Die Architektur des Netzwerks ist von der Organisation des visuellen Kortex von Tieren inspiriert und nutzt gemeinsame Gewichtungen und lokale Konnektivität, um hierarchische Merkmale effizient aus Eingabedaten zu extrahieren. CNNs zeichnen sich bei Aufgaben wie Bildklassifizierung, Objekterkennung und Bildsegmentierung durch ihre Fähigkeit aus, Muster in visuellen Daten automatisch zu lernen und zu identifizieren.
Der Begriff „Faltung“ in Faltungsschichten ergibt sich aus der mathematischen Operation der Faltung, die auf die Eingabedaten angewendet wird. Bei der Bildverarbeitung wird bei der Faltung eine kleine Matrix (der Filter oder Kernel) über das Eingabebild geschoben und das Skalarprodukt zwischen dem Filter und lokalen Patches des Bildes berechnet. Dieser Prozess ermöglicht die Extraktion von Merkmalen wie Kanten, Texturen und Mustern aus den Eingabedaten und bildet die Grundlage für nachfolgende Schichten, um abstraktere Darstellungen zu lernen. Die Verwendung von Faltungsschichten in CNNs ermöglicht es dem Netzwerk, hochdimensionale Daten wie Bilder effizient zu verarbeiten und aussagekräftige Merkmale zu extrahieren.
Die Idee hinter Convolutional Neural Networks (CNNs) besteht darin, die hierarchische Organisation des menschlichen visuellen Systems nachzuahmen, um immer abstraktere Darstellungen von Daten zu extrahieren. CNNs nutzen Faltungsschichten, um Filter auf Eingabedaten anzuwenden und lokale Muster und räumliche Beziehungen zu erfassen. Durch das Poolen von Schichten werden dann Merkmale aggregiert, wodurch die räumlichen Abmessungen reduziert und gleichzeitig wichtige Informationen erhalten bleiben. Schließlich integrieren vollständig verbundene Schichten extrahierte Merkmale für Klassifizierungs- oder Regressionsaufgaben. Diese hierarchische Merkmalsextraktion ermöglicht es CNNs, komplexe Muster direkt aus Rohdaten zu lernen, was sie zu leistungsstarken Werkzeugen für Aufgaben macht, die das Verständnis räumlicher Strukturen und Muster erfordern, wie etwa Bilderkennung und -analyse.