Konwolucyjne sieci neuronowe (CNN) działają poprzez wykorzystanie warstw splotowych do automatycznego uczenia się hierarchicznych reprezentacji danych wejściowych, takich jak obrazy. Każda warstwa splotowa składa się z filtrów (zwanych także jądrami), które przesuwają się po danych wejściowych, wykonując operacje splotu w celu wyodrębnienia cech. Funkcje te umożliwiają przechwytywanie wzorów przestrzennych, takich jak krawędzie, tekstury i kształty. Sieć uczy się wykrywać coraz bardziej złożone wzorce w miarę przepływu informacji przez kolejne warstwy splotowe. Łączenie warstw zmniejsza następnie wymiary przestrzenne map obiektów, zachowując ważne informacje, jednocześnie zwiększając wydajność obliczeniową. Wreszcie w pełni połączone warstwy przetwarzają spłaszczone mapy obiektów, aby dokonywać prognoz na podstawie wyuczonych obiektów.
Sieci CNN działają poprzez zastosowanie szeregu warstw splotowych i pulowych do danych wejściowych. Warstwy splotowe wykorzystują małe filtry, które przesuwają się po wejściu, wykonując mnożenie i sumowanie elementów w celu wygenerowania map obiektów. Te mapy obiektów przechwytują zlokalizowane wzorce w danych wejściowych. Łączenie warstw powoduje następnie zmniejszenie próbkowania map obiektów, redukując wymiary przestrzenne i wyodrębniając cechy dominujące. Ten hierarchiczny proces ekstrakcji cech pozwala sieciom CNN uczyć się solidnych reprezentacji złożonych danych, dzięki czemu są one skuteczne w zadaniach takich jak klasyfikacja obrazu, wykrywanie obiektów i segmentacja obrazu.
Głębokie splotowe sieci neuronowe (DCNN) rozszerzają architekturę sieci CNN, łącząc wiele warstw splotowych, aby uczyć się coraz bardziej abstrakcyjnych funkcji. W miarę przepływu danych przez głębsze warstwy sieć uczy się hierarchicznych reprezentacji cech, wychwytując złożone relacje w danych wejściowych. Sieci DCNN często zawierają dodatkowe techniki, takie jak normalizacja partii, regularyzacja przerywania zajęć i połączenia resztkowe, aby poprawić stabilność i wydajność treningu. Te głębsze architektury umożliwiają sieciom DCNN osiąganie najnowocześniejszych wyników w zadaniach związanych z wizją komputerową, takich jak rozpoznawanie obrazów i segmentacja semantyczna.
Mechanizm sieci CNN opiera się na wykorzystaniu warstw splotowych, które wykorzystują filtry do wykrywania cech w danych wejściowych. Każdy filtr przesuwa się po wejściu, wykonując operacje splotu w celu wyodrębnienia cech, takich jak krawędzie, tekstury i wzorki. Sieć uczy się rozpoznawać te cechy, dostosowując wagi filtrów podczas uczenia poprzez propagację wsteczną, gdzie błędy są minimalizowane iteracyjnie. Dzięki ułożeniu wielu warstw splotowych z nieliniowymi funkcjami aktywacji sieci CNN mogą modelować złożone relacje i hierarchiczne reprezentacje w danych, umożliwiając efektywne uczenie się i wnioskowanie.
W pełni konwolucyjne sieci (FCN) dostosowują architektury CNN do zadań wymagających wyników przestrzennych, takich jak segmentacja obrazu. W przeciwieństwie do tradycyjnych sieci CNN, które do klasyfikacji wykorzystują w pełni połączone warstwy, sieci FCN zastępują te warstwy warstwami splotowymi. Ta modyfikacja umożliwia FCN zachowanie informacji przestrzennych w całej sieci, tworząc prognozy w oparciu o piksele. Sieci FCN często zawierają warstwy upsamplingu lub transponowane sploty w celu odzyskania rozdzielczości przestrzennej utraconej podczas operacji łączenia. Zachowując kompleksowe przetwarzanie splotowe, sieci FCN skutecznie obsługują dane wejściowe i wyjściowe o dowolnych rozmiarach, dzięki czemu dobrze nadają się do zadań takich jak segmentacja semantyczna i wykrywanie obiektów w obrazach.