Les réseaux de neurones convolutifs (CNN) fonctionnent en exploitant les couches convolutives pour apprendre automatiquement les représentations hiérarchiques des données d’entrée, telles que les images. Chaque couche convolutive est constituée de filtres (également appelés noyaux) qui glissent sur les données d’entrée, effectuant des opérations de convolution pour extraire des fonctionnalités. Ces fonctionnalités capturent des motifs spatiaux tels que les bords, les textures et les formes. Le réseau apprend à détecter des modèles de plus en plus complexes à mesure que les informations circulent à travers des couches convolutives successives. La mise en commun des couches réduit ensuite les dimensions spatiales des cartes de caractéristiques, préservant ainsi les informations importantes tout en améliorant l’efficacité des calculs. Enfin, des couches entièrement connectées traitent des cartes de caractéristiques aplaties pour effectuer des prédictions basées sur les caractéristiques apprises.
Les CNN fonctionnent en appliquant une série de couches convolutives et de regroupement aux données d’entrée. Les couches convolutives utilisent de petits filtres qui glissent sur l’entrée, effectuant une multiplication et une sommation par élément pour générer des cartes de caractéristiques. Ces cartes de fonctionnalités capturent des modèles localisés dans les données d’entrée. Les couches de regroupement sous-échantillonnent ensuite les cartes de caractéristiques, réduisant ainsi les dimensions spatiales et extrayant les caractéristiques dominantes. Ce processus d’extraction de caractéristiques hiérarchique permet aux CNN d’apprendre des représentations robustes de données complexes, ce qui les rend efficaces pour des tâches telles que la classification d’images, la détection d’objets et la segmentation d’images.
Les réseaux de neurones à convolution profonde (DCNN) étendent l’architecture des CNN en empilant plusieurs couches convolutives pour apprendre des fonctionnalités de plus en plus abstraites. À mesure que les données circulent à travers des couches plus profondes, le réseau apprend des représentations hiérarchiques des entités, capturant ainsi des relations complexes dans les données d’entrée. Les DCNN intègrent souvent des techniques supplémentaires telles que la normalisation par lots, la régularisation des abandons et les connexions résiduelles pour améliorer la stabilité et les performances de la formation. Ces architectures plus approfondies permettent aux DCNN d’obtenir des résultats de pointe dans les tâches de vision par ordinateur, telles que la reconnaissance d’images et la segmentation sémantique.
Le mécanisme des CNN tourne autour de l’utilisation de couches convolutives, qui utilisent des filtres pour détecter les caractéristiques des données d’entrée. Chaque filtre glisse sur l’entrée, effectuant des opérations de convolution pour extraire des caractéristiques telles que les bords, les textures et les motifs. Le réseau apprend à reconnaître ces caractéristiques en ajustant les poids des filtres pendant la formation par rétropropagation, où les erreurs sont minimisées de manière itérative. En empilant plusieurs couches convolutives avec des fonctions d’activation non linéaires, les CNN peuvent modéliser des relations complexes et des représentations hiérarchiques au sein des données, permettant un apprentissage et une inférence efficaces.
Les réseaux entièrement convolutifs (FCN) adaptent les architectures CNN aux tâches nécessitant une sortie spatiale, telles que la segmentation d’images. Contrairement aux CNN traditionnels, qui utilisent des couches entièrement connectées pour la classification, les FCN remplacent ces couches par des couches convolutives. Cette modification permet aux FCN de préserver les informations spatiales sur l’ensemble du réseau, produisant ainsi des prédictions au niveau des pixels. Les FCN intègrent souvent des couches de suréchantillonnage ou des convolutions transposées pour récupérer la résolution spatiale perdue lors des opérations de pooling. En maintenant un traitement convolutif de bout en bout, les FCN gèrent efficacement les entrées et sorties de tailles arbitraires, ce qui les rend bien adaptés à des tâches telles que la segmentation sémantique et la détection d’objets dans les images.