Le reti neurali convoluzionali (CNN) funzionano sfruttando i livelli convoluzionali per apprendere automaticamente le rappresentazioni gerarchiche dei dati di input, come le immagini. Ogni livello convoluzionale è costituito da filtri (chiamati anche kernel) che scorrono sui dati di input, eseguendo operazioni di convoluzione per estrarre le caratteristiche. Queste funzionalità catturano modelli spaziali come bordi, trame e forme. La rete impara a rilevare modelli sempre più complessi man mano che le informazioni fluiscono attraverso strati convoluzionali successivi. Il raggruppamento dei livelli riduce quindi le dimensioni spaziali delle mappe delle caratteristiche, preservando informazioni importanti e migliorando al tempo stesso l’efficienza computazionale. Infine, i livelli completamente connessi elaborano le mappe delle caratteristiche appiattite per fare previsioni basate sulle caratteristiche apprese.
Le CNN operano applicando una serie di livelli convoluzionali e di pooling ai dati di input. I livelli convoluzionali utilizzano piccoli filtri che scorrono sull’input, eseguendo moltiplicazioni e somme per elemento per generare mappe di caratteristiche. Queste mappe di funzionalità catturano modelli localizzati nei dati di input. Il raggruppamento dei livelli successivamente effettua il downsampling delle mappe delle caratteristiche, riducendo le dimensioni spaziali ed estraendo le caratteristiche dominanti. Questo processo di estrazione gerarchica delle caratteristiche consente alle CNN di apprendere rappresentazioni robuste di dati complessi, rendendoli efficaci per attività come la classificazione delle immagini, il rilevamento di oggetti e la segmentazione delle immagini.
Le reti neurali convoluzionali profonde (DCNN) estendono l’architettura delle CNN impilando più strati convoluzionali per apprendere funzionalità sempre più astratte. Man mano che i dati fluiscono attraverso strati più profondi, la rete apprende rappresentazioni gerarchiche delle caratteristiche, catturando relazioni complesse nei dati di input. I DCNN spesso incorporano tecniche aggiuntive come la normalizzazione batch, la regolarizzazione degli abbandoni e le connessioni residue per migliorare la stabilità e le prestazioni dell’addestramento. Queste architetture più profonde consentono alle DCNN di ottenere risultati all’avanguardia nelle attività di visione artificiale, come il riconoscimento delle immagini e la segmentazione semantica.
Il meccanismo delle CNN ruota attorno all’uso di livelli convoluzionali, che impiegano filtri per rilevare caratteristiche nei dati di input. Ogni filtro scorre sull’input, eseguendo operazioni di convoluzione per estrarre caratteristiche come bordi, trame e motivi. La rete impara a riconoscere queste caratteristiche regolando i pesi dei filtri durante l’addestramento attraverso la backpropagation, dove gli errori vengono ridotti al minimo in modo iterativo. Impilando più livelli convoluzionali con funzioni di attivazione non lineare, le CNN possono modellare relazioni complesse e rappresentazioni gerarchiche all’interno dei dati, consentendo apprendimento e inferenza efficaci.
Le reti completamente convoluzionali (FCN) adattano le architetture CNN per attività che richiedono output spaziale, come la segmentazione delle immagini. A differenza delle CNN tradizionali, che utilizzano livelli completamente connessi per la classificazione, le FCN sostituiscono questi livelli con livelli convoluzionali. Questa modifica consente alle FCN di preservare le informazioni spaziali in tutta la rete, producendo previsioni in termini di pixel. Gli FCN spesso incorporano strati di sovracampionamento o convoluzioni trasposte per recuperare la risoluzione spaziale persa durante le operazioni di pooling. Mantenendo l’elaborazione convoluzionale end-to-end, le FCN gestiscono in modo efficiente input e output di dimensioni arbitrarie, rendendole adatte per attività come la segmentazione semantica e il rilevamento di oggetti nelle immagini.