As Redes Neurais Convolucionais (CNNs) funcionam aproveitando camadas convolucionais para aprender automaticamente representações hierárquicas de dados de entrada, como imagens. Cada camada convolucional consiste em filtros (também chamados de kernels) que deslizam sobre os dados de entrada, realizando operações de convolução para extrair recursos. Esses recursos capturam padrões espaciais como bordas, texturas e formas. A rede aprende a detectar padrões cada vez mais complexos à medida que a informação flui através de sucessivas camadas convolucionais. O agrupamento de camadas reduz as dimensões espaciais dos mapas de recursos, preservando informações importantes e, ao mesmo tempo, aumentando a eficiência computacional. Finalmente, camadas totalmente conectadas processam mapas de recursos nivelados para fazer previsões com base em recursos aprendidos.
As CNNs operam aplicando uma série de camadas convolucionais e de pooling aos dados de entrada. Camadas convolucionais usam pequenos filtros que deslizam pela entrada, realizando multiplicação e soma elemento a elemento para gerar mapas de recursos. Esses mapas de recursos capturam padrões localizados nos dados de entrada. O agrupamento de camadas subseqüentemente reduz a resolução dos mapas de recursos, reduzindo as dimensões espaciais e extraindo recursos dominantes. Esse processo hierárquico de extração de recursos permite que as CNNs aprendam representações robustas de dados complexos, tornando-as eficazes para tarefas como classificação de imagens, detecção de objetos e segmentação de imagens.
Redes Neurais Convolucionais Profundas (DCNNs) estendem a arquitetura das CNNs empilhando múltiplas camadas convolucionais para aprender recursos cada vez mais abstratos. À medida que os dados fluem através de camadas mais profundas, a rede aprende representações hierárquicas de recursos, capturando relacionamentos complexos nos dados de entrada. As DCNNs geralmente incorporam técnicas adicionais como normalização de lote, regularização de abandono e conexões residuais para melhorar a estabilidade e o desempenho do treinamento. Essas arquiteturas mais profundas permitem que as DCNNs alcancem resultados de última geração em tarefas de visão computacional, como reconhecimento de imagens e segmentação semântica.
O mecanismo das CNNs gira em torno do uso de camadas convolucionais, que empregam filtros para detectar características nos dados de entrada. Cada filtro desliza sobre a entrada, realizando operações de convolução para extrair recursos como bordas, texturas e padrões. A rede aprende a reconhecer esses recursos ajustando os pesos dos filtros durante o treinamento por meio de retropropagação, onde os erros são minimizados iterativamente. Ao empilhar múltiplas camadas convolucionais com funções de ativação não lineares, as CNNs podem modelar relacionamentos complexos e representações hierárquicas dentro dos dados, permitindo aprendizagem e inferência eficazes.
Redes Totalmente Convolucionais (FCNs) adaptam arquiteturas CNN para tarefas que exigem saída espacial, como segmentação de imagens. Ao contrário das CNNs tradicionais, que utilizam camadas totalmente conectadas para classificação, as FCNs substituem essas camadas por camadas convolucionais. Esta modificação permite que os FCNs preservem informações espaciais em toda a rede, produzindo previsões em pixels. Os FCNs geralmente incorporam camadas de upsampling ou convoluções transpostas para recuperar a resolução espacial perdida durante as operações de pooling. Ao manter o processamento convolucional de ponta a ponta, os FCNs lidam com eficiência com entradas e saídas de tamanhos arbitrários, tornando-os adequados para tarefas como segmentação semântica e detecção de objetos em imagens.