Las redes neuronales convolucionales (CNN) funcionan aprovechando capas convolucionales para aprender automáticamente representaciones jerárquicas de datos de entrada, como imágenes. Cada capa convolucional consta de filtros (también llamados núcleos) que se deslizan sobre los datos de entrada y realizan operaciones de convolución para extraer características. Estas características capturan patrones espaciales como bordes, texturas y formas. La red aprende a detectar patrones cada vez más complejos a medida que la información fluye a través de sucesivas capas convolucionales. Luego, la agrupación de capas reduce las dimensiones espaciales de los mapas de características, preservando información importante y mejorando al mismo tiempo la eficiencia computacional. Finalmente, las capas completamente conectadas procesan mapas de características aplanadas para hacer predicciones basadas en características aprendidas.
Las CNN funcionan aplicando una serie de capas convolucionales y de agrupación a los datos de entrada. Las capas convolucionales utilizan pequeños filtros que se deslizan a través de la entrada, realizando una multiplicación y suma de elementos para generar mapas de características. Estos mapas de características capturan patrones localizados en los datos de entrada. Posteriormente, las capas de agrupación reducen la muestra de los mapas de características, reduciendo las dimensiones espaciales y extrayendo las características dominantes. Este proceso de extracción de características jerárquicas permite a las CNN aprender representaciones sólidas de datos complejos, lo que las hace efectivas para tareas como clasificación de imágenes, detección de objetos y segmentación de imágenes.
Las redes neuronales convolucionales profundas (DCNN) amplían la arquitectura de las CNN al apilar múltiples capas convolucionales para aprender características cada vez más abstractas. A medida que los datos fluyen a través de capas más profundas, la red aprende representaciones jerárquicas de características, capturando relaciones complejas en los datos de entrada. Las DCNN a menudo incorporan técnicas adicionales como normalización por lotes, regularización de abandonos y conexiones residuales para mejorar la estabilidad y el rendimiento del entrenamiento. Estas arquitecturas más profundas permiten a las DCNN lograr resultados de última generación en tareas de visión por computadora, como el reconocimiento de imágenes y la segmentación semántica.
El mecanismo de las CNN gira en torno al uso de capas convolucionales, que emplean filtros para detectar características en los datos de entrada. Cada filtro se desliza sobre la entrada y realiza operaciones de convolución para extraer características como bordes, texturas y patrones. La red aprende a reconocer estas características ajustando los pesos de los filtros durante el entrenamiento mediante retropropagación, donde los errores se minimizan de forma iterativa. Al apilar múltiples capas convolucionales con funciones de activación no lineales, las CNN pueden modelar relaciones complejas y representaciones jerárquicas dentro de los datos, lo que permite un aprendizaje y una inferencia efectivos.
Las redes totalmente convolucionales (FCN) adaptan las arquitecturas CNN para tareas que requieren salida espacial, como la segmentación de imágenes. A diferencia de las CNN tradicionales, que utilizan capas completamente conectadas para la clasificación, las FCN reemplazan estas capas con capas convolucionales. Esta modificación permite a las FCN preservar información espacial en toda la red, produciendo predicciones por píxeles. Los FCN a menudo incorporan capas de muestreo ascendente o convoluciones transpuestas para recuperar la resolución espacial perdida durante las operaciones de agrupación. Al mantener el procesamiento convolucional de un extremo a otro, los FCN manejan eficientemente entradas y salidas de tamaños arbitrarios, lo que los hace adecuados para tareas como la segmentación semántica y la detección de objetos en imágenes.