Para entender cómo funciona la visión por computadora, es importante conocer el flujo de trabajo típico, que incluye varios pasos:
El primer paso es la captura de datos visuales, que pueden provenir de cámaras digitales, sensores de profundidad, escáneres 3D o cualquier otro dispositivo capaz de registrar información visual.
Una vez adquiridas las imágenes, se aplican técnicas para mejorar la calidad de la imagen o para adaptarla a las siguientes fases. Esto incluye la eliminación de ruido, la corrección de iluminación o la normalización de tamaños y formatos.
En esta fase, la imagen se divide en regiones o segmentos que son más fáciles de analizar. Los algoritmos identifican las diferentes partes de la imagen que podrían representar objetos o características importantes.
Aquí, se extraen características clave de las imágenes, como bordes, formas, colores o texturas. Las redes neuronales convolucionales (CNN) son especialmente eficientes para realizar este tipo de tareas.
Los sistemas de visión por computadora utilizan algoritmos de aprendizaje automático, redes neuronales profundas y modelos entrenados para identificar y clasificar los objetos dentro de una imagen o secuencia de video.
Después de reconocer los objetos o patrones en una imagen, el sistema puede realizar una acción o tomar decisiones en función del análisis. Esto podría incluir desde etiquetar una imagen hasta controlar una máquina, como un robot o un coche autónomo.
Todo este proceso, lo analizaremos después con un ejercicio para Reconocimiento facial, ponte atento y sigue el curso para que puedas hacerlo. Mientras tanto, veamos las principales técnicas en visión por computadora para posteriormente ver las aplicaciones. Para poder incursionar en las técnicas debemos iniciar con un fundamento y ese es el Reconocimiento de patrones.
Según Christopher Bishop (Bishop, Christopher M., 2006). El reconocimiento de patrones se enfoca en la identificación y clasificación de estructuras, regularidades o características en conjuntos de datos. El objetivo es que un sistema pueda detectar patrones dentro de datos complejos, como imágenes, sonidos, textos o series temporales, y clasificarlos o categorizarlos en función de esos patrones.
El reconocimiento de patrones es la base fundamental para la identificación de formas, objetos en imágenes, tales como rostros, objetos, texto o estructuras en imágenes médicas y por tanto es el fundamento para la visión por computadora. Entre las áreas de uso encontramos:
Este es el proceso de localizar instancias específicas de objetos de interés (como vehículos, personas, o animales) dentro de una imagen o un video.
Consiste en seguir el movimiento de objetos en una secuencia de imágenes o video. Es fundamental en aplicaciones de seguridad, deportes, y robótica.
Consiste en separar diferentes objetos o regiones en una imagen. Es útil en aplicaciones médicas o de seguridad.
Para que las computadoras puedan hacer esto, existen técnicas tales como:
Y para elegir la técnica adecuada dependemos de varios factores:
En resumen, La visión por computadora está transformando industrias clave como la medicina, la automoción, el entretenimiento y la seguridad. Las mejoras en las redes neuronales profundas, especialmente con modelos como las redes neuronales convolucionales (CNN), están acelerando el desarrollo de sistemas de visión por computadora más precisos y versátiles, lo que nos lleva cada vez más cerca de una verdadera interacción máquina-humano en el mundo visual.
Recursos: 0 Descargables
Duración: 1 Hora