4.3.1. Conceptos Básicos

Introducción

Para entender cómo funciona la visión por computadora, es importante conocer el flujo de trabajo típico, que incluye varios pasos:

Flujo de Trabajo Típico

Adquisición de Imágenes

El primer paso es la captura de datos visuales, que pueden provenir de cámaras digitales, sensores de profundidad, escáneres 3D o cualquier otro dispositivo capaz de registrar información visual.

Preprocesamiento de Imágenes

Una vez adquiridas las imágenes, se aplican técnicas para mejorar la calidad de la imagen o para adaptarla a las siguientes fases. Esto incluye la eliminación de ruido, la corrección de iluminación o la normalización de tamaños y formatos.

Segmentación

En esta fase, la imagen se divide en regiones o segmentos que son más fáciles de analizar. Los algoritmos identifican las diferentes partes de la imagen que podrían representar objetos o características importantes.

Extracción de Características

Aquí, se extraen características clave de las imágenes, como bordes, formas, colores o texturas. Las redes neuronales convolucionales (CNN) son especialmente eficientes para realizar este tipo de tareas.

Reconocimiento y Clasificación

Los sistemas de visión por computadora utilizan algoritmos de aprendizaje automático, redes neuronales profundas y modelos entrenados para identificar y clasificar los objetos dentro de una imagen o secuencia de video.

Análisis y Toma de Decisiones

Después de reconocer los objetos o patrones en una imagen, el sistema puede realizar una acción o tomar decisiones en función del análisis. Esto podría incluir desde etiquetar una imagen hasta controlar una máquina, como un robot o un coche autónomo.

Todo este proceso, lo analizaremos después con un ejercicio para Reconocimiento facial, ponte atento y sigue el curso para que puedas hacerlo. Mientras tanto, veamos las principales técnicas en visión por computadora para posteriormente ver las aplicaciones. Para poder incursionar en las técnicas debemos iniciar con un fundamento y ese es el Reconocimiento de patrones.

Según Christopher Bishop (Bishop, Christopher M., 2006). El reconocimiento de patrones se enfoca en la identificación y clasificación de estructuras, regularidades o características en conjuntos de datos. El objetivo es que un sistema pueda detectar patrones dentro de datos complejos, como imágenes, sonidos, textos o series temporales, y clasificarlos o categorizarlos en función de esos patrones.

Reconocimiento de Patrones

El reconocimiento de patrones es la base fundamental para la identificación de formas, objetos en imágenes, tales como rostros, objetos, texto o estructuras en imágenes médicas y por tanto es el fundamento para la visión por computadora. Entre las áreas de uso encontramos:

Detección de Objetos

Este es el proceso de localizar instancias específicas de objetos de interés (como vehículos, personas, o animales) dentro de una imagen o un video.

Seguimiento de Objetos

Consiste en seguir el movimiento de objetos en una secuencia de imágenes o video. Es fundamental en aplicaciones de seguridad, deportes, y robótica.

Segmentación de Imágenes

Consiste en separar diferentes objetos o regiones en una imagen. Es útil en aplicaciones médicas o de seguridad.

Técnicas Clave en Visión por Computadora

Para que las computadoras puedan hacer esto, existen técnicas tales como:

Las redes neuronales que vimos anteriormente (aprendizaje profundo).
Los métodos basados en histogramas.
Los descriptores locales.
El análisis de componentes principales (PCA).
Las Máquinas de Vectores de Soporte (SVM).
Los Bosques aleatorios.

Elección de la Técnica Adecuada

Y para elegir la técnica adecuada dependemos de varios factores:

El tipo de datos: Imágenes, videos, datos 3D.
La tarea: Clasificación, detección, segmentación, etc.
La cantidad de datos disponibles: Para el aprendizaje profundo se requieren grandes conjuntos de datos.
La precisión requerida: Algunas técnicas ofrecen mayor precisión que otras.
El tiempo de procesamiento: Algunas técnicas son más computacionalmente costosas que otras.

En resumen, La visión por computadora está transformando industrias clave como la medicina, la automoción, el entretenimiento y la seguridad. Las mejoras en las redes neuronales profundas, especialmente con modelos como las redes neuronales convolucionales (CNN), están acelerando el desarrollo de sistemas de visión por computadora más precisos y versátiles, lo que nos lleva cada vez más cerca de una verdadera interacción máquina-humano en el mundo visual.

A course by: Master Alberto Ramírez Regalado

Recursos: 0 Descargables

Duración: 1 Hora