En principio las aplicaciones más novedosas de la visión por computadora en los últimos años se da en los siguientes industrias:
Los vehículos autónomos utilizan la visión por computadora para interpretar su entorno en tiempo real y tomar decisiones de conducción. Este sistema procesa imágenes de cámaras, junto con otros datos de sensores (como LIDAR y radar), para identificar obstáculos, peatones, señales de tráfico y otros vehículos.
Videos: Thomas Shwenke ES (4 Junio 2018), ¿Cómo funciona un vehículo autónomo? (Animación).
Carscoops (31 Enero 2020),This Is What Tesla’s Autopilot Sees On The Road.
Waymo (1 Agosto 2022 ), Sense, Solve, and Go: The Magic of the Waymo Driver.
La visión por computadora permite desarrollar sistemas de vigilancia inteligentes que pueden detectar y seguir personas u objetos sospechosos, realizar análisis de comportamiento o incluso identificar intrusiones de manera autónoma.
Video: DW Español (2 Junio 2021), ¿Es un sistema de vigilancia o de control extremo en China?.
Video: AGENCIA EFE (4 Diciembre 2018), Los “ojos cibernético” más avanzados están en China: ¿seguridad o control?.
Es una de las aplicaciones más populares y ampliamente utilizadas de la visión por computadora. Los sistemas pueden identificar a las personas a partir de sus rasgos faciales, comparando sus características únicas con bases de datos almacenadas.
Insider Tech (13 Noviembre 2017)Using An Infrared Camera To Show How Face ID Works.
Interesting Engineering (24 Julio 2020), How does facial recognition work?.
En el sector del comercio, la visión por computadora se utiliza para mejorar la experiencia del cliente y optimizar las operaciones. Esto incluye desde el análisis de comportamiento del cliente hasta sistemas de pago automáticos basados en reconocimiento de productos.
Video: Xataka (22 Enero 2018), Amazon Go: así quiere Amazon que sean las TIENDAS DEL FUTURO.
La visión por computadora permite el desarrollo de experiencias inmersivas en AR y VR, donde los sistemas son capaces de entender el entorno físico y superponer objetos digitales de manera coherente en él.
Lo mas nuevo de la realidad aumentada y realidad virtual: UploadVR (25 Septiembre 2024), In Full: Mark Zuckerberg Reveals “Orion” Prototype AR Glasses:
The Verge (25 Septiembre 2024), Exclusive: We tried Meta’s AR glasses with Mark Zuckerberg:
Apple (19 Enero 2024), A Guided Tour of Apple Vision Pro:
En la agricultura, la visión por computadora ayuda a optimizar la producción agrícola al monitorear cultivos, identificar plagas, y controlar el crecimiento de plantas de manera más eficiente.
Video: John Deere (17 Enero 2022), See & Spray™ Ultimate Theory of Operation | John Deere:
En resumen la visión por computadora está transformando radicalmente múltiples industrias, en este subtema hemos visto muchas de ellas, aunque los usos siguen apareciendo y sorprendiendo cada día. Todo esto gracias a los avances en redes neuronales profundas y algoritmos de procesamiento de imágenes que están permitiendo a las máquinas comprender el mundo visual de una manera que antes era impensable. Aunque todavía enfrenta desafíos, el potencial de esta tecnología es inmenso, y seguirá desempeñando un papel clave en el futuro de la inteligencia artificial y la automatización.
Crear un OCR en Python.
Objetivos, Saberes y Habilidades a Desarrollar:
Herramientas y Librerías:
Introducción:
La creación de aplicaciones de reconocimiento óptico de caracteres (OCR, por sus siglas en inglés) es una de las áreas más interesantes y útiles de la inteligencia artificial (IA), con aplicaciones que van desde la digitalización de documentos hasta la automatización de procesos empresariales. En esta práctica, desarrollaremos un software o aplicación OCR capaz de leer un documento a través de una fotografía y transcribir su contenido en un archivo de texto editable. Este proceso involucra varios componentes clave de la IA, como el procesamiento de imágenes, el aprendizaje automático y la comprensión del lenguaje natural, para convertir imágenes de texto en datos útiles.
La IA juega un papel fundamental en OCR, ya que permite a las máquinas reconocer, interpretar y extraer texto de imágenes, incluso cuando el documento está en un formato complejo, como una fotografía de un papel impreso. Las técnicas de aprendizaje profundo (deep learning) y redes neuronales convolucionales (CNN) son ampliamente utilizadas en OCR, mejorando la precisión y eficiencia del proceso. Al desarrollar esta aplicación, no solo exploraremos cómo aplicar estos algoritmos, sino también cómo optimizar el rendimiento de la solución para hacerla lo suficientemente robusta como para manejar documentos de distintas calidades, fuentes y formatos.
Este tipo de tecnología tiene numerosas aplicaciones prácticas en el mundo real, como la digitalización de archivos físicos, la automatización de la entrada de datos en sistemas empresariales, la mejora de la accesibilidad para personas con discapacidades visuales, y la extracción de información clave de documentos legales o financieros. A través de esta práctica, se evidenciará el impacto de la inteligencia artificial en tareas cotidianas, permitiendo a los sistemas ser más inteligentes, rápidos y capaces de aprender de datos visuales para mejorar la interacción entre los seres humanos y la tecnología.
Metodología y descripción de la actividad:
1. Configuración del Entorno:
2. Crea un script Básico:
Figura 4.4
3. Prueba con diferentes imágenes:
Entregables y Reporte Final:
Recursos: 1 Descargable
Duración: 2.5 Horas