Reconocimiento automático de objetivos: Avances en técnicas de visión por computadora para el reconocimiento de objetivos
Por Fouad Sabry
()
Información de este libro electrónico
Qué es el reconocimiento automático de objetivos
La capacidad de un algoritmo o dispositivo para reconocer objetivos u otros objetos basándose en datos adquiridos de sensores se conoce como reconocimiento automático de objetivos, un abreviatura de estas capacidades.
Cómo se beneficiará
(I) Información y validaciones sobre los siguientes temas:
Capítulo 1: Reconocimiento automático de objetivos
Capítulo 2: Visión por computadora
Capítulo 3: Radar
Capítulo 4: Radar Doppler
Capítulo 5: Radar de apertura sintética
Capítulo 6: Radar de imágenes
Capítulo 7: Formación de haces
Capítulo 8: Radar Doppler de pulso
Capítulo 9 : Radar pasivo
Capítulo 10: Radar de apertura sintética inversa
(II) Respondiendo a las principales preguntas del público sobre el reconocimiento automático de objetivos.
(III) Mundo real ejemplos del uso del reconocimiento automático de objetivos en muchos campos.
Para quién es este libro
Profesionales, estudiantes de pregrado y posgrado, entusiastas, aficionados y aquellos que quieran ir más allá del conocimiento o información básica para cualquier tipo de Reconocimiento Automático de Objetivos.
Otros títulos de la serie Reconocimiento automático de objetivos ( 30 )
Homografía: Homografía: Transformaciones en Visión por Computador Calificación: 0 de 5 estrellas0 calificacionesVisión estéreo por computadora: Explorando la percepción de profundidad en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesHistograma de imagen: Revelando conocimientos visuales, explorando las profundidades de los histogramas de imágenes en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesVisión por computadora submarina: Explorando las profundidades de la visión por computadora debajo de las olas Calificación: 0 de 5 estrellas0 calificacionesVisión por computador: Explorando las profundidades de la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesEcualización de histograma: Mejora del contraste de la imagen para mejorar la percepción visual Calificación: 0 de 5 estrellas0 calificacionesTransformación de radón: Revelando patrones ocultos en datos visuales Calificación: 0 de 5 estrellas0 calificacionesMapeo de tonos: Mapeo de tonos: perspectivas iluminadoras en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesModelo de apariencia de color: Comprensión de la percepción y la representación en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesTransformación dura: Revelando la magia de Hough Transform en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesModelo del sistema visual humano: Comprender la percepción y el procesamiento Calificación: 0 de 5 estrellas0 calificacionesTransformación de Hadamard: Revelando el poder de la transformación de Hadamard en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesTransformacion afin: Desbloqueo de perspectivas visuales: exploración de la transformación afín en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesEspacio de color: Explorando el espectro de la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesBanco de filtros: Información sobre las técnicas del banco de filtros de Computer Vision Calificación: 0 de 5 estrellas0 calificacionesDifusión anisotrópica: Mejora del análisis de imágenes mediante difusión anisotrópica Calificación: 0 de 5 estrellas0 calificacionesEn Pintura: Cerrar brechas en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCorrección gamma: Mejora de la claridad visual en la visión por computadora: la técnica de corrección gamma Calificación: 0 de 5 estrellas0 calificacionesReducción de ruido: Mejora de la claridad, técnicas avanzadas para la reducción del ruido en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCompresión de imagen: Técnicas eficientes para la optimización de datos visuales Calificación: 0 de 5 estrellas0 calificacionesRetinax: Revelando los secretos de la visión computacional con Retinex Calificación: 0 de 5 estrellas0 calificacionesProcesamiento de imágenes piramidales: Explorando las profundidades del análisis visual Calificación: 0 de 5 estrellas0 calificacionesFunción de combinación de colores: Comprensión de la sensibilidad espectral en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesPercepción visual: Información sobre el procesamiento visual computacional Calificación: 0 de 5 estrellas0 calificacionesTransformación lineal directa: Aplicaciones prácticas y técnicas en visión por computadora. Calificación: 0 de 5 estrellas0 calificacionesJoint Photographic Experts Group: Liberando el poder de los datos visuales con el estándar JPEG Calificación: 0 de 5 estrellas0 calificacionesDetector de esquinas Harris: Revelando la magia de la detección de características de imagen Calificación: 0 de 5 estrellas0 calificacionesDetector de bordes astuto: Revelando el arte de la percepción visual Calificación: 0 de 5 estrellas0 calificacionesDetección de contorno: Revelando el arte de la percepción visual en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesFiltro adaptativo: Mejora de la visión por computadora mediante filtrado adaptativo Calificación: 0 de 5 estrellas0 calificaciones
Relacionado con Reconocimiento automático de objetivos
Títulos en esta serie (100)
Homografía: Homografía: Transformaciones en Visión por Computador Calificación: 0 de 5 estrellas0 calificacionesVisión estéreo por computadora: Explorando la percepción de profundidad en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesHistograma de imagen: Revelando conocimientos visuales, explorando las profundidades de los histogramas de imágenes en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesVisión por computadora submarina: Explorando las profundidades de la visión por computadora debajo de las olas Calificación: 0 de 5 estrellas0 calificacionesVisión por computador: Explorando las profundidades de la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesEcualización de histograma: Mejora del contraste de la imagen para mejorar la percepción visual Calificación: 0 de 5 estrellas0 calificacionesTransformación de radón: Revelando patrones ocultos en datos visuales Calificación: 0 de 5 estrellas0 calificacionesMapeo de tonos: Mapeo de tonos: perspectivas iluminadoras en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesModelo de apariencia de color: Comprensión de la percepción y la representación en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesTransformación dura: Revelando la magia de Hough Transform en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesModelo del sistema visual humano: Comprender la percepción y el procesamiento Calificación: 0 de 5 estrellas0 calificacionesTransformación de Hadamard: Revelando el poder de la transformación de Hadamard en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesTransformacion afin: Desbloqueo de perspectivas visuales: exploración de la transformación afín en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesEspacio de color: Explorando el espectro de la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesBanco de filtros: Información sobre las técnicas del banco de filtros de Computer Vision Calificación: 0 de 5 estrellas0 calificacionesDifusión anisotrópica: Mejora del análisis de imágenes mediante difusión anisotrópica Calificación: 0 de 5 estrellas0 calificacionesEn Pintura: Cerrar brechas en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCorrección gamma: Mejora de la claridad visual en la visión por computadora: la técnica de corrección gamma Calificación: 0 de 5 estrellas0 calificacionesReducción de ruido: Mejora de la claridad, técnicas avanzadas para la reducción del ruido en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCompresión de imagen: Técnicas eficientes para la optimización de datos visuales Calificación: 0 de 5 estrellas0 calificacionesRetinax: Revelando los secretos de la visión computacional con Retinex Calificación: 0 de 5 estrellas0 calificacionesProcesamiento de imágenes piramidales: Explorando las profundidades del análisis visual Calificación: 0 de 5 estrellas0 calificacionesFunción de combinación de colores: Comprensión de la sensibilidad espectral en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesPercepción visual: Información sobre el procesamiento visual computacional Calificación: 0 de 5 estrellas0 calificacionesTransformación lineal directa: Aplicaciones prácticas y técnicas en visión por computadora. Calificación: 0 de 5 estrellas0 calificacionesJoint Photographic Experts Group: Liberando el poder de los datos visuales con el estándar JPEG Calificación: 0 de 5 estrellas0 calificacionesDetector de esquinas Harris: Revelando la magia de la detección de características de imagen Calificación: 0 de 5 estrellas0 calificacionesDetector de bordes astuto: Revelando el arte de la percepción visual Calificación: 0 de 5 estrellas0 calificacionesDetección de contorno: Revelando el arte de la percepción visual en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesFiltro adaptativo: Mejora de la visión por computadora mediante filtrado adaptativo Calificación: 0 de 5 estrellas0 calificaciones
Libros electrónicos relacionados
Software Afelio: Desbloqueando la visión: explorando las profundidades del software Aphelion Calificación: 0 de 5 estrellas0 calificacionesVer síntesis: Explorando perspectivas en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesPERCEPCIÓN VISUAL - Aplicada a la robótica Calificación: 0 de 5 estrellas0 calificacionesVisión de máquina: Información sobre el mundo de la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesGráficos de computadora: Explorando la intersección de gráficos por computadora y visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCámara inteligente: Revolucionando la percepción visual con la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesProgramación de GPUs Calificación: 0 de 5 estrellas0 calificacionesEspacio de escala: Explorando las dimensiones en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesReconstrucción tridimensional multivista: Técnicas avanzadas de percepción espacial en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesPantalla Volumétrica: Tecnología inspirada en Star Wars que puedes comprar ahora mismo Calificación: 0 de 5 estrellas0 calificacionesRepresentación de volumen: Explorando el realismo visual en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesRendering para arquitectos Calificación: 0 de 5 estrellas0 calificacionesDeterminación de superficies ocultas: Revelando los secretos de la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesDiseño asistido por computadora: Diseñando el futuro de la robótica a través de la ingeniería innovadora Calificación: 0 de 5 estrellas0 calificacionesEliminación de líneas ocultas: Revelando lo invisible: secretos de la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesRealidad Aumentada: ¿Es posible que la realidad aumentada tenga éxito donde la realidad virtual ha fallado? Calificación: 0 de 5 estrellas0 calificacionesFlujo óptico: Explorando patrones visuales dinámicos en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesRepresentación de línea de exploración: Explorando el realismo visual a través de técnicas de renderizado Scanline Calificación: 0 de 5 estrellas0 calificacionesRealidad Virtual: Llevar el concepto de realidad aumentada al siguiente nivel mediante la creación de una simulación completamente generada por computadora de un mundo diferente Calificación: 0 de 5 estrellas0 calificacionesArquitectura de subsunción: Diseño de sistemas inteligentes mediante control por capas Calificación: 0 de 5 estrellas0 calificacionesUF0306 - Análisis de datos y representación de planos Calificación: 0 de 5 estrellas0 calificacionesIngeniería neuromórfica: Caminos innovadores hacia sistemas inteligentes Calificación: 0 de 5 estrellas0 calificacionesRepresentación de gráficos por computadora: Explorando el realismo visual: conocimientos sobre gráficos por computadora Calificación: 0 de 5 estrellas0 calificacionesInteligencia Artificial Calificación: 4 de 5 estrellas4/5Robótica Autónoma: ¿Cómo aparecerá un robot autónomo en la portada de la revista Time? Calificación: 0 de 5 estrellas0 calificacionesFotosíntesis Artificial: Capturar y almacenar la energía de la luz solar para producir combustible solar Calificación: 0 de 5 estrellas0 calificacionesSuperficie procesal: Explorando la generación y el análisis de texturas en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesImpresión 4D: Espere un segundo, ¿dijo impresión 4D? Calificación: 0 de 5 estrellas0 calificacionesInteligencia Artificial Calificación: 0 de 5 estrellas0 calificaciones
Inteligencia (IA) y semántica para usted
Inteligencia artificial: Conversaciones ChatGPT Calificación: 0 de 5 estrellas0 calificacionesProgramación de Inteligencia Artificial. Curso Práctico Calificación: 0 de 5 estrellas0 calificacionesChat GPT-4 para Principiantes: Chat GPT, #1 Calificación: 0 de 5 estrellas0 calificacionesInteligencia Artificial Calificación: 4 de 5 estrellas4/5Inteligencia artificial: Una exploración filosófica sobre el futuro de la mente y la conciencia Calificación: 4 de 5 estrellas4/5Aprendizaje automático y profundo en python: Una mirada hacia la inteligencia artificial Calificación: 0 de 5 estrellas0 calificacionesMáquinas predictivas: La sencilla economía de la inteligencia artificial Calificación: 4 de 5 estrellas4/5Inteligencia artificial Calificación: 2 de 5 estrellas2/5El poder de las imagenes, la palabra no tiene poder Calificación: 0 de 5 estrellas0 calificacionesEl mito de la inteligencia artificial: Por qué las máquinas no pueden pensar como nosotros lo hacemos Calificación: 5 de 5 estrellas5/5Monetización de ChatGPT: aproveche el poder de AI: Spanish Calificación: 1 de 5 estrellas1/5Klara y el Sol Calificación: 5 de 5 estrellas5/5El imperio de los algoritmos: IA inclusiva, ética y al servicio de la humanidad Calificación: 0 de 5 estrellas0 calificacionesEl sueño de la Inteligencia Artificial: El proyecto de construir máquinas pensantes: una historia de la IA. Calificación: 0 de 5 estrellas0 calificacionesInteligencia artificial: la cuarta revolución industrial Calificación: 0 de 5 estrellas0 calificacionesChatGPT. Obtén el máximo rendimiento a la Inteligencía Artificial Generativa Calificación: 0 de 5 estrellas0 calificacionesDibujo de ingeniería: Desbloquear la percepción visual en el dibujo de ingeniería Calificación: 5 de 5 estrellas5/5GuíaBurros: Guía de escritura creativa con Inteligencia Artificial Calificación: 0 de 5 estrellas0 calificacionesDominar Chatbot GPT: Una guía completa para desbloquear el poder de las conversaciones de IA para su negocio Calificación: 0 de 5 estrellas0 calificacionesProcesamient o de Lenguaje Natural con Python: COMPUTADORAS Calificación: 0 de 5 estrellas0 calificacionesLa ola que viene: Tecnología, poder y el gran dilema del siglo XXI Calificación: 0 de 5 estrellas0 calificacionesCiencias de la Computación en la escuela: Guía para enseñar mucho más que a programar Calificación: 5 de 5 estrellas5/5ChatGPT y OpenAI. Desarrollo y uso de herramientas de inteligencia artificial generativa Calificación: 0 de 5 estrellas0 calificacionesInternet no es lo que pensamos: Una historia, una filosofía, una advertencia Calificación: 0 de 5 estrellas0 calificacionesInteligencia artificial: Guía para seres pensantes Calificación: 0 de 5 estrellas0 calificacionesAmazon Echo y Alexa Calificación: 0 de 5 estrellas0 calificacionesMinería de datos: Desbloqueo de conocimientos mediante inteligencia algorítmica y aprendizaje automático Calificación: 0 de 5 estrellas0 calificacionesMotor paso a paso: Control de precisión para aplicaciones robóticas Calificación: 0 de 5 estrellas0 calificacionesReconocimiento de gestos: Desbloqueando el lenguaje del movimiento Calificación: 0 de 5 estrellas0 calificaciones
Comentarios para Reconocimiento automático de objetivos
0 clasificaciones0 comentarios
Vista previa del libro
Reconocimiento automático de objetivos - Fouad Sabry
Capítulo 1: Reconocimiento automático de objetivos
El término reconocimiento automático de objetivos
(ATR) se refiere a la capacidad de un algoritmo o dispositivo para identificar un objetivo u otro objeto a partir de los datos de los sensores.
En los primeros días del radar, los operadores tenían que escuchar las representaciones de audio de las señales recibidas y usar su entrenamiento para determinar qué tipo de objetivo se estaba iluminando. A pesar de los logros de estos expertos humanos, se han desarrollado y se están desarrollando métodos automatizados para mejorar la precisión y la velocidad de la clasificación. Los animales, los seres humanos y la vegetación desordenada son solo algunos de los objetivos biológicos que se pueden identificar con la tecnología ATR. Las áreas de aplicación van desde el reconocimiento de objetos en el campo hasta la reducción del ruido de las aves en el radar meteorológico Doppler.
Los posibles usos militares incluyen un identificador fácil de implementar como un transpondedor IFF, así como sistemas más complejos como vehículos aéreos no tripulados y misiles de crucero. Los usos potenciales de ATR en el ámbito doméstico están atrayendo cada vez más atención. Una variedad de aplicaciones, desde vehículos automatizados hasta sistemas de seguridad que pueden detectar objetos o personas en una vía del metro, hasta seguridad fronteriza, se han beneficiado de los estudios ATR.
Casi desde que existe el radar, se han reconocido objetivos. Los operadores de radar utilizarían la representación audible de la señal reflejada para identificar bombarderos y cazas enemigos (ver Radar en la Segunda Guerra Mundial).
Durante mucho tiempo, los operadores escuchaban la señal de banda base para identificar objetivos. Los operadores de radar capacitados pueden usar esta señal para determinar el tipo de vehículo que se utiliza para iluminar el objetivo, el tamaño del objetivo y posiblemente incluso la presencia de objetivos biológicos. Pero hay muchas restricciones en este método. Existe una alta probabilidad de error debido al componente de decisión humana, la necesidad de que el operador esté capacitado para saber cómo sonará cada objetivo y la posibilidad de que el objetivo ya no sea audible si viaja a altas velocidades. Sin embargo, este concepto de representación auditiva de la señal sentó las bases para la clasificación automatizada de objetivos. Las características de la señal de banda base que se han utilizado en otras aplicaciones de audio, como el reconocimiento de voz, se han incorporado a una serie de esquemas de clasificación que se han desarrollado.
El alcance de un objeto se puede calcular utilizando el radar cronometrando el tiempo que tarda la señal en regresar desde el objetivo que ilumina la señal. El efecto Doppler describe la modificación de la frecuencia causada por el movimiento de dicho objeto. Un cambio de frecuencia puede ser causado por la vibración o rotación de un objeto, además del movimiento de traslación de todo el objeto. Si esto ocurre, la señal con desplazamiento Doppler se modulará. El efecto micro-Doppler se refiere al efecto Doppler adicional responsable de la modulación de la señal. Con el fin de crear algoritmos para ATR, esta modulación puede tener una firma reconocible. Cuando el objetivo se mueve, el efecto micro-Doppler provocará una señal que varía en el tiempo y la frecuencia.
Dado que la transformada de Fourier no tiene en cuenta el tiempo, el análisis de esta señal con una transformada de Fourier es insuficiente. La transformada de Fourier de corta duración es el enfoque más sencillo para obtener una función de frecuencia-tiempo (STFT). Los dominios de frecuencia y tiempo se pueden representar simultáneamente utilizando métodos más robustos como la transformada de Gabor o la función de distribución de Wigner (WVD). Sin embargo, la resolución de frecuencia y la resolución de tiempo siempre se verán comprometidas en estos enfoques.
Una vez extraídos estos datos espectrales, se pueden comparar con una base de datos que contiene información sobre los objetivos que el sistema identificará para determinar cuál es realmente el objetivo iluminado. Con el fin de determinar qué objetivo de la biblioteca se ajusta mejor al modelo construido utilizando la señal recibida, se utiliza un método de estimación estadística como la máxima verosimilitud (ML), el voto mayoritario (MV) o el máximo a posteriori (MAP).
Los sistemas automatizados de reconocimiento de objetivos que utilizan funciones de audio del reconocimiento de voz para determinar la identidad de un objetivo han sido objeto de investigación. Algunos ejemplos de estos coeficientes son:
Coeficientes LPC o códigos predictivos lineales
Coeficientes de predicción lineal y codificación en el espectro cepstral
Coeficientes cepstrales basados en frecuencias mel (MFCC).
Estos coeficientes se derivan de una señal de banda base procesada y, a continuación, se utiliza un método estadístico para determinar qué objetivo de la base de datos es más similar a los coeficientes derivados. El sistema y el caso de uso deben tenerse en cuenta a la hora de decidir qué características y esquema de decisión implementar.
Las características de la clasificación de objetivos no se limitan a los coeficientes motivados por el habla humana. El ATR se puede lograr utilizando numerosos conjuntos de características y varios métodos de detección.
El desarrollo de una base de datos de entrenamiento es necesario para automatizar la detección de objetivos. Normalmente, el algoritmo ATR se alimenta de datos experimentales recogidos después de que se haya determinado el objetivo.
El diagrama de flujo representa un tipo de algoritmo de detección. Esta técnica toma M bloques de datos, los modela utilizando un modelo de mezcla gaussiana y, a continuación, utiliza las características extraídas (como los coeficientes LPC o MFCC) para sacar conclusiones (GMM). Después de ajustar los datos a un modelo, se calculan las probabilidades condicionales para cada objetivo del conjunto de entrenamiento. Aquí, tenemos M bloques de datos para examinar. Esto generará M probabilidades individuales, una para cada destino de la base de datos. Usando estas probabilidades, se hace una determinación de máxima verosimilitud en cuanto a cuál es realmente el objetivo. Se ha demostrado que esta técnica puede determinar de forma fiable la presencia de hasta tres personas, así como distinguir entre tipos de vehículos (vehículos con ruedas frente a vehículos con orugas, por ejemplo).
Un enfoque basado en CNN para el reconocimiento de objetivos
El reconocimiento de objetivos mediante una red neuronal convolucional (CNN) puede superar a los enfoques más tradicionales. Después de entrenar con imágenes sintéticas, ha demostrado ser útil para reconocer objetivos (como tanques de batalla) en imágenes infrarrojas de escenas reales. El grado de realismo de las imágenes sintéticas es muy importante a la hora de reconocer escenas reales del conjunto de pruebas debido a las limitaciones del conjunto de entrenamiento.
Siete capas de convolución, tres capas de agrupación máxima y una capa Softmax sirven como columna vertebral de la arquitectura general de la red CNN. Después de la segunda, cuarta y quinta capas de convolución se encuentran las capas de agrupación máxima. Antes del resultado final, se aplica una media global de pooling. Leaky ReLU se utiliza como función de activación no lineal en todas las capas de convolución.
{Fin del capítulo 1}
Capítulo 2: Visión artificial
El estudio de cómo las computadoras pueden obtener conocimiento de alto nivel a partir de imágenes o videos digitales es el foco del área científica multidisciplinaria de la visión por computadora. Desde el punto de vista tecnológico, investiga e intenta automatizar actividades que están dentro de las capacidades del sistema visual humano.
Las tareas asociadas con la visión por computadora incluyen técnicas para obtener, procesar, analizar y comprender imágenes digitales, así como la extracción de datos de alta dimensión del entorno físico para crear información numérica o simbólica, como juicios.
La visión por computadora es un subcampo de las ciencias de la computación que investiga los fundamentos teóricos de los sistemas artificiales diseñados para obtener información de imágenes. Los datos visuales pueden presentarse en una variedad de formatos, incluidas secuencias de video, imágenes obtenidas de varias cámaras, datos multidimensionales obtenidos de un escáner 3D o equipo de escaneo médico, etc. El objetivo del campo técnico conocido como visión por computador es implementar las ideas y modelos que ha desarrollado en el proceso de construcción de sistemas de visión por computador.
Los campos de la reconstrucción de escenas, la detección de objetos, la detección de eventos, el seguimiento de vídeo, el reconocimiento de objetos, la estimación de poses en 3D, el aprendizaje, la indexación, la estimación de movimiento, el servoing visual, el modelado de escenas en 3D y la restauración de imágenes son subdominios de la visión por ordenador. Otros subdominios de la visión artificial incluyen el modelado de escenas en 3D.
La visión por computadora es un estudio multidisciplinario que examina cómo se pueden programar las computadoras para extraer conocimiento de alto nivel de imágenes o películas digitales. Esta área se centra en cómo se puede enseñar a las computadoras a comprender lo que se les muestra. Desde el punto de vista de la ingeniería, el objetivo es encontrar formas de automatizar operaciones que ya pueden ser realizadas por el sistema visual humano. La visión por computadora es un campo de estudio en el campo de la tecnología de la información que se centra en la aplicación de teorías y modelos existentes al proceso de construcción de sistemas de visión por computadora.
A finales de la década de 1960, las universidades que estaban a la vanguardia de la inteligencia artificial fueron las primeras en experimentar con la visión por computadora. Su propósito era funcionar de una manera similar a la del sistema visual humano, con el objetivo final de imbuir a los robots de un comportamiento inteligente. En la década de 1990, varias de las áreas de estudio que se habían estudiado antes se volvieron más activas que las demás. El estudio de las reconstrucciones tridimensionales proyectivas condujo a una comprensión más profunda de cómo calibrar una cámara. Con la introducción de técnicas de optimización para la calibración de la cámara, quedó claro que un número significativo de los conceptos habían sido investigados previamente por la disciplina de la teoría del ajuste de haces de la fotogrametría. Esto salió a la luz como resultado de este desarrollo. Esto dio lugar al desarrollo de técnicas para realizar reconstrucciones tridimensionales dispersas de escenas utilizando varias fotografías. Tanto el problema de la correspondencia estéreo densa como el desarrollo de otros enfoques estéreo multivista vieron cierto grado de avance. Al mismo tiempo, se utilizaron muchas variantes de corte gráfico para abordar el problema de la segmentación de imágenes. Esta década fue especialmente significativa, ya que fue la primera vez que se utilizaron en la práctica métodos de aprendizaje estadístico para la tarea de reconocer rostros en fotografías (ver Eigenface). Las áreas de gráficos por computadora y visión por computadora se han entrelazado más en los últimos años, lo que ha llevado a un gran aumento en la cantidad de colaboración que ha tenido lugar entre los dos. Esto presentaba las primeras formas de renderizado de campo de luz, unión de imágenes panorámicas, transformación de imágenes, interpolación de vistas y renderizado basado en imágenes. El área de la visión artificial ha cobrado una nueva vida gracias al desarrollo de algoritmos basados en el aprendizaje profundo. La precisión de los algoritmos de aprendizaje profundo en numerosos conjuntos de datos de visión artificial de referencia para tareas que van desde la clasificación hasta el flujo óptico ha superado a la de los enfoques anteriores. Estas tareas incluyen la segmentación de imágenes y el flujo óptico.
La visión artificial de estado sólido está fuertemente relacionada con otras disciplinas, incluida la física. La gran mayoría de los sistemas de visión artificial se basan en sensores de imagen, que son dispositivos capaces de detectar la radiación electromagnética. Esta radiación se manifiesta comúnmente como luz visible o infrarroja. En el desarrollo de los sensores se utilizó la física cuántica. La disciplina científica de la física proporciona una explicación para el método a través del cual la luz interactúa con las superficies. El comportamiento de la óptica, que es un componente fundamental de la mayoría de los sistemas de imagen, puede explicarse por la física. Con el fin de ofrecer un conocimiento completo del proceso por el cual se forma una imagen, los sensores de imagen sofisticados necesitan el uso de la mecánica cuántica. La visión por computadora también se puede utilizar para resolver una variedad de problemas de medición que surgen en física, como los que involucran el movimiento de fluidos.
La disciplina científica de la neurobiología, más especialmente la investigación del sistema visual biológico. Los ojos, las neuronas y las regiones cerebrales que se dedican al procesamiento de estímulos visuales tanto en humanos como en diversos animales han sido objeto de una cantidad sustancial de investigación en el transcurso del último siglo. Como consecuencia de esto, ha surgido una descripción simple pero intrincada de la forma en que funcionan los sistemas de visión reales
para completar varias tareas relacionadas con la visión. Como consecuencia de estos hallazgos, ha surgido un subcampo de la visión por computadora en el que los sistemas artificiales están destinados a imitar el procesamiento y el comportamiento de los sistemas biológicos, con diversos grados de semejanza biológica. Muchos de los enfoques basados en el aprendizaje
