Transformación de característica invariante de escala: Revelando el poder de la transformación de características invariantes de escala en visión por computadora
Por Fouad Sabry
()
Información de este libro electrónico
¿Qué es la transformación de características invariantes de escala?
SIFT, que significa transformación de características invariantes de escala, es un método de visión por computadora desarrollado por David Lowe en 1999. El propósito es identificar, describir y coincidir con características locales en imágenes. Algunas de las aplicaciones que se pueden utilizar son reconocimiento de objetos, mapeo y navegación robóticos, unión de imágenes, modelado tridimensional, reconocimiento de gestos, seguimiento de video, identificación individual de vida silvestre y movimiento de coincidencias.
Cómo se beneficiará
(I) Información y validaciones sobre los siguientes temas:
Capítulo 1: Transformación de características invariantes de escala
Capítulo 2: Detección de bordes
Capítulo 3: Espacio de escala
Capítulo 4: Desenfoque gaussiano
Capítulo 5: Función (visión por computadora)
Capítulo 6: Detección de esquinas
Capítulo 7: Adaptación de forma afín
Capítulo 8: Detector de región afín de Hesse
Capítulo 9: Detector de región principal basado en curvatura
Capítulo 10: Orientado RÁPIDO y rotado BRIEF
(II) Respondiendo a las principales preguntas del público sobre la transformación de características invariantes de escala.
(III) Ejemplos del mundo real para su uso de características invariantes de escala se transforman en muchos campos.
Para quién es este libro
Profesionales, estudiantes de pregrado y posgrado, entusiastas, aficionados y aquellos que quieran para ir más allá del conocimiento o la información básicos para cualquier tipo de transformación de características invariantes de escala.
Relacionado con Transformación de característica invariante de escala
Títulos en esta serie (100)
Joint Photographic Experts Group: Liberando el poder de los datos visuales con el estándar JPEG Calificación: 0 de 5 estrellas0 calificacionesVisión por computadora submarina: Explorando las profundidades de la visión por computadora debajo de las olas Calificación: 0 de 5 estrellas0 calificacionesModelo de apariencia de color: Comprensión de la percepción y la representación en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesVisión por computador: Explorando las profundidades de la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesTransformación dura: Revelando la magia de Hough Transform en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesTransformación de Hadamard: Revelando el poder de la transformación de Hadamard en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesHistograma de imagen: Revelando conocimientos visuales, explorando las profundidades de los histogramas de imágenes en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCompresión de imagen: Técnicas eficientes para la optimización de datos visuales Calificación: 0 de 5 estrellas0 calificacionesMapeo de tonos: Mapeo de tonos: perspectivas iluminadoras en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesDifusión anisotrópica: Mejora del análisis de imágenes mediante difusión anisotrópica Calificación: 0 de 5 estrellas0 calificacionesReducción de ruido: Mejora de la claridad, técnicas avanzadas para la reducción del ruido en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesFiltro adaptativo: Mejora de la visión por computadora mediante filtrado adaptativo Calificación: 0 de 5 estrellas0 calificacionesTransformación de radón: Revelando patrones ocultos en datos visuales Calificación: 0 de 5 estrellas0 calificacionesHistograma de gradientes orientados: Revelando el ámbito visual: explorando el histograma de gradientes orientados en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesHomografía: Homografía: Transformaciones en Visión por Computador Calificación: 0 de 5 estrellas0 calificacionesVisión estéreo por computadora: Explorando la percepción de profundidad en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesDetección de bordes: Explorando los límites en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesFunción de combinación de colores: Comprensión de la sensibilidad espectral en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesEcualización de histograma: Mejora del contraste de la imagen para mejorar la percepción visual Calificación: 0 de 5 estrellas0 calificacionesDetector de esquinas Harris: Revelando la magia de la detección de características de imagen Calificación: 0 de 5 estrellas0 calificacionesContorno activo: Avances en la visión por computadora con técnicas de contorno activo Calificación: 0 de 5 estrellas0 calificacionesRetinax: Revelando los secretos de la visión computacional con Retinex Calificación: 0 de 5 estrellas0 calificacionesSistema de gestión de color: Optimización de la percepción visual en entornos digitales Calificación: 0 de 5 estrellas0 calificacionesEn Pintura: Cerrar brechas en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesTransformacion afin: Desbloqueo de perspectivas visuales: exploración de la transformación afín en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCorrección gamma: Mejora de la claridad visual en la visión por computadora: la técnica de corrección gamma Calificación: 0 de 5 estrellas0 calificacionesModelo del sistema visual humano: Comprender la percepción y el procesamiento Calificación: 0 de 5 estrellas0 calificacionesModelo de color: Comprensión del espectro de la visión por computadora: exploración de modelos de color Calificación: 0 de 5 estrellas0 calificacionesMétodo de ajuste de nivel: Avances en la visión por computadora, exploración del método de conjunto de niveles Calificación: 0 de 5 estrellas0 calificacionesBanco de filtros: Información sobre las técnicas del banco de filtros de Computer Vision Calificación: 0 de 5 estrellas0 calificaciones
Libros electrónicos relacionados
Procesamiento de imágenes piramidales: Explorando las profundidades del análisis visual Calificación: 0 de 5 estrellas0 calificacionesDetección de manchas: Revelando patrones en datos visuales Calificación: 0 de 5 estrellas0 calificacionesDetector de esquinas Harris: Revelando la magia de la detección de características de imagen Calificación: 0 de 5 estrellas0 calificacionesDetección de bordes: Explorando los límites en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesClasificación de imágenes contextuales: Comprensión de los datos visuales para una clasificación eficaz Calificación: 0 de 5 estrellas0 calificacionesSegmentación de imagen: Desbloqueo de información a través de Pixel Precision Calificación: 0 de 5 estrellas0 calificacionesHistograma de gradientes orientados: Revelando el ámbito visual: explorando el histograma de gradientes orientados en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesVisión estéreo por computadora: Explorando la percepción de profundidad en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesMosaico de documentos: Desbloqueo de información visual a través del mosaico de documentos Calificación: 0 de 5 estrellas0 calificacionesEspacio de escala: Explorando las dimensiones en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesEstimación de la postura del cuerpo articulado: Desbloqueando el movimiento humano en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesBolsa de palabras modelo: Desbloqueando la inteligencia visual con Bag of Words Calificación: 0 de 5 estrellas0 calificacionesRepresentación de línea de exploración: Explorando el realismo visual a través de técnicas de renderizado Scanline Calificación: 0 de 5 estrellas0 calificacionesAprendizaje de características geométricas: Desbloqueo de conocimientos visuales a través del aprendizaje de características geométricas Calificación: 0 de 5 estrellas0 calificacionesDeterminación de superficies ocultas: Revelando los secretos de la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesEstimación de movimiento: Avances y aplicaciones en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesFlujo óptico: Explorando patrones visuales dinámicos en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesGráficos por computadora de vértice: Explorando la intersección de los gráficos por computadora Vertex y la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesModelo de apariencia activa: Liberando el poder de los modelos de apariencia activa en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesReconstrucción tridimensional multivista: Técnicas avanzadas de percepción espacial en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesVolumen límite: Explorando la representación espacial en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCampo de movimiento: Explorando la dinámica de la visión por computadora: campo de movimiento revelado Calificación: 0 de 5 estrellas0 calificacionesHashing geométrico: Algoritmos eficientes para el reconocimiento y la comparación de imágenes Calificación: 0 de 5 estrellas0 calificacionesCara Propia: Explorando las profundidades del reconocimiento visual con Eigenface Calificación: 0 de 5 estrellas0 calificacionesVer síntesis: Explorando perspectivas en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesReconocimiento automático de objetivos: Avances en técnicas de visión por computadora para el reconocimiento de objetivos Calificación: 0 de 5 estrellas0 calificacionesContorno activo: Avances en la visión por computadora con técnicas de contorno activo Calificación: 0 de 5 estrellas0 calificacionesSuperficie procesal: Explorando la generación y el análisis de texturas en visión por computadora Calificación: 0 de 5 estrellas0 calificaciones
Inteligencia (IA) y semántica para usted
Klara y el Sol Calificación: 5 de 5 estrellas5/5Fundamentos de Programación: Diagramas de flujo, Diagramas N-S, Pseudocódigo y Java Calificación: 0 de 5 estrellas0 calificacionesCómo usar Chatgpt para tu negocio Calificación: 0 de 5 estrellas0 calificacionesChat GPT-4 para Principiantes: Chat GPT, #1 Calificación: 0 de 5 estrellas0 calificacionesIntroducción a la ingeniería Calificación: 0 de 5 estrellas0 calificacionesAprendizaje automático y profundo en python: Una mirada hacia la inteligencia artificial Calificación: 0 de 5 estrellas0 calificacionesResumen CHAT GPT IA Revolución en 2023: Guía de la Tecnología CHAT GPT y su Impacto Social: Resumen Tecnológico, #1 Calificación: 0 de 5 estrellas0 calificacionesMáquinas predictivas: La sencilla economía de la inteligencia artificial Calificación: 5 de 5 estrellas5/5Dominando ChatGPT: Desbloquea el poder de la IA para mejorar la comunicación y las relaciones: Spanish Calificación: 3 de 5 estrellas3/5Inteligencia Artificial Calificación: 4 de 5 estrellas4/5Máquinas como yo Calificación: 4 de 5 estrellas4/5Sobreviviendo a la IA Calificación: 3 de 5 estrellas3/5Inteligencia artificial: Una exploración filosófica sobre el futuro de la mente y la conciencia Calificación: 4 de 5 estrellas4/5Metodología de la programación Calificación: 0 de 5 estrellas0 calificacionesANDROID: Aprende desde cero a crear aplicaciones Calificación: 0 de 5 estrellas0 calificacionesCómo Ganar Dinero por Internet con Inteligencia Artificial Emprende tu negocio digital con ChatGPT, Escríbelo.ia, Playground AI, You.com, Canva, Midjourney, Dall-E 2, Amazon... Calificación: 0 de 5 estrellas0 calificacionesAdministración básica de bases de datos con ORACLE 12c SQL: Prácticas y ejercicios Calificación: 0 de 5 estrellas0 calificacionesMecatrónica Calificación: 0 de 5 estrellas0 calificacionesPython fácil Calificación: 4 de 5 estrellas4/5UML: Modelado de Software para Profesionales Calificación: 0 de 5 estrellas0 calificacionesPHP: Programación web avanzada para profesionales Calificación: 0 de 5 estrellas0 calificacionesArquitectura de computadoras Calificación: 0 de 5 estrellas0 calificacionesEscritura Creativa en la Era de la IA: Dominando la Colaboración con ChatGPT para Crear Libros Impactantes Calificación: 4 de 5 estrellas4/5Laravel: Curso práctico de formación Calificación: 0 de 5 estrellas0 calificacionesInteligencia artificial: Casos prácticos con aprendizaje profundo Calificación: 4 de 5 estrellas4/5GuíaBurros: Inteligencia Artificial: Su lado oscuro y el fin del principio Calificación: 0 de 5 estrellas0 calificacionesR en profundidad: Programación, gráficos y estadística Calificación: 0 de 5 estrellas0 calificacionesMonetización de ChatGPT: aproveche el poder de AI: Spanish Calificación: 1 de 5 estrellas1/5
Comentarios para Transformación de característica invariante de escala
0 clasificaciones0 comentarios
Vista previa del libro
Transformación de característica invariante de escala - Fouad Sabry
Capítulo 1: Transformación de características invariantes de escala
David Lowe desarrolló la transformación de características invariantes de escala (SIFT) en 1999 como un algoritmo de visión por computadora para localizar, caracterizar y hacer coincidir características locales en imágenes. El reconocimiento de objetos, el mapeo y la navegación robóticos, la unión de imágenes, el modelado tridimensional, el reconocimiento de gestos, el seguimiento de video, la identificación individual de la vida silvestre y el emparejamiento son solo algunos de los muchos usos posibles de esta tecnología.
Los puntos clave SIFT de objetos se extraen primero de un conjunto de imágenes de entrenamiento.
Es posible crear una descripción de características
de cualquier objeto en una imagen aislando los puntos clave sobre ese objeto. Al intentar localizar un objeto en una imagen de prueba con muchos otros objetos, se puede usar esta descripción porque se extrajo de una imagen de entrenamiento. Las características extraídas de la imagen de entrenamiento deben ser discernibles a pesar de las variaciones en la escala de la imagen, el ruido y la iluminación si se quiere lograr un reconocimiento confiable. Estas manchas suelen residir en los bordes de la imagen u otras áreas con alto contraste.
Además, estas características deben mantener las mismas posiciones relativas de una imagen a la siguiente, como lo hicieron en la escena original. Si solo se usaran las cuatro esquinas de una puerta como características, el reconocimiento tendría éxito si la puerta estaba abierta o cerrada. Sin embargo, si también se utilizaran puntos en el marco, el reconocimiento fallaría en cualquiera de los casos. Del mismo modo, si hay algún cambio en la geometría interna de un objeto articulado o flexible entre dos imágenes del conjunto que se está procesando, es probable que las entidades ubicadas en ese objeto ya no funcionen. Si bien estas variaciones locales pueden tener un impacto significativo en el error promedio de todos los errores de coincidencia de características, SIFT, en la práctica, detecta y utiliza un número mucho mayor de características de las imágenes, lo que mitiga su impacto.
En esta sección se proporciona una breve descripción general del algoritmo SIFT original y se analizan brevemente algunos métodos alternativos para el reconocimiento de objetos en entornos con mucho ruido de fondo o vistas oscurecidas.
El descriptor SIFT utiliza mediciones de campo receptivo para analizar imágenes.
Las características de imagen local pueden ayudar en el reconocimiento de objetos si se pueden detectar y describir. Las entidades SIFT no se ven afectadas por el cambio de tamaño o la rotación de la imagen, ya que se basan en la apariencia del objeto en puntos de interés discretos. Pueden soportar pequeños cambios en el punto de vista, así como variaciones en la iluminación y el ruido. También permiten la identificación precisa de objetos con una pequeña posibilidad de discrepancia, y son muy únicos y fáciles de extraer. Sin embargo, la alta dimensionalidad puede ser un problema, por lo que normalmente se utilizan algoritmos probabilísticos como los árboles k-d con la mejor búsqueda de bin first. Son fáciles de comparar con una base de datos (grande) de características locales. Se necesitan tan solo tres características SIFT de un objeto para calcular su ubicación y pose, lo que hace que las descripciones de objetos basadas en conjuntos de características SIFT sean robustas para la oclusión parcial. Para bases de datos relativamente pequeñas y con la potencia informática actual, el reconocimiento se puede realizar casi al instante.
Con el enfoque de Lowe, una imagen se convierte en un gran conjunto de vectores de características que son robustos a la distorsión geométrica local y, al mismo tiempo, invariantes a la traslación, el escalado y la rotación de la imagen y, en menor medida, a los cambios en la iluminación. Las neuronas de la corteza visual primaria, que codifican la forma, el color y el movimiento básicos para la detección de objetos en la visión de los primates, tienen propiedades similares a estas características. Los máximos y mínimos de la diferencia de la función gaussiana aplicada en el espacio de escala a un conjunto de imágenes suavizadas y remuestreadas se utilizan para definir ubicaciones clave. Se eliminan los puntos de respuesta candidatos y de borde con bajo contraste a lo largo de un borde. A las orientaciones se les dan sus orientaciones dominantes en nodos específicos. Seguir estos procedimientos hará que la coincidencia y el reconocimiento sean más precisos. Luego, al tener en cuenta los píxeles dentro de un radio de la ubicación clave, el desenfoque y el remuestreo de los planos de orientación de la imagen local, podemos obtener descriptores SIFT que son robustos a la distorsión afín local.
Al indexar, almacenará claves SIFT y usará la nueva imagen para encontrar las que coincidan. Para determinar si un candidato debe ser mantenido o desechado
, Lowe utilizó una variante del algoritmo de árbol k-d llamado método de búsqueda best-bin-first. Este método compara la distancia entre el vector de características del candidato y el vector de características del punto clave más cercano que no pertenece a la misma clase de objeto que el candidato en cuestión (vector de características candidatas / vector de características de clase diferente más cercano). Cuando la relación es superior a 0,8, se descalifica automáticamente. Al usar esta técnica, pudimos deshacernos del 90% de los falsos positivos y desechar el 5% de los resultados reales. El algoritmo de búsqueda best-bin-first se optimizó deteniéndose después de probar los 200 vecinos más cercanos. Este método es aproximadamente dos órdenes de magnitud más rápido que la búsqueda exacta del vecino más cercano para una base de datos que contiene 100.000 puntos clave, con una pérdida de menos del 5% en el número de coincidencias correctas.
Para encontrar claves que correspondan a una pose de modelo específica, se utiliza la transformada de Hough para agrupar hipótesis creíbles sobre el modelo. Al hacer que cada entidad vote por todas las poses de objeto que sean coherentes con la entidad, la transformada de Hough es capaz de identificar clústeres de entidades con una interpretación coherente. Existe una probabilidad mucho mayor de que la interpretación sea correcta cuando se encuentran varias entidades que votan por la misma pose de un objeto. En función de la hipótesis de coincidencia, se genera una entrada de tabla hash que predice la posición, la orientación y el tamaño del modelo. Todos los clústeres de al menos tres entradas de un bin se buscan en la tabla hash y, a continuación, los bins se ordenan de mayor a menor.
Cada punto clave SIFT incluye información sobre su posición, tamaño y orientación 2D, y la base de datos realiza un seguimiento de estos parámetros para cada punto clave que tiene una instancia coincidente en el conjunto de entrenamiento. Un objeto 3D tiene 6 grados de libertad en su espacio de pose, y la transformación de similitud implícita en estos 4 parámetros solo tiene en cuenta las transformaciones rígidas. En consecuencia, se utilizaron bins de 30 grados para la orientación, 2x para la escala y 0,25x para la ubicación (dimensión máxima proyectada de la imagen de entrenamiento utilizando la escala predicha). Se presta el doble de atención a las muestras clave SIFT generadas a mayor escala en comparación con las de menor escala. Esto implica que la escala más grande puede seleccionar los vecinos más probables para una investigación más profunda en la escala más pequeña. Esto es útil para el reconocimiento porque le da más peso a la báscula con la menor cantidad de ruido. Cada coincidencia de punto clave reduce las 16 hipótesis posibles a los dos bins más cercanos de cada dimensión, lo que reduce el impacto de los efectos de contorno en la asignación de bins.
Los clústeres