Descubre millones de libros electrónicos, audiolibros y mucho más con una prueba gratuita

Solo $11.99/mes después de la prueba. Puedes cancelar en cualquier momento.

Transformación de característica invariante de escala: Revelando el poder de la transformación de características invariantes de escala en visión por computadora
Transformación de característica invariante de escala: Revelando el poder de la transformación de características invariantes de escala en visión por computadora
Transformación de característica invariante de escala: Revelando el poder de la transformación de características invariantes de escala en visión por computadora
Libro electrónico129 páginas1 hora

Transformación de característica invariante de escala: Revelando el poder de la transformación de características invariantes de escala en visión por computadora

Calificación: 0 de 5 estrellas

()

Leer la vista previa

Información de este libro electrónico

¿Qué es la transformación de características invariantes de escala?


SIFT, que significa transformación de características invariantes de escala, es un método de visión por computadora desarrollado por David Lowe en 1999. El propósito es identificar, describir y coincidir con características locales en imágenes. Algunas de las aplicaciones que se pueden utilizar son reconocimiento de objetos, mapeo y navegación robóticos, unión de imágenes, modelado tridimensional, reconocimiento de gestos, seguimiento de video, identificación individual de vida silvestre y movimiento de coincidencias.


Cómo se beneficiará


(I) Información y validaciones sobre los siguientes temas:


Capítulo 1: Transformación de características invariantes de escala


Capítulo 2: Detección de bordes


Capítulo 3: Espacio de escala


Capítulo 4: Desenfoque gaussiano


Capítulo 5: Función (visión por computadora)


Capítulo 6: Detección de esquinas


Capítulo 7: Adaptación de forma afín


Capítulo 8: Detector de región afín de Hesse


Capítulo 9: Detector de región principal basado en curvatura


Capítulo 10: Orientado RÁPIDO y rotado BRIEF


(II) Respondiendo a las principales preguntas del público sobre la transformación de características invariantes de escala.


(III) Ejemplos del mundo real para su uso de características invariantes de escala se transforman en muchos campos.


Para quién es este libro


Profesionales, estudiantes de pregrado y posgrado, entusiastas, aficionados y aquellos que quieran para ir más allá del conocimiento o la información básicos para cualquier tipo de transformación de características invariantes de escala.


 


 

IdiomaEspañol
Fecha de lanzamiento30 abr 2024
Transformación de característica invariante de escala: Revelando el poder de la transformación de características invariantes de escala en visión por computadora

Relacionado con Transformación de característica invariante de escala

Títulos en esta serie (100)

Ver más

Libros electrónicos relacionados

Inteligencia (IA) y semántica para usted

Ver más

Artículos relacionados

Comentarios para Transformación de característica invariante de escala

Calificación: 0 de 5 estrellas
0 calificaciones

0 clasificaciones0 comentarios

¿Qué te pareció?

Toca para calificar

Los comentarios deben tener al menos 10 palabras

    Vista previa del libro

    Transformación de característica invariante de escala - Fouad Sabry

    Capítulo 1: Transformación de características invariantes de escala

    David Lowe desarrolló la transformación de características invariantes de escala (SIFT) en 1999 como un algoritmo de visión por computadora para localizar, caracterizar y hacer coincidir características locales en imágenes. El reconocimiento de objetos, el mapeo y la navegación robóticos, la unión de imágenes, el modelado tridimensional, el reconocimiento de gestos, el seguimiento de video, la identificación individual de la vida silvestre y el emparejamiento son solo algunos de los muchos usos posibles de esta tecnología.

    Los puntos clave SIFT de objetos se extraen primero de un conjunto de imágenes de entrenamiento.

    Es posible crear una descripción de características de cualquier objeto en una imagen aislando los puntos clave sobre ese objeto. Al intentar localizar un objeto en una imagen de prueba con muchos otros objetos, se puede usar esta descripción porque se extrajo de una imagen de entrenamiento. Las características extraídas de la imagen de entrenamiento deben ser discernibles a pesar de las variaciones en la escala de la imagen, el ruido y la iluminación si se quiere lograr un reconocimiento confiable. Estas manchas suelen residir en los bordes de la imagen u otras áreas con alto contraste.

    Además, estas características deben mantener las mismas posiciones relativas de una imagen a la siguiente, como lo hicieron en la escena original. Si solo se usaran las cuatro esquinas de una puerta como características, el reconocimiento tendría éxito si la puerta estaba abierta o cerrada. Sin embargo, si también se utilizaran puntos en el marco, el reconocimiento fallaría en cualquiera de los casos. Del mismo modo, si hay algún cambio en la geometría interna de un objeto articulado o flexible entre dos imágenes del conjunto que se está procesando, es probable que las entidades ubicadas en ese objeto ya no funcionen. Si bien estas variaciones locales pueden tener un impacto significativo en el error promedio de todos los errores de coincidencia de características, SIFT, en la práctica, detecta y utiliza un número mucho mayor de características de las imágenes, lo que mitiga su impacto.

    En esta sección se proporciona una breve descripción general del algoritmo SIFT original y se analizan brevemente algunos métodos alternativos para el reconocimiento de objetos en entornos con mucho ruido de fondo o vistas oscurecidas.

    El descriptor SIFT utiliza mediciones de campo receptivo para analizar imágenes.

    Las características de imagen local pueden ayudar en el reconocimiento de objetos si se pueden detectar y describir. Las entidades SIFT no se ven afectadas por el cambio de tamaño o la rotación de la imagen, ya que se basan en la apariencia del objeto en puntos de interés discretos. Pueden soportar pequeños cambios en el punto de vista, así como variaciones en la iluminación y el ruido. También permiten la identificación precisa de objetos con una pequeña posibilidad de discrepancia, y son muy únicos y fáciles de extraer. Sin embargo, la alta dimensionalidad puede ser un problema, por lo que normalmente se utilizan algoritmos probabilísticos como los árboles k-d con la mejor búsqueda de bin first. Son fáciles de comparar con una base de datos (grande) de características locales. Se necesitan tan solo tres características SIFT de un objeto para calcular su ubicación y pose, lo que hace que las descripciones de objetos basadas en conjuntos de características SIFT sean robustas para la oclusión parcial. Para bases de datos relativamente pequeñas y con la potencia informática actual, el reconocimiento se puede realizar casi al instante.

    Con el enfoque de Lowe, una imagen se convierte en un gran conjunto de vectores de características que son robustos a la distorsión geométrica local y, al mismo tiempo, invariantes a la traslación, el escalado y la rotación de la imagen y, en menor medida, a los cambios en la iluminación. Las neuronas de la corteza visual primaria, que codifican la forma, el color y el movimiento básicos para la detección de objetos en la visión de los primates, tienen propiedades similares a estas características. Los máximos y mínimos de la diferencia de la función gaussiana aplicada en el espacio de escala a un conjunto de imágenes suavizadas y remuestreadas se utilizan para definir ubicaciones clave. Se eliminan los puntos de respuesta candidatos y de borde con bajo contraste a lo largo de un borde. A las orientaciones se les dan sus orientaciones dominantes en nodos específicos. Seguir estos procedimientos hará que la coincidencia y el reconocimiento sean más precisos. Luego, al tener en cuenta los píxeles dentro de un radio de la ubicación clave, el desenfoque y el remuestreo de los planos de orientación de la imagen local, podemos obtener descriptores SIFT que son robustos a la distorsión afín local.

    Al indexar, almacenará claves SIFT y usará la nueva imagen para encontrar las que coincidan. Para determinar si un candidato debe ser mantenido o desechado, Lowe utilizó una variante del algoritmo de árbol k-d llamado método de búsqueda best-bin-first. Este método compara la distancia entre el vector de características del candidato y el vector de características del punto clave más cercano que no pertenece a la misma clase de objeto que el candidato en cuestión (vector de características candidatas / vector de características de clase diferente más cercano). Cuando la relación es superior a 0,8, se descalifica automáticamente. Al usar esta técnica, pudimos deshacernos del 90% de los falsos positivos y desechar el 5% de los resultados reales. El algoritmo de búsqueda best-bin-first se optimizó deteniéndose después de probar los 200 vecinos más cercanos. Este método es aproximadamente dos órdenes de magnitud más rápido que la búsqueda exacta del vecino más cercano para una base de datos que contiene 100.000 puntos clave, con una pérdida de menos del 5% en el número de coincidencias correctas.

    Para encontrar claves que correspondan a una pose de modelo específica, se utiliza la transformada de Hough para agrupar hipótesis creíbles sobre el modelo. Al hacer que cada entidad vote por todas las poses de objeto que sean coherentes con la entidad, la transformada de Hough es capaz de identificar clústeres de entidades con una interpretación coherente. Existe una probabilidad mucho mayor de que la interpretación sea correcta cuando se encuentran varias entidades que votan por la misma pose de un objeto. En función de la hipótesis de coincidencia, se genera una entrada de tabla hash que predice la posición, la orientación y el tamaño del modelo. Todos los clústeres de al menos tres entradas de un bin se buscan en la tabla hash y, a continuación, los bins se ordenan de mayor a menor.

    Cada punto clave SIFT incluye información sobre su posición, tamaño y orientación 2D, y la base de datos realiza un seguimiento de estos parámetros para cada punto clave que tiene una instancia coincidente en el conjunto de entrenamiento. Un objeto 3D tiene 6 grados de libertad en su espacio de pose, y la transformación de similitud implícita en estos 4 parámetros solo tiene en cuenta las transformaciones rígidas. En consecuencia, se utilizaron bins de 30 grados para la orientación, 2x para la escala y 0,25x para la ubicación (dimensión máxima proyectada de la imagen de entrenamiento utilizando la escala predicha). Se presta el doble de atención a las muestras clave SIFT generadas a mayor escala en comparación con las de menor escala. Esto implica que la escala más grande puede seleccionar los vecinos más probables para una investigación más profunda en la escala más pequeña. Esto es útil para el reconocimiento porque le da más peso a la báscula con la menor cantidad de ruido. Cada coincidencia de punto clave reduce las 16 hipótesis posibles a los dos bins más cercanos de cada dimensión, lo que reduce el impacto de los efectos de contorno en la asignación de bins.

    Los clústeres

    ¿Disfrutas la vista previa?
    Página 1 de 1