Descubre millones de libros electrónicos, audiolibros y mucho más con una prueba gratuita

Solo $11.99/mes después de la prueba. Puedes cancelar en cualquier momento.

Procesamiento de imágenes piramidales: Explorando las profundidades del análisis visual
Procesamiento de imágenes piramidales: Explorando las profundidades del análisis visual
Procesamiento de imágenes piramidales: Explorando las profundidades del análisis visual
Libro electrónico136 páginas1 hora

Procesamiento de imágenes piramidales: Explorando las profundidades del análisis visual

Calificación: 0 de 5 estrellas

()

Leer la vista previa

Información de este libro electrónico

¿Qué es el procesamiento de imágenes piramidal?


La pirámide, o representación piramidal, es un tipo de representación de señales multiescala desarrollada por las comunidades de visión por computadora, procesamiento de imágenes y procesamiento de señales. en el que una señal o una imagen está sujeta a suavizado y submuestreo repetidos. La representación piramidal es un predecesor de la representación espacial a escala y el análisis multiresolución.


Cómo se beneficiará


(I) Información y validaciones sobre los siguientes temas :


Capítulo 1: Pirámide (procesamiento de imágenes)


Capítulo 2: Transformación de características invariantes de escala


Capítulo 3: Filtro Gabor


Capítulo 4: Espacio de escala


Capítulo 5: Desenfoque gaussiano


Capítulo 6: Característica (visión por computadora)


Capítulo 7: Diferencia de gaussianos


Capítulo 8: Detección de esquinas


Capítulo 9: Tensor de estructura


Capítulo 10: Desplazamiento medio


(II) Respondiendo las principales preguntas del público sobre el procesamiento de imágenes piramidales .


(III) Ejemplos del mundo real sobre el uso del procesamiento de imágenes piramidales en muchos campos.


Para quién es este libro


Profesionales, estudiantes de pregrado y posgrado, entusiastas, aficionados y aquellos que quieran ir más allá del conocimiento o la información básica para cualquier tipo de procesamiento de imágenes piramidales.


 


 

IdiomaEspañol
Fecha de lanzamiento11 may 2024
Procesamiento de imágenes piramidales: Explorando las profundidades del análisis visual

Lee más de Fouad Sabry

Relacionado con Procesamiento de imágenes piramidales

Títulos en esta serie (100)

Ver más

Libros electrónicos relacionados

Inteligencia (IA) y semántica para usted

Ver más

Artículos relacionados

Comentarios para Procesamiento de imágenes piramidales

Calificación: 0 de 5 estrellas
0 calificaciones

0 clasificaciones0 comentarios

¿Qué te pareció?

Toca para calificar

Los comentarios deben tener al menos 10 palabras

    Vista previa del libro

    Procesamiento de imágenes piramidales - Fouad Sabry

    Capítulo 1: Pirámide (procesamiento de imágenes)

    La representación piramidal, o pirámide para abreviar, es un tipo de representación de señales multiescala iniciada por investigadores en los campos de la visión por computadora, el procesamiento de imágenes y el procesamiento de señales. Antes de la representación del espacio de escala y el análisis de resolución múltiple, existía la representación piramidal.

    Las pirámides se pueden dividir en dos grandes categorías: paso bajo y paso de banda.

    Después de aplicar el filtro de suavizado necesario a la imagen, se crea una pirámide de paso bajo submuestreando el resultado por un factor de 2 tanto en la dirección horizontal como en la vertical. La imagen resultante se procesa de la misma manera una vez más, y este ciclo se repite varias veces. Después de varias iteraciones, el tamaño de la imagen disminuye, la suavidad mejora, pero la densidad de muestreo espacial disminuye (es decir, disminuye la resolución de la imagen). Visualmente, la representación general a múltiples escalas se asemeja a una pirámide, con la imagen original en la base y las imágenes más pequeñas producidas por ciclos sucesivos en capas sobre ella.

    Para permitir el cálculo de las diferencias de píxeles, se construye una pirámide de paso de banda creando la diferencia entre imágenes en niveles consecutivos en la pirámide y realizando la interpolación de imágenes entre niveles adyacentes de resolución.

    Para la generación piramidal, se han propuesto muchos núcleos de suavizado. Los procesadores más potentes de hoy en día hacen posible emplear filtros gaussianos soportados más grandes como núcleos de suavizado en los procesos de creación de pirámides.

    Las fotos subsiguientes en una pirámide gaussiana se reducen y ponderan utilizando un promedio gaussiano (desenfoque gaussiano). Cada píxel de vecindad en los niveles inferiores de la pirámide está representado por un píxel con un promedio local. Este método se emplea ampliamente en el campo de la síntesis de texturas.

    Al igual que una pirámide gaussiana, una pirámide laplaciana también almacena la imagen de diferencia entre cada grado de desenfoque. Para reconstruir la imagen de alta resolución a partir de las fotos de diferencia en los niveles superiores, solo el nivel más bajo no es una imagen de diferencia. Las imágenes se pueden comprimir con este método.

    Simoncelli y otros inventaron la pirámide dirigible, que es un banco de filtros de paso de banda multiescala y orientación que se utiliza en la compresión de imágenes, la generación de texturas y la detección de objetos. Es similar a una pirámide laplaciana, pero en lugar de usar un solo filtro laplaciano o gaussiano en cada nivel, se emplea un banco de filtros orientables.

    Las pirámides fueron la principal representación multiescala utilizada en los inicios de la visión por ordenador para generar atributos de imagen multiescala a partir de datos de imágenes sin procesar. Algunos investigadores favorecen la representación del espacio de escala debido a su fundamentación teórica, la capacidad de desacoplar la etapa de submuestreo de la representación multiescala, herramientas más robustas para el análisis teórico y la capacidad de calcular una representación a cualquier escala deseada, evitando así los problemas algorítmicos de relacionar representaciones de imágenes a diferentes resoluciones. Las pirámides no son tan populares como antes, pero sin embargo se emplean ampliamente para transmitir aproximaciones computacionalmente eficientes a la representación del espacio de escala.

    Las pirámides laplacianas permiten la amplificación o reducción de detalles a varias escalas mediante la adición o eliminación de niveles de la imagen de origen. Sin embargo, es bien sabido que este tipo de manipulación de detalles a menudo resulta en errores de halo, lo que impulsa la creación de alternativas como el filtro bilateral.

    El algoritmo Adam7, junto con otras técnicas de entrelazado, se utiliza en ciertos formatos de archivo de compresión de imágenes. Estos se pueden ver como una forma piramidal para las imágenes. Un archivo puede admitir muchas resoluciones de visor, en lugar de tener que almacenar o generar un archivo diferente para cada resolución, gracias a la forma en que esos formatos de archivo almacenan primero las características a gran escala y los detalles detallados más adelante en el archivo. Esto permite que un espectador específico que muestra una pequeña miniatura o en una pantalla pequeña descargue rápidamente lo suficiente de la imagen para mostrarla en los píxeles disponibles.

    {Fin del capítulo 1}

    Capítulo 2: Transformación de características invariantes de escala

    David Lowe desarrolló la transformación de características invariantes de escala (SIFT) en 1999 como un algoritmo de visión por computadora para localizar, caracterizar y hacer coincidir características locales en imágenes. El reconocimiento de objetos, el mapeo y la navegación robóticos, la unión de imágenes, el modelado tridimensional, el reconocimiento de gestos, el seguimiento de video, la identificación individual de la vida silvestre y el emparejamiento son solo algunos de los muchos usos posibles de esta tecnología.

    Los puntos clave SIFT de objetos se extraen primero de un conjunto de imágenes de entrenamiento.

    Es posible crear una descripción de características de cualquier objeto en una imagen aislando los puntos clave sobre ese objeto. Al intentar localizar un objeto en una imagen de prueba con muchos otros objetos, se puede usar esta descripción porque se extrajo de una imagen de entrenamiento. Las características extraídas de la imagen de entrenamiento deben ser discernibles a pesar de las variaciones en la escala de la imagen, el ruido y la iluminación si se quiere lograr un reconocimiento confiable. Estas manchas suelen residir en los bordes de la imagen u otras áreas con alto contraste.

    Además, estas características deben mantener las mismas posiciones relativas de una imagen a la siguiente, como lo hicieron en la escena original. Si solo se usaran las cuatro esquinas de una puerta como características, el reconocimiento tendría éxito si la puerta estaba abierta o cerrada. Sin embargo, si también se utilizaran puntos en el marco, el reconocimiento fallaría en cualquiera de los casos. Del mismo modo, si hay algún cambio en la geometría interna de un objeto articulado o flexible entre dos imágenes del conjunto que se está procesando, es probable que las entidades ubicadas en ese objeto ya no funcionen. Si bien estas variaciones locales pueden tener un impacto significativo en el error promedio de todos los errores de coincidencia de características, SIFT, en la práctica, detecta y utiliza un número mucho mayor de características de las imágenes, lo que mitiga su impacto.

    En esta sección se proporciona una breve descripción general del algoritmo SIFT original y se analizan brevemente algunos métodos alternativos para el reconocimiento de objetos en entornos con mucho ruido de fondo o vistas oscurecidas.

    El descriptor SIFT utiliza mediciones de campo receptivo para analizar imágenes.

    Las características de imagen local pueden ayudar en el reconocimiento de objetos si se pueden detectar y describir. Las entidades SIFT no se ven afectadas por el cambio de tamaño o la rotación de la imagen, ya que se basan en la apariencia del objeto en puntos de interés discretos. Pueden soportar pequeños cambios en el punto de vista, así como variaciones en la iluminación y el ruido. También permiten la identificación precisa de objetos con una pequeña posibilidad de discrepancia, y son muy únicos y fáciles de extraer. Sin embargo, la alta dimensionalidad puede ser un problema, por lo que normalmente se utilizan algoritmos probabilísticos como los árboles k-d con la mejor búsqueda de bin first. Son fáciles de comparar con una base de datos (grande) de características locales. Se necesitan tan solo tres características SIFT de un objeto para calcular su ubicación y pose, lo que hace que las descripciones de objetos basadas en conjuntos de características SIFT sean robustas para la oclusión parcial. Para bases de datos relativamente pequeñas y con la potencia informática actual, el reconocimiento se puede realizar casi al instante.

    Con el enfoque de Lowe, una imagen se convierte en un gran conjunto de vectores de características que son robustos a la distorsión geométrica local y, al mismo tiempo, invariantes a la traslación, el escalado y la rotación

    ¿Disfrutas la vista previa?
    Página 1 de 1