Descubre millones de libros electrónicos, audiolibros y mucho más con una prueba gratuita

Solo $11.99/mes después de la prueba. Puedes cancelar en cualquier momento.

Bolsa de palabras modelo: Desbloqueando la inteligencia visual con Bag of Words
Bolsa de palabras modelo: Desbloqueando la inteligencia visual con Bag of Words
Bolsa de palabras modelo: Desbloqueando la inteligencia visual con Bag of Words
Libro electrónico117 páginas1 hora

Bolsa de palabras modelo: Desbloqueando la inteligencia visual con Bag of Words

Calificación: 0 de 5 estrellas

()

Leer la vista previa

Información de este libro electrónico

Qué es el modelo de bolsa de palabras


En visión por computadora, el modelo de bolsa de palabras, a veces llamado modelo de bolsa de palabras visuales, se puede aplicar a la clasificación de imágenes. o recuperación, tratando las características de la imagen como palabras. En la clasificación de documentos, una bolsa de palabras es un vector escaso de recuentos de palabras; es decir, un histograma escaso sobre el vocabulario. En visión por computadora, una bolsa de palabras visuales es un vector de recuentos de ocurrencias de un vocabulario de características de imágenes locales.


Cómo se beneficiará


(I ) Información y validaciones sobre los siguientes temas:


Capítulo 1: Modelo de bolsa de palabras en visión por computadora


Capítulo 2: Segmentación de imágenes


Capítulo 3 : Transformación de características invariantes de escala


Capítulo 4: Espacio de escala


Capítulo 5: Anotación automática de imágenes


Capítulo 6: Estructura a partir del movimiento


Capítulo 7: Resolución de subpíxeles


Capítulo 8: Desplazamiento medio


Capítulo 9: Estimación de la pose del cuerpo articulado


Capítulo 10: Modelos basados en piezas


(II) Respondiendo a las principales preguntas del público sobre el modelo de bolsa de palabras.


(III) Ejemplos del mundo real para el uso del modelo de bolsa de palabras en muchos campos.


Para quién es este libro


Profesionales, estudiantes de pregrado y posgrado, entusiastas, aficionados y aquellos que quieran ir más allá del conocimiento o la información básicos para cualquier tipo de modelo Bag of Words. .


 


 

IdiomaEspañol
Fecha de lanzamiento14 may 2024
Bolsa de palabras modelo: Desbloqueando la inteligencia visual con Bag of Words

Relacionado con Bolsa de palabras modelo

Títulos en esta serie (100)

Ver más

Libros electrónicos relacionados

Inteligencia (IA) y semántica para usted

Ver más

Artículos relacionados

Comentarios para Bolsa de palabras modelo

Calificación: 0 de 5 estrellas
0 calificaciones

0 clasificaciones0 comentarios

¿Qué te pareció?

Toca para calificar

Los comentarios deben tener al menos 10 palabras

    Vista previa del libro

    Bolsa de palabras modelo - Fouad Sabry

    Capítulo 1: Modelo de bolsa de palabras en visión artificial

    El modelo de bolsa de palabras (modelo BoW), también conocido como modelo de bolsa de palabras visuales, es una técnica utilizada en visión artificial para clasificar y recuperar imágenes interpretando sus características como palabras. Una bolsa de palabras es un vector disperso de recuentos de ocurrencia de palabras, o un histograma disperso sobre el vocabulario, que se utiliza para la clasificación de documentos. En visión artificial, una bolsa de palabras visuales es un vocabulario de características de imagen locales que se representa como un vector de recuentos de ocurrencias.

    Con el modelo BoW, una imagen se puede representar de la misma manera que un documento. Las imágenes que contienen palabras también requieren aclaración. Para lograr esto, se utilizan tres procedimientos comunes: detección de características, descripción de características y generación de libros de códigos. La representación del histograma basada en características independientes es una forma de caracterizar el modelo BoW.

    A continuación, cada imagen se abstrae mediante una serie de parches de vecindad después de la detección de entidades. La forma en que los parches deben representarse como vectores numéricos es el enfoque de las técnicas de representación de características. Los descriptores de características son los nombres de estos vectores numéricos. Un buen descriptor debe ser lo suficientemente flexible como para tener en cuenta las variaciones en el brillo, la rotación, la escala y las transformaciones afines. La transformación de características invariantes de escala es uno de los identificadores (SIFT) más conocidos. Cada parche es transformado por SIFT en un vector de 128 dimensiones. En este punto, el orden de los vectores individuales en una imagen es irrelevante, ya que todos son del mismo tamaño (128 para SIFT).

    Finalmente, el modelo BoW produce un libro de códigos traduciendo parches representados vectorialmente en palabras de código (como palabras en documentos de texto) (analogía con un diccionario de palabras). Una palabra de código puede sustituir a un grupo de parches que son esencialmente iguales. La agrupación de K-medias se puede realizar en todos los vectores para una solución rápida y fácil. Los centros de estos grupos recién aprendidos se convierten en palabras clave. La capacidad del libro de códigos es igual al número total de clústeres (análogo al tamaño del diccionario de palabras).

    Como resultado del procedimiento de agrupación en clústeres, cada parche de imagen se asocia con una palabra de código única, y la imagen en sí se puede representar mediante un histograma de las palabras de código.

    La comunidad de investigación de visión artificial ha desarrollado varios métodos de aprendizaje para aprovechar el modelo BoW para tareas relacionadas con imágenes, como la categorización de objetos. Los modelos supervisados y no supervisados proporcionan una categorización aproximada de estas técnicas. Al evaluar soluciones a un problema que involucra múltiples etiquetas, la matriz de confusión es una herramienta útil.

    Consulte las notas adjuntas a este segmento.

    Supongamos que el tamaño del libro de códigos es V .

    w : cada parche w es un vector de dimensión V que tiene un solo componente igual a uno y todos los demás componentes iguales a cero (para la configuración de agrupamiento de k-medias, el componente único igual a uno indica el clúster al que w pertenece).

    La v enésima palabra de código en el libro de códigos se puede representar como w^{v}=1 y w^{u}=0 para u\neq v .

    \mathbf {w} : cada imagen está representada por \mathbf {w} =[w_{1},w_{2},\cdots ,w_{N}] , todos los puntos que componen una imagen

    d_{j} : la j enésima imagen de una colección de imágenes

    c : categoría de la imagen

    z : tema o tema del parche

    \pi : proporción de la mezcla

    Debido a que su contraparte de PNL, el modelo BoW, es una analogía, la visión por computadora puede beneficiarse de los modelos generativos creados originalmente para el dominio textual.

    Se discuten el modelo Bayes ingenuo simple y los modelos bayesianos jerárquicos.

    El más simple es el clasificador Bayes ingenuo.

    Haciendo uso de la notación del modelo gráfico, el clasificador Bayes Naïve se describe mediante la siguiente ecuación.

    Se supone que cada clasificación tiene su propia distribución única en los distintos libros de códigos de este modelo, y que existe una clara distinción entre las distribuciones de los distintos grupos.

    Considere las categorías de rostros y automóviles.

    Los códigos para nariz pueden enfatizarse en la clasificación de la cara, tanto ojo como boca, rueda y ventana pueden resaltarse como palabras clave en la subcategoría de automóvil.

    Proporcionado una biblioteca de datos de entrenamiento, el clasificador está entrenado para producir nuevas distribuciones para cada categoría.

    La determinación de la clasificación se realiza mediante

    c^{*}=\arg \max _{c}p(c|\mathbf {w} )=\arg \max _{c}p(c)p(\mathbf {w} |c)=\arg \max _{c}p(c)\prod _{n=1}^{N}p(w_{n}|c)

    Dado que el clasificador Bayes ingenuo es simple pero efectivo, es el estándar por el cual se realizan todas las demás comparaciones.

    La suposición básica del modelo Bayes ingenuo no se sostiene a veces.

    Por ejemplo, se pueden representar varios conceptos en una sola fotografía de un entorno natural.

    Dos modelos temáticos bien conocidos en el dominio textual que abordan el problema de tema múltiple relacionado son el análisis semántico latente probabilístico (pLSA) y el modelado temático.

    Para ilustrarlo, considere LDA.

    Modelado de imágenes LDA para escenas naturales, comparación con el estudio de documentos:

    Existe una correspondencia entre las categorías de imágenes y documentos; De manera similar a cómo una muestra aleatoria de temas se asigna a una muestra aleatoria de temas,; Los temas del índice corresponden a los del índice temático; La palabra secreta es equivalente a la palabra.

    En 13 tipos diferentes de escenas naturales, este método ha demostrado ser muy efectivo.

    Debido al uso del modelo BoW en la representación de imágenes, la clasificación de documentos de texto se puede intentar con cualquier modelo discriminativo, los ejemplos incluyen máquinas de vectores de soporte (SVM) Si está utilizando un clasificador basado en el kernel, aún puede usar el truco del kernel, el sistema SVM.

    El kernel de coincidencia piramidal es una implementación de última generación del algoritmo BoW.

    El uso de una representación del modelo BoW aprendida por clasificadores de aprendizaje automático con diferentes kernels (por ejemplo, un árbol de decisión) es un ejemplo del enfoque de características locales, EMD-kernel y X^{2} kernel) se ha probado ampliamente en el área de reconocimiento de texturas y objetos.

    Han aparecido informes de un rendimiento muy alentador en varios conjuntos de datos.

    En el PASCAL Visual Object Classes Challenge, este método funcionó excepcionalmente bien.

    Kernel de coincidencia piramidal

    La incapacidad de BoW para tener en cuenta las relaciones espaciales entre los parches es una deficiencia importante porque son cruciales cuando se representa una imagen. Los investigadores han propuesto varios enfoques para incorporar los datos espaciales. Las entidades de correlograma pueden mejorar la calidad de las entidades mediante la identificación de co-ocurrencias espaciales de entidades. método que incorpora detalles de ubicación en el marco de BoW.

    El rendimiento del modelo BoW no está claro porque no se ha sometido a pruebas rigurosas de invarianza del punto de vista e invarianza de escala. La segmentación y localización de objetos mediante el modelo BoW también es poco conocida. Por ejemplo,

    ¿Disfrutas la vista previa?
    Página 1 de 1