Bolsa de palabras modelo: Desbloqueando la inteligencia visual con Bag of Words
Por Fouad Sabry
()
Información de este libro electrónico
Qué es el modelo de bolsa de palabras
En visión por computadora, el modelo de bolsa de palabras, a veces llamado modelo de bolsa de palabras visuales, se puede aplicar a la clasificación de imágenes. o recuperación, tratando las características de la imagen como palabras. En la clasificación de documentos, una bolsa de palabras es un vector escaso de recuentos de palabras; es decir, un histograma escaso sobre el vocabulario. En visión por computadora, una bolsa de palabras visuales es un vector de recuentos de ocurrencias de un vocabulario de características de imágenes locales.
Cómo se beneficiará
(I ) Información y validaciones sobre los siguientes temas:
Capítulo 1: Modelo de bolsa de palabras en visión por computadora
Capítulo 2: Segmentación de imágenes
Capítulo 3 : Transformación de características invariantes de escala
Capítulo 4: Espacio de escala
Capítulo 5: Anotación automática de imágenes
Capítulo 6: Estructura a partir del movimiento
Capítulo 7: Resolución de subpíxeles
Capítulo 8: Desplazamiento medio
Capítulo 9: Estimación de la pose del cuerpo articulado
Capítulo 10: Modelos basados en piezas
(II) Respondiendo a las principales preguntas del público sobre el modelo de bolsa de palabras.
(III) Ejemplos del mundo real para el uso del modelo de bolsa de palabras en muchos campos.
Para quién es este libro
Profesionales, estudiantes de pregrado y posgrado, entusiastas, aficionados y aquellos que quieran ir más allá del conocimiento o la información básicos para cualquier tipo de modelo Bag of Words. .
Relacionado con Bolsa de palabras modelo
Títulos en esta serie (100)
Joint Photographic Experts Group: Liberando el poder de los datos visuales con el estándar JPEG Calificación: 0 de 5 estrellas0 calificacionesVisión por computadora submarina: Explorando las profundidades de la visión por computadora debajo de las olas Calificación: 0 de 5 estrellas0 calificacionesModelo de apariencia de color: Comprensión de la percepción y la representación en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesVisión por computador: Explorando las profundidades de la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesTransformación dura: Revelando la magia de Hough Transform en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesTransformación de Hadamard: Revelando el poder de la transformación de Hadamard en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesHistograma de imagen: Revelando conocimientos visuales, explorando las profundidades de los histogramas de imágenes en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCompresión de imagen: Técnicas eficientes para la optimización de datos visuales Calificación: 0 de 5 estrellas0 calificacionesMapeo de tonos: Mapeo de tonos: perspectivas iluminadoras en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesDifusión anisotrópica: Mejora del análisis de imágenes mediante difusión anisotrópica Calificación: 0 de 5 estrellas0 calificacionesReducción de ruido: Mejora de la claridad, técnicas avanzadas para la reducción del ruido en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesFiltro adaptativo: Mejora de la visión por computadora mediante filtrado adaptativo Calificación: 0 de 5 estrellas0 calificacionesTransformación de radón: Revelando patrones ocultos en datos visuales Calificación: 0 de 5 estrellas0 calificacionesHistograma de gradientes orientados: Revelando el ámbito visual: explorando el histograma de gradientes orientados en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesHomografía: Homografía: Transformaciones en Visión por Computador Calificación: 0 de 5 estrellas0 calificacionesVisión estéreo por computadora: Explorando la percepción de profundidad en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesDetección de bordes: Explorando los límites en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesFunción de combinación de colores: Comprensión de la sensibilidad espectral en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesEcualización de histograma: Mejora del contraste de la imagen para mejorar la percepción visual Calificación: 0 de 5 estrellas0 calificacionesDetector de esquinas Harris: Revelando la magia de la detección de características de imagen Calificación: 0 de 5 estrellas0 calificacionesContorno activo: Avances en la visión por computadora con técnicas de contorno activo Calificación: 0 de 5 estrellas0 calificacionesRetinax: Revelando los secretos de la visión computacional con Retinex Calificación: 0 de 5 estrellas0 calificacionesSistema de gestión de color: Optimización de la percepción visual en entornos digitales Calificación: 0 de 5 estrellas0 calificacionesEn Pintura: Cerrar brechas en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesTransformacion afin: Desbloqueo de perspectivas visuales: exploración de la transformación afín en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCorrección gamma: Mejora de la claridad visual en la visión por computadora: la técnica de corrección gamma Calificación: 0 de 5 estrellas0 calificacionesModelo del sistema visual humano: Comprender la percepción y el procesamiento Calificación: 0 de 5 estrellas0 calificacionesModelo de color: Comprensión del espectro de la visión por computadora: exploración de modelos de color Calificación: 0 de 5 estrellas0 calificacionesMétodo de ajuste de nivel: Avances en la visión por computadora, exploración del método de conjunto de niveles Calificación: 0 de 5 estrellas0 calificacionesBanco de filtros: Información sobre las técnicas del banco de filtros de Computer Vision Calificación: 0 de 5 estrellas0 calificaciones
Libros electrónicos relacionados
Palabra Visual: Liberando el poder de la comprensión de imágenes Calificación: 0 de 5 estrellas0 calificacionesDATABASE - Del modelo conceptual a la aplicación final en Access, Visual Basic, Pascal, Html y Php Calificación: 0 de 5 estrellas0 calificacionesDiseño conceptual de bases de datos en UML Calificación: 0 de 5 estrellas0 calificacionesCurso de Programación y Análisis de Software - Tercera Edición Calificación: 0 de 5 estrellas0 calificacionesClasificación de imágenes contextuales: Comprensión de los datos visuales para una clasificación eficaz Calificación: 0 de 5 estrellas0 calificacionesTransformación de característica invariante de escala: Revelando el poder de la transformación de características invariantes de escala en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCurso de Programación y Análisis de Software - 2ª Edición Calificación: 0 de 5 estrellas0 calificacionesBackbone JS Calificación: 0 de 5 estrellas0 calificacionesCurso de Programación de Apps. Android y iPhone Calificación: 5 de 5 estrellas5/5UF2176 - Definición y manipulación de datos Calificación: 0 de 5 estrellas0 calificacionesDetección de manchas: Revelando patrones en datos visuales Calificación: 0 de 5 estrellas0 calificacionesEstructuras de datos en java Calificación: 0 de 5 estrellas0 calificacionesCara Propia: Explorando las profundidades del reconocimiento visual con Eigenface Calificación: 0 de 5 estrellas0 calificacionesProgramación en Visual Basic (VB): DEL ANÁLISIS del Problema al Programa Calificación: 4 de 5 estrellas4/5VBA Excel Guía Esencial Calificación: 5 de 5 estrellas5/5Aprende a Modelar Aplicaciones con UML - Tercera Edición Calificación: 2 de 5 estrellas2/5Programación en C++ Calificación: 2 de 5 estrellas2/5Aprende a Modelar Aplicaciones con UML Calificación: 1 de 5 estrellas1/5Programación Java: JDBC y Swing Calificación: 0 de 5 estrellas0 calificacionesAprender React con 100 ejercicios prácticos Calificación: 0 de 5 estrellas0 calificacionesIngeniería y Arquitectura del Software Calificación: 3 de 5 estrellas3/5Aprende a Programar en C++ Calificación: 5 de 5 estrellas5/5Backbone JS. JavaScript Framework. 2ª Edición Calificación: 0 de 5 estrellas0 calificacionesFundamentos de Programación y Bases de Datos Calificación: 0 de 5 estrellas0 calificacionesEspacio de escala: Explorando las dimensiones en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesModelamiento de base de datos: Metodología práctica y aplicada Calificación: 0 de 5 estrellas0 calificacionesFundamentos de Programación y Bases de Datos: 2ª Edición Calificación: 0 de 5 estrellas0 calificacionesAplicaciones Web con HTML, JavaScript y Php Calificación: 0 de 5 estrellas0 calificaciones
Inteligencia (IA) y semántica para usted
Klara y el Sol Calificación: 5 de 5 estrellas5/5Fundamentos de Programación: Diagramas de flujo, Diagramas N-S, Pseudocódigo y Java Calificación: 0 de 5 estrellas0 calificacionesCómo usar Chatgpt para tu negocio Calificación: 0 de 5 estrellas0 calificacionesChat GPT-4 para Principiantes: Chat GPT, #1 Calificación: 0 de 5 estrellas0 calificacionesIntroducción a la ingeniería Calificación: 0 de 5 estrellas0 calificacionesAprendizaje automático y profundo en python: Una mirada hacia la inteligencia artificial Calificación: 0 de 5 estrellas0 calificacionesResumen CHAT GPT IA Revolución en 2023: Guía de la Tecnología CHAT GPT y su Impacto Social: Resumen Tecnológico, #1 Calificación: 0 de 5 estrellas0 calificacionesMáquinas predictivas: La sencilla economía de la inteligencia artificial Calificación: 5 de 5 estrellas5/5Dominando ChatGPT: Desbloquea el poder de la IA para mejorar la comunicación y las relaciones: Spanish Calificación: 3 de 5 estrellas3/5Inteligencia Artificial Calificación: 4 de 5 estrellas4/5Máquinas como yo Calificación: 4 de 5 estrellas4/5Sobreviviendo a la IA Calificación: 3 de 5 estrellas3/5Inteligencia artificial: Una exploración filosófica sobre el futuro de la mente y la conciencia Calificación: 4 de 5 estrellas4/5Metodología de la programación Calificación: 0 de 5 estrellas0 calificacionesANDROID: Aprende desde cero a crear aplicaciones Calificación: 0 de 5 estrellas0 calificacionesCómo Ganar Dinero por Internet con Inteligencia Artificial Emprende tu negocio digital con ChatGPT, Escríbelo.ia, Playground AI, You.com, Canva, Midjourney, Dall-E 2, Amazon... Calificación: 0 de 5 estrellas0 calificacionesAdministración básica de bases de datos con ORACLE 12c SQL: Prácticas y ejercicios Calificación: 0 de 5 estrellas0 calificacionesMecatrónica Calificación: 0 de 5 estrellas0 calificacionesPython fácil Calificación: 4 de 5 estrellas4/5UML: Modelado de Software para Profesionales Calificación: 0 de 5 estrellas0 calificacionesPHP: Programación web avanzada para profesionales Calificación: 0 de 5 estrellas0 calificacionesArquitectura de computadoras Calificación: 0 de 5 estrellas0 calificacionesEscritura Creativa en la Era de la IA: Dominando la Colaboración con ChatGPT para Crear Libros Impactantes Calificación: 4 de 5 estrellas4/5Laravel: Curso práctico de formación Calificación: 0 de 5 estrellas0 calificacionesInteligencia artificial: Casos prácticos con aprendizaje profundo Calificación: 4 de 5 estrellas4/5GuíaBurros: Inteligencia Artificial: Su lado oscuro y el fin del principio Calificación: 0 de 5 estrellas0 calificacionesR en profundidad: Programación, gráficos y estadística Calificación: 0 de 5 estrellas0 calificacionesMonetización de ChatGPT: aproveche el poder de AI: Spanish Calificación: 1 de 5 estrellas1/5
Comentarios para Bolsa de palabras modelo
0 clasificaciones0 comentarios
Vista previa del libro
Bolsa de palabras modelo - Fouad Sabry
Capítulo 1: Modelo de bolsa de palabras en visión artificial
El modelo de bolsa de palabras (modelo BoW), también conocido como modelo de bolsa de palabras visuales, es una técnica utilizada en visión artificial para clasificar y recuperar imágenes interpretando sus características como palabras. Una bolsa de palabras es un vector disperso de recuentos de ocurrencia de palabras, o un histograma disperso sobre el vocabulario, que se utiliza para la clasificación de documentos. En visión artificial, una bolsa de palabras visuales
es un vocabulario de características de imagen locales que se representa como un vector de recuentos de ocurrencias.
Con el modelo BoW, una imagen se puede representar de la misma manera que un documento. Las imágenes que contienen palabras
también requieren aclaración. Para lograr esto, se utilizan tres procedimientos comunes: detección de características, descripción de características y generación de libros de códigos. La representación del histograma basada en características independientes
es una forma de caracterizar el modelo BoW.
A continuación, cada imagen se abstrae mediante una serie de parches de vecindad después de la detección de entidades. La forma en que los parches deben representarse como vectores numéricos es el enfoque de las técnicas de representación de características. Los descriptores de características son los nombres de estos vectores numéricos. Un buen descriptor debe ser lo suficientemente flexible como para tener en cuenta las variaciones en el brillo, la rotación, la escala y las transformaciones afines. La transformación de características invariantes de escala es uno de los identificadores (SIFT) más conocidos. Cada parche es transformado por SIFT en un vector de 128 dimensiones. En este punto, el orden de los vectores individuales en una imagen es irrelevante, ya que todos son del mismo tamaño (128 para SIFT).
Finalmente, el modelo BoW produce un libro de códigos
traduciendo parches representados vectorialmente en palabras de código
(como palabras en documentos de texto) (analogía con un diccionario de palabras). Una palabra de código puede sustituir a un grupo de parches que son esencialmente iguales. La agrupación de K-medias se puede realizar en todos los vectores para una solución rápida y fácil. Los centros de estos grupos recién aprendidos se convierten en palabras clave. La capacidad del libro de códigos es igual al número total de clústeres (análogo al tamaño del diccionario de palabras).
Como resultado del procedimiento de agrupación en clústeres, cada parche de imagen se asocia con una palabra de código única, y la imagen en sí se puede representar mediante un histograma de las palabras de código.
La comunidad de investigación de visión artificial ha desarrollado varios métodos de aprendizaje para aprovechar el modelo BoW para tareas relacionadas con imágenes, como la categorización de objetos. Los modelos supervisados y no supervisados proporcionan una categorización aproximada de estas técnicas. Al evaluar soluciones a un problema que involucra múltiples etiquetas, la matriz de confusión es una herramienta útil.
Consulte las notas adjuntas a este segmento.
Supongamos que el tamaño del libro de códigos es V .
w : cada parche w es un vector de dimensión V que tiene un solo componente igual a uno y todos los demás componentes iguales a cero (para la configuración de agrupamiento de k-medias, el componente único igual a uno indica el clúster al que w pertenece).
La v enésima palabra de código en el libro de códigos se puede representar como w^{v}=1 y w^{u}=0 para u\neq v .
\mathbf {w} : cada imagen está representada por \mathbf {w} =[w_{1},w_{2},\cdots ,w_{N}] , todos los puntos que componen una imagen
d_{j} : la j enésima imagen de una colección de imágenes
c : categoría de la imagen
z : tema o tema del parche
\pi : proporción de la mezcla
Debido a que su contraparte de PNL, el modelo BoW, es una analogía, la visión por computadora puede beneficiarse de los modelos generativos creados originalmente para el dominio textual.
Se discuten el modelo Bayes ingenuo simple y los modelos bayesianos jerárquicos.
El más simple es el clasificador Bayes ingenuo.
Haciendo uso de la notación del modelo gráfico, el clasificador Bayes Naïve se describe mediante la siguiente ecuación.
Se supone que cada clasificación tiene su propia distribución única en los distintos libros de códigos de este modelo, y que existe una clara distinción entre las distribuciones de los distintos grupos.
Considere las categorías de rostros y automóviles.
Los códigos para nariz
pueden enfatizarse en la clasificación de la cara, tanto ojo
como boca
, rueda y ventana pueden resaltarse como palabras clave en la subcategoría de automóvil.
Proporcionado una biblioteca de datos de entrenamiento, el clasificador está entrenado para producir nuevas distribuciones para cada categoría.
La determinación de la clasificación se realiza mediante
c^{*}=\arg \max _{c}p(c|\mathbf {w} )=\arg \max _{c}p(c)p(\mathbf {w} |c)=\arg \max _{c}p(c)\prod _{n=1}^{N}p(w_{n}|c)Dado que el clasificador Bayes ingenuo es simple pero efectivo, es el estándar por el cual se realizan todas las demás comparaciones.
La suposición básica del modelo Bayes ingenuo no se sostiene a veces.
Por ejemplo, se pueden representar varios conceptos en una sola fotografía de un entorno natural.
Dos modelos temáticos bien conocidos en el dominio textual que abordan el problema de tema
múltiple relacionado son el análisis semántico latente probabilístico (pLSA) y el modelado temático.
Para ilustrarlo, considere LDA.
Modelado de imágenes LDA para escenas naturales, comparación con el estudio de documentos:
Existe una correspondencia entre las categorías de imágenes y documentos; De manera similar a cómo una muestra aleatoria de temas se asigna a una muestra aleatoria de temas,; Los temas del índice corresponden a los del índice temático; La palabra secreta es equivalente a la palabra.
En 13 tipos diferentes de escenas naturales, este método ha demostrado ser muy efectivo.
Debido al uso del modelo BoW en la representación de imágenes, la clasificación de documentos de texto se puede intentar con cualquier modelo discriminativo, los ejemplos incluyen máquinas de vectores de soporte (SVM) Si está utilizando un clasificador basado en el kernel, aún puede usar el truco del kernel, el sistema SVM.
El kernel de coincidencia piramidal es una implementación de última generación del algoritmo BoW.
El uso de una representación del modelo BoW aprendida por clasificadores de aprendizaje automático con diferentes kernels (por ejemplo, un árbol de decisión) es un ejemplo del enfoque de características locales, EMD-kernel y X^{2} kernel) se ha probado ampliamente en el área de reconocimiento de texturas y objetos.
Han aparecido informes de un rendimiento muy alentador en varios conjuntos de datos.
En el PASCAL Visual Object Classes Challenge, este método funcionó excepcionalmente bien.
Kernel de coincidencia piramidal
La incapacidad de BoW para tener en cuenta las relaciones espaciales entre los parches es una deficiencia importante porque son cruciales cuando se representa una imagen. Los investigadores han propuesto varios enfoques para incorporar los datos espaciales. Las entidades de correlograma pueden mejorar la calidad de las entidades mediante la identificación de co-ocurrencias espaciales de entidades. método que incorpora detalles de ubicación en el marco de BoW.
El rendimiento del modelo BoW no está claro porque no se ha sometido a pruebas rigurosas de invarianza del punto de vista e invarianza de escala. La segmentación y localización de objetos mediante el modelo BoW también es poco conocida. Por ejemplo,