Estimación de la postura del cuerpo articulado: Desbloqueando el movimiento humano en la visión por computadora
Por Fouad Sabry
()
Información de este libro electrónico
Qué es la estimación de la postura del cuerpo articulado
En el campo de la visión por computadora, el estudio de técnicas y sistemas que recuperan la postura de un cuerpo articulado, que está compuesto por articulaciones. y partes rígidas, mediante el uso de observaciones basadas en imágenes se conoce como estimación de la postura del cuerpo articulado. Es uno de los desafíos más duraderos en visión por computadora por la complejidad de los modelos que relacionan la observación con la posición, y por la variedad de escenarios en los que sería útil.
Cómo te beneficiarás
(I) Insights y validaciones sobre los siguientes temas:
Capítulo 1: Estimación de la postura del cuerpo articulado
Capítulo 2: Segmentación de imágenes
Capítulo 3: Localización y mapeo simultáneos
Capítulo 4: Reconocimiento de gestos
Capítulo 5: Seguimiento de vídeo
Capítulo 6: Matriz fundamental (visión por computadora)
Capítulo 7: Estructura a partir del movimiento
Capítulo 8: Modelo de bolsa de palabras en visión por computadora
Capítulo 9: Punto- registro de conjuntos
Capítulo 10: Michael J. Black
(II) Respondiendo las principales preguntas del público sobre la estimación de la postura del cuerpo articulado.
(III) Ejemplos del mundo real para el uso de la estimación de la postura corporal articulada en muchos campos.
Para quién es este libro
Profesionales, estudiantes de pregrado y posgrado, entusiastas, aficionados y aquellos que quieran ir más allá del conocimiento o información básica para cualquier tipo de Estimación de la Pose del Cuerpo Articulado.
Relacionado con Estimación de la postura del cuerpo articulado
Títulos en esta serie (100)
Joint Photographic Experts Group: Liberando el poder de los datos visuales con el estándar JPEG Calificación: 0 de 5 estrellas0 calificacionesVisión por computadora submarina: Explorando las profundidades de la visión por computadora debajo de las olas Calificación: 0 de 5 estrellas0 calificacionesModelo de apariencia de color: Comprensión de la percepción y la representación en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesVisión por computador: Explorando las profundidades de la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesTransformación dura: Revelando la magia de Hough Transform en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesTransformación de Hadamard: Revelando el poder de la transformación de Hadamard en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesHistograma de imagen: Revelando conocimientos visuales, explorando las profundidades de los histogramas de imágenes en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCompresión de imagen: Técnicas eficientes para la optimización de datos visuales Calificación: 0 de 5 estrellas0 calificacionesMapeo de tonos: Mapeo de tonos: perspectivas iluminadoras en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesDifusión anisotrópica: Mejora del análisis de imágenes mediante difusión anisotrópica Calificación: 0 de 5 estrellas0 calificacionesReducción de ruido: Mejora de la claridad, técnicas avanzadas para la reducción del ruido en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesFiltro adaptativo: Mejora de la visión por computadora mediante filtrado adaptativo Calificación: 0 de 5 estrellas0 calificacionesTransformación de radón: Revelando patrones ocultos en datos visuales Calificación: 0 de 5 estrellas0 calificacionesHistograma de gradientes orientados: Revelando el ámbito visual: explorando el histograma de gradientes orientados en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesHomografía: Homografía: Transformaciones en Visión por Computador Calificación: 0 de 5 estrellas0 calificacionesVisión estéreo por computadora: Explorando la percepción de profundidad en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesDetección de bordes: Explorando los límites en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesFunción de combinación de colores: Comprensión de la sensibilidad espectral en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesEcualización de histograma: Mejora del contraste de la imagen para mejorar la percepción visual Calificación: 0 de 5 estrellas0 calificacionesDetector de esquinas Harris: Revelando la magia de la detección de características de imagen Calificación: 0 de 5 estrellas0 calificacionesContorno activo: Avances en la visión por computadora con técnicas de contorno activo Calificación: 0 de 5 estrellas0 calificacionesRetinax: Revelando los secretos de la visión computacional con Retinex Calificación: 0 de 5 estrellas0 calificacionesSistema de gestión de color: Optimización de la percepción visual en entornos digitales Calificación: 0 de 5 estrellas0 calificacionesEn Pintura: Cerrar brechas en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesTransformacion afin: Desbloqueo de perspectivas visuales: exploración de la transformación afín en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCorrección gamma: Mejora de la claridad visual en la visión por computadora: la técnica de corrección gamma Calificación: 0 de 5 estrellas0 calificacionesModelo del sistema visual humano: Comprender la percepción y el procesamiento Calificación: 0 de 5 estrellas0 calificacionesModelo de color: Comprensión del espectro de la visión por computadora: exploración de modelos de color Calificación: 0 de 5 estrellas0 calificacionesMétodo de ajuste de nivel: Avances en la visión por computadora, exploración del método de conjunto de niveles Calificación: 0 de 5 estrellas0 calificacionesBanco de filtros: Información sobre las técnicas del banco de filtros de Computer Vision Calificación: 0 de 5 estrellas0 calificaciones
Libros electrónicos relacionados
Modelo de apariencia activa: Liberando el poder de los modelos de apariencia activa en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesVer síntesis: Explorando perspectivas en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesSegmentación de imagen: Desbloqueo de información a través de Pixel Precision Calificación: 0 de 5 estrellas0 calificacionesFlujo óptico: Explorando patrones visuales dinámicos en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesDetección de objetos: Avances, aplicaciones y algoritmos Calificación: 0 de 5 estrellas0 calificacionesRed de sensores visuales: Explorando el poder de las redes de sensores visuales en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesVisión estéreo por computadora: Explorando la percepción de profundidad en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesVisión por computador: Explorando las profundidades de la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesTransformación de característica invariante de escala: Revelando el poder de la transformación de características invariantes de escala en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesReconocimiento óptico de Braille: Potenciando la accesibilidad a través de la inteligencia visual Calificación: 0 de 5 estrellas0 calificacionesGeometría epipolar: Desbloqueo de la percepción de profundidad en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesProcesamiento de imágenes piramidales: Explorando las profundidades del análisis visual Calificación: 0 de 5 estrellas0 calificacionesReconstrucción tridimensional multivista: Técnicas avanzadas de percepción espacial en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesEstimación de movimiento: Avances y aplicaciones en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCampo de movimiento: Explorando la dinámica de la visión por computadora: campo de movimiento revelado Calificación: 0 de 5 estrellas0 calificacionesDetección de colisiones: Comprensión de las intersecciones visuales en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesAprendizaje de características geométricas: Desbloqueo de conocimientos visuales a través del aprendizaje de características geométricas Calificación: 0 de 5 estrellas0 calificacionesModelo de cámara estenopeica: Comprender la perspectiva a través de la óptica computacional Calificación: 0 de 5 estrellas0 calificacionesGráficos de trazado de rayos: Explorando la representación fotorrealista en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesSistema de reconocimiento facial: Liberando el poder de la inteligencia visual Calificación: 0 de 5 estrellas0 calificacionesContorno activo: Avances en la visión por computadora con técnicas de contorno activo Calificación: 0 de 5 estrellas0 calificacionesCara Propia: Explorando las profundidades del reconocimiento visual con Eigenface Calificación: 0 de 5 estrellas0 calificacionesHistograma de gradientes orientados: Revelando el ámbito visual: explorando el histograma de gradientes orientados en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesSuperficie procesal: Explorando la generación y el análisis de texturas en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesHerramientas de análisis para la estabilidad estática postural: Caso de aplicación: personas con amputación transtibial Calificación: 0 de 5 estrellas0 calificacionesControl digital de orientación, posición y velocidad basado en movimientos de la cabeza para un prototipo de simulación de silla de ruedas Calificación: 0 de 5 estrellas0 calificacionesReconocimiento automático de objetivos: Avances en técnicas de visión por computadora para el reconocimiento de objetivos Calificación: 0 de 5 estrellas0 calificacionesProyección tridimensional: Liberando la profundidad de la visión por computadora Calificación: 0 de 5 estrellas0 calificaciones
Inteligencia (IA) y semántica para usted
Klara y el Sol Calificación: 5 de 5 estrellas5/5Fundamentos de Programación: Diagramas de flujo, Diagramas N-S, Pseudocódigo y Java Calificación: 0 de 5 estrellas0 calificacionesCómo usar Chatgpt para tu negocio Calificación: 0 de 5 estrellas0 calificacionesChat GPT-4 para Principiantes: Chat GPT, #1 Calificación: 0 de 5 estrellas0 calificacionesIntroducción a la ingeniería Calificación: 0 de 5 estrellas0 calificacionesAprendizaje automático y profundo en python: Una mirada hacia la inteligencia artificial Calificación: 0 de 5 estrellas0 calificacionesResumen CHAT GPT IA Revolución en 2023: Guía de la Tecnología CHAT GPT y su Impacto Social: Resumen Tecnológico, #1 Calificación: 0 de 5 estrellas0 calificacionesMáquinas predictivas: La sencilla economía de la inteligencia artificial Calificación: 5 de 5 estrellas5/5Dominando ChatGPT: Desbloquea el poder de la IA para mejorar la comunicación y las relaciones: Spanish Calificación: 3 de 5 estrellas3/5Inteligencia Artificial Calificación: 4 de 5 estrellas4/5Máquinas como yo Calificación: 4 de 5 estrellas4/5Sobreviviendo a la IA Calificación: 3 de 5 estrellas3/5Inteligencia artificial: Una exploración filosófica sobre el futuro de la mente y la conciencia Calificación: 4 de 5 estrellas4/5Metodología de la programación Calificación: 0 de 5 estrellas0 calificacionesANDROID: Aprende desde cero a crear aplicaciones Calificación: 0 de 5 estrellas0 calificacionesCómo Ganar Dinero por Internet con Inteligencia Artificial Emprende tu negocio digital con ChatGPT, Escríbelo.ia, Playground AI, You.com, Canva, Midjourney, Dall-E 2, Amazon... Calificación: 0 de 5 estrellas0 calificacionesAdministración básica de bases de datos con ORACLE 12c SQL: Prácticas y ejercicios Calificación: 0 de 5 estrellas0 calificacionesMecatrónica Calificación: 0 de 5 estrellas0 calificacionesPython fácil Calificación: 4 de 5 estrellas4/5UML: Modelado de Software para Profesionales Calificación: 0 de 5 estrellas0 calificacionesPHP: Programación web avanzada para profesionales Calificación: 0 de 5 estrellas0 calificacionesArquitectura de computadoras Calificación: 0 de 5 estrellas0 calificacionesEscritura Creativa en la Era de la IA: Dominando la Colaboración con ChatGPT para Crear Libros Impactantes Calificación: 4 de 5 estrellas4/5Laravel: Curso práctico de formación Calificación: 0 de 5 estrellas0 calificacionesInteligencia artificial: Casos prácticos con aprendizaje profundo Calificación: 4 de 5 estrellas4/5GuíaBurros: Inteligencia Artificial: Su lado oscuro y el fin del principio Calificación: 0 de 5 estrellas0 calificacionesR en profundidad: Programación, gráficos y estadística Calificación: 0 de 5 estrellas0 calificacionesMonetización de ChatGPT: aproveche el poder de AI: Spanish Calificación: 1 de 5 estrellas1/5
Comentarios para Estimación de la postura del cuerpo articulado
0 clasificaciones0 comentarios
Vista previa del libro
Estimación de la postura del cuerpo articulado - Fouad Sabry
Capítulo 1: Estimación de la postura del cuerpo articulado
El campo de la visión por computador conocido como estimación de la postura del cuerpo articulado
se centra en técnicas y sistemas que pueden determinar la posición de un objeto en movimiento a partir de una serie de imágenes de sus articulaciones y partes rígidas. La dificultad de los modelos que relacionan la observación con la postura, así como la amplia gama de aplicaciones, han hecho de este un reto perdurable en la visión artificial.
Los robots necesitan la capacidad de detectar y comprender la presencia de personas en su entorno inmediato. La máquina interactiva debe comprender el contexto del mundo real del escenario si un humano emplea gestos para señalar un objeto específico. Debido a su importancia y dificultad, en las últimas dos décadas se han desarrollado e implementado varios métodos para abordar el problema de la estimación de la pose en la visión por computadora. El entrenamiento de modelos complicados con enormes conjuntos de datos es un enfoque común.
Debido a los 244 DOF y 230 articulaciones del cuerpo humano, la estimación de la pose es un problema desafiante con el estudio actual. El cuerpo humano tiene 10 partes principales y 20 grados de libertad, sin embargo, no todos los movimientos entre las articulaciones son visibles. Hay mucha variación en la apariencia que los algoritmos deben tener en cuenta, incluidas las variaciones en la ropa, la forma del cuerpo, el tamaño y los cortes de pelo. Además, las oclusiones autoarticuladas, como una persona que se cubre la cara con la mano, o las oclusiones externas pueden hacer que los resultados no sean claros. Por último, la mayoría de los algoritmos calculan la pose a partir de las imágenes monoculares (bidimensionales) estándar de las cámaras. Las condiciones inconsistentes de la cámara y la iluminación pueden contribuir al problema. Las necesidades de rendimiento adicionales solo aumentan la complejidad. Estas imágenes tienen mucho espacio para errores de interpretación porque carecen de la información de profundidad de una postura corporal real. Los esfuerzos recientes en esta dirección hacen uso de la información de color y profundidad capturada por las cámaras RGBD.
En una técnica basada en modelos utilizada por la mayoría de los sistemas de estimación de la pose corporal articulada, se utiliza la similitud/diferencia máxima/mínima entre una observación (entrada) y un modelo de plantilla para determinar una pose estimada. Se han considerado varios sensores, como los siguientes, para su uso en la realización de la observación:
Imágenes en longitudes de onda visibles, Fotos tomadas en el espectro infrarrojo de onda larga, Fotografía de tiempo de vuelo, y
Fotos tomadas con un telémetro láser.
El modelo hace uso directo de las representaciones intermedias producidas por estos sensores. Estas son algunas de las representaciones:
Apariencia de la imagen, Reconstrucción basada en vóxeles (elementos de volumen), En tres dimensiones, utilizando un total de núcleos gaussianos
Mallas de superficie tridimensionales.
El esqueleto humano es donde surgió por primera vez el concepto de un modelo basado en piezas
. Cuando un objeto tiene la capacidad de articularse, se puede desmontar en partes componentes que se pueden reorganizar en una variedad de configuraciones. La escala y la orientación del objeto primario se articulan con las escalas y orientaciones de las piezas. Los resortes sirven para conectar los muchos componentes del modelo, lo que permite describirlo matemáticamente. Llamado así porque se asemeja a un resorte, este modelo tiene otros nombres. La compresión y la expansión de los resortes tienen en cuenta la proximidad relativa de los diversos componentes. Las orientaciones de los muelles están limitadas por la geometría. Las piernas, por ejemplo, no tienen brazos que puedan girar en un círculo completo. Por lo tanto, los componentes no se pueden orientar de esa manera. Por lo tanto, se reduce el número de combinaciones viables.
En el modelo de muelle, los nudos (V) representan los componentes, mientras que las aristas (E) representan los muelles que los conectan.
Se puede llegar a cada ubicación de la imagen mediante las x y coordenadas y de la ubicación del píxel.
Señale {\displaystyle \mathbf {p} _{i}(x,\,y)} la {\displaystyle \mathbf {i} ^{th}} ubicación.
Entonces, el costo asociado a la unión del resorte entre {\displaystyle \mathbf {i} ^{th}} y el {\displaystyle \mathbf {j} ^{th}} punto puede ser dado por {\displaystyle S(\mathbf {p} _{i},\,\mathbf {p} _{j})=S(\mathbf {p} _{i}-\mathbf {p} _{j})} .
Por lo tanto, el costo total asociado a la colocación de l componentes en las ubicaciones {\displaystyle \mathbf {P} _{l}} viene dado por
{\displaystyle S(\mathbf {P} _{l})=\displaystyle \sum _{i=1}^{l}\;\displaystyle \sum _{j=1}^{i}\;\mathbf {s} _{ij}(\mathbf {p} _{i},\,\mathbf {p} _{j})}La ecuación antes mencionada es una simplificación del modelo de resorte comúnmente empleado para describir la postura corporal. La minimización del costo o de la función energética se utiliza para estimar la pose a partir de fotografías. Hay dos términos en esta función energética. El primero tiene en cuenta qué tan bien cada parte coincide con los datos de la imagen, mientras que el segundo tiene en cuenta qué tan bien coinciden las partes orientadas (deformadas), de modo que se tienen en cuenta la articulación y la detección de objetos.
Se utiliza una cadena jerárquica para construir el esqueleto cinemático.
Cada segmento de cuerpo rígido tiene su sistema de coordenadas local que se puede transformar en el sistema de coordenadas universales a través de una matriz de transformación 4×4 {\displaystyle T_{l}} , {\displaystyle T_{l}=T_{\operatorname {par} (l)}R_{l},}
donde {\displaystyle R_{l}} denota la transformación local del segmento del cuerpo S_{l} a su padre {\displaystyle \operatorname {par} (S_{l})} .
Hay tres grados de libertad (DoF) de movimiento en cada articulación humana.
Dada una matriz de transformación T_l , la posición de la articulación de la posición en T se puede trasladar al sistema de coordenadas del mundo.
En numerosos trabajos, la rotación de la junta 3D se expresa como un cuaternión normalizado {\displaystyle [x,y,z,w]} debido a su continuidad que puede facilitar la optimización basada en gradientes en la estimación de parámetros.
Para estimar con precisión las poses de los cuerpos articulados, el aprendizaje profundo se ha convertido en la técnica estándar desde aproximadamente 2016. La apariencia de las articulaciones y las relaciones entre las articulaciones del cuerpo se aprenden a través de vastos conjuntos de entrenamiento en lugar de desarrollar un modelo explícito para las partes como se mencionó anteriormente. La extracción de posiciones de articulaciones 2D (puntos clave), posiciones de articulaciones 3D o formas de cuerpo 3D a partir de una o varias fotos suele ser el énfasis principal de los modelos.
Los modelos iniciales de aprendizaje profundo desarrollados se centraron principalmente en determinar las ubicaciones 2D de las articulaciones humanas a partir de una imagen determinada. Con el fin de detectar articulaciones, estos modelos introducen una imagen de entrada en una red neuronal convolucional, que produce un conjunto de mapas de calor (uno para cada articulación) con valores altos en esas áreas.
Con la proliferación de conjuntos de datos que contienen anotaciones de poses humanas desde varios ángulos, junto con la investigación antes mencionada, los científicos han estado tratando de reconstruir la forma 3D de una persona o animal a partir de una colección de fotografías 2D. El objetivo principal es estimar la pose correcta del modelo lineal multipersona (SMPL) despellejado. Para cada animal de la imagen, a menudo se detectan puntos clave y una silueta; una vez encontrados, los parámetros de un modelo de forma 3D suelen adaptarse para que se correspondan con sus ubicaciones.
Las fotos anotadas son esenciales para los algoritmos antes mencionados, aunque su creación puede ser laboriosa. Para resolver este problema, los investigadores en el campo de la visión por computadora han creado nuevos algoritmos que pueden reconocer puntos clave en películas sin ninguna anotación o aprender puntos clave 3D dado solo