Descubre millones de libros electrónicos, audiolibros y mucho más con una prueba gratuita

Solo $11.99/mes después de la prueba. Puedes cancelar en cualquier momento.

Estimación de la postura del cuerpo articulado: Desbloqueando el movimiento humano en la visión por computadora
Estimación de la postura del cuerpo articulado: Desbloqueando el movimiento humano en la visión por computadora
Estimación de la postura del cuerpo articulado: Desbloqueando el movimiento humano en la visión por computadora
Libro electrónico126 páginas1 hora

Estimación de la postura del cuerpo articulado: Desbloqueando el movimiento humano en la visión por computadora

Calificación: 0 de 5 estrellas

()

Leer la vista previa

Información de este libro electrónico

Qué es la estimación de la postura del cuerpo articulado


En el campo de la visión por computadora, el estudio de técnicas y sistemas que recuperan la postura de un cuerpo articulado, que está compuesto por articulaciones. y partes rígidas, mediante el uso de observaciones basadas en imágenes se conoce como estimación de la postura del cuerpo articulado. Es uno de los desafíos más duraderos en visión por computadora por la complejidad de los modelos que relacionan la observación con la posición, y por la variedad de escenarios en los que sería útil.


Cómo te beneficiarás


(I) Insights y validaciones sobre los siguientes temas:


Capítulo 1: Estimación de la postura del cuerpo articulado


Capítulo 2: Segmentación de imágenes


Capítulo 3: Localización y mapeo simultáneos


Capítulo 4: Reconocimiento de gestos


Capítulo 5: Seguimiento de vídeo


Capítulo 6: Matriz fundamental (visión por computadora)


Capítulo 7: Estructura a partir del movimiento


Capítulo 8: Modelo de bolsa de palabras en visión por computadora


Capítulo 9: Punto- registro de conjuntos


Capítulo 10: Michael J. Black


(II) Respondiendo las principales preguntas del público sobre la estimación de la postura del cuerpo articulado.


(III) Ejemplos del mundo real para el uso de la estimación de la postura corporal articulada en muchos campos.


Para quién es este libro


Profesionales, estudiantes de pregrado y posgrado, entusiastas, aficionados y aquellos que quieran ir más allá del conocimiento o información básica para cualquier tipo de Estimación de la Pose del Cuerpo Articulado.


 


 

IdiomaEspañol
Fecha de lanzamiento29 abr 2024
Estimación de la postura del cuerpo articulado: Desbloqueando el movimiento humano en la visión por computadora

Relacionado con Estimación de la postura del cuerpo articulado

Títulos en esta serie (100)

Ver más

Libros electrónicos relacionados

Inteligencia (IA) y semántica para usted

Ver más

Artículos relacionados

Comentarios para Estimación de la postura del cuerpo articulado

Calificación: 0 de 5 estrellas
0 calificaciones

0 clasificaciones0 comentarios

¿Qué te pareció?

Toca para calificar

Los comentarios deben tener al menos 10 palabras

    Vista previa del libro

    Estimación de la postura del cuerpo articulado - Fouad Sabry

    Capítulo 1: Estimación de la postura del cuerpo articulado

    El campo de la visión por computador conocido como estimación de la postura del cuerpo articulado se centra en técnicas y sistemas que pueden determinar la posición de un objeto en movimiento a partir de una serie de imágenes de sus articulaciones y partes rígidas. La dificultad de los modelos que relacionan la observación con la postura, así como la amplia gama de aplicaciones, han hecho de este un reto perdurable en la visión artificial.

    Los robots necesitan la capacidad de detectar y comprender la presencia de personas en su entorno inmediato. La máquina interactiva debe comprender el contexto del mundo real del escenario si un humano emplea gestos para señalar un objeto específico. Debido a su importancia y dificultad, en las últimas dos décadas se han desarrollado e implementado varios métodos para abordar el problema de la estimación de la pose en la visión por computadora. El entrenamiento de modelos complicados con enormes conjuntos de datos es un enfoque común.

    Debido a los 244 DOF y 230 articulaciones del cuerpo humano, la estimación de la pose es un problema desafiante con el estudio actual. El cuerpo humano tiene 10 partes principales y 20 grados de libertad, sin embargo, no todos los movimientos entre las articulaciones son visibles. Hay mucha variación en la apariencia que los algoritmos deben tener en cuenta, incluidas las variaciones en la ropa, la forma del cuerpo, el tamaño y los cortes de pelo. Además, las oclusiones autoarticuladas, como una persona que se cubre la cara con la mano, o las oclusiones externas pueden hacer que los resultados no sean claros. Por último, la mayoría de los algoritmos calculan la pose a partir de las imágenes monoculares (bidimensionales) estándar de las cámaras. Las condiciones inconsistentes de la cámara y la iluminación pueden contribuir al problema. Las necesidades de rendimiento adicionales solo aumentan la complejidad. Estas imágenes tienen mucho espacio para errores de interpretación porque carecen de la información de profundidad de una postura corporal real. Los esfuerzos recientes en esta dirección hacen uso de la información de color y profundidad capturada por las cámaras RGBD.

    En una técnica basada en modelos utilizada por la mayoría de los sistemas de estimación de la pose corporal articulada, se utiliza la similitud/diferencia máxima/mínima entre una observación (entrada) y un modelo de plantilla para determinar una pose estimada. Se han considerado varios sensores, como los siguientes, para su uso en la realización de la observación:

    Imágenes en longitudes de onda visibles, Fotos tomadas en el espectro infrarrojo de onda larga, Fotografía de tiempo de vuelo, y

    Fotos tomadas con un telémetro láser.

    El modelo hace uso directo de las representaciones intermedias producidas por estos sensores. Estas son algunas de las representaciones:

    Apariencia de la imagen, Reconstrucción basada en vóxeles (elementos de volumen), En tres dimensiones, utilizando un total de núcleos gaussianos

    Mallas de superficie tridimensionales.

    El esqueleto humano es donde surgió por primera vez el concepto de un modelo basado en piezas. Cuando un objeto tiene la capacidad de articularse, se puede desmontar en partes componentes que se pueden reorganizar en una variedad de configuraciones. La escala y la orientación del objeto primario se articulan con las escalas y orientaciones de las piezas. Los resortes sirven para conectar los muchos componentes del modelo, lo que permite describirlo matemáticamente. Llamado así porque se asemeja a un resorte, este modelo tiene otros nombres. La compresión y la expansión de los resortes tienen en cuenta la proximidad relativa de los diversos componentes. Las orientaciones de los muelles están limitadas por la geometría. Las piernas, por ejemplo, no tienen brazos que puedan girar en un círculo completo. Por lo tanto, los componentes no se pueden orientar de esa manera. Por lo tanto, se reduce el número de combinaciones viables.

    En el modelo de muelle, los nudos (V) representan los componentes, mientras que las aristas (E) representan los muelles que los conectan.

    Se puede llegar a cada ubicación de la imagen mediante las x y coordenadas y de la ubicación del píxel.

    Señale {\displaystyle \mathbf {p} _{i}(x,\,y)} la {\displaystyle \mathbf {i} ^{th}} ubicación.

    Entonces, el costo asociado a la unión del resorte entre {\displaystyle \mathbf {i} ^{th}} y el {\displaystyle \mathbf {j} ^{th}} punto puede ser dado por {\displaystyle S(\mathbf {p} _{i},\,\mathbf {p} _{j})=S(\mathbf {p} _{i}-\mathbf {p} _{j})} .

    Por lo tanto, el costo total asociado a la colocación de l componentes en las ubicaciones {\displaystyle \mathbf {P} _{l}} viene dado por

    {\displaystyle S(\mathbf {P} _{l})=\displaystyle \sum _{i=1}^{l}\;\displaystyle \sum _{j=1}^{i}\;\mathbf {s} _{ij}(\mathbf {p} _{i},\,\mathbf {p} _{j})}

    La ecuación antes mencionada es una simplificación del modelo de resorte comúnmente empleado para describir la postura corporal. La minimización del costo o de la función energética se utiliza para estimar la pose a partir de fotografías. Hay dos términos en esta función energética. El primero tiene en cuenta qué tan bien cada parte coincide con los datos de la imagen, mientras que el segundo tiene en cuenta qué tan bien coinciden las partes orientadas (deformadas), de modo que se tienen en cuenta la articulación y la detección de objetos.

    Se utiliza una cadena jerárquica para construir el esqueleto cinemático.

    Cada segmento de cuerpo rígido tiene su sistema de coordenadas local que se puede transformar en el sistema de coordenadas universales a través de una matriz de transformación 4×4 {\displaystyle T_{l}} , {\displaystyle T_{l}=T_{\operatorname {par} (l)}R_{l},}

    donde {\displaystyle R_{l}} denota la transformación local del segmento del cuerpo S_{l} a su padre {\displaystyle \operatorname {par} (S_{l})} .

    Hay tres grados de libertad (DoF) de movimiento en cada articulación humana.

    Dada una matriz de transformación T_l , la posición de la articulación de la posición en T se puede trasladar al sistema de coordenadas del mundo.

    En numerosos trabajos, la rotación de la junta 3D se expresa como un cuaternión normalizado {\displaystyle [x,y,z,w]} debido a su continuidad que puede facilitar la optimización basada en gradientes en la estimación de parámetros.

    Para estimar con precisión las poses de los cuerpos articulados, el aprendizaje profundo se ha convertido en la técnica estándar desde aproximadamente 2016. La apariencia de las articulaciones y las relaciones entre las articulaciones del cuerpo se aprenden a través de vastos conjuntos de entrenamiento en lugar de desarrollar un modelo explícito para las partes como se mencionó anteriormente. La extracción de posiciones de articulaciones 2D (puntos clave), posiciones de articulaciones 3D o formas de cuerpo 3D a partir de una o varias fotos suele ser el énfasis principal de los modelos.

    Los modelos iniciales de aprendizaje profundo desarrollados se centraron principalmente en determinar las ubicaciones 2D de las articulaciones humanas a partir de una imagen determinada. Con el fin de detectar articulaciones, estos modelos introducen una imagen de entrada en una red neuronal convolucional, que produce un conjunto de mapas de calor (uno para cada articulación) con valores altos en esas áreas.

    Con la proliferación de conjuntos de datos que contienen anotaciones de poses humanas desde varios ángulos, junto con la investigación antes mencionada, los científicos han estado tratando de reconstruir la forma 3D de una persona o animal a partir de una colección de fotografías 2D. El objetivo principal es estimar la pose correcta del modelo lineal multipersona (SMPL) despellejado. Para cada animal de la imagen, a menudo se detectan puntos clave y una silueta; una vez encontrados, los parámetros de un modelo de forma 3D suelen adaptarse para que se correspondan con sus ubicaciones.

    Las fotos anotadas son esenciales para los algoritmos antes mencionados, aunque su creación puede ser laboriosa. Para resolver este problema, los investigadores en el campo de la visión por computadora han creado nuevos algoritmos que pueden reconocer puntos clave en películas sin ninguna anotación o aprender puntos clave 3D dado solo

    ¿Disfrutas la vista previa?
    Página 1 de 1