Descubre millones de libros electrónicos, audiolibros y mucho más con una prueba gratuita

Solo $11.99/mes después de la prueba. Puedes cancelar en cualquier momento.

Reconocimiento de voz audiovisual: Avances, aplicaciones y conocimientos
Reconocimiento de voz audiovisual: Avances, aplicaciones y conocimientos
Reconocimiento de voz audiovisual: Avances, aplicaciones y conocimientos
Libro electrónico146 páginas1 hora

Reconocimiento de voz audiovisual: Avances, aplicaciones y conocimientos

Calificación: 0 de 5 estrellas

()

Leer la vista previa

Información de este libro electrónico

¿Qué es el reconocimiento de voz audiovisual?


El reconocimiento de voz audiovisual (AVSR) es una técnica que utiliza capacidades de procesamiento de imágenes en la lectura de labios para ayudar a los sistemas de reconocimiento de voz a reconocer teléfonos no deterministas. o dar preponderancia entre decisiones casi probables.


Cómo se beneficiará


(I) Insights y validaciones sobre los siguientes temas:


Capítulo 1: Reconocimiento de voz audiovisual


Capítulo 2: Compresión de datos


Capítulo 3: Reconocimiento de voz


Capítulo 4: Síntesis de voz


Capítulo 5: Computación afectiva


Capítulo 6: Espectrograma


Capítulo 7: Lectura de labios


Capítulo 8: Detección de rostros


Capítulo 9: Característica (aprendizaje automático)


Capítulo 10: Clasificación estadística


(II) Responder a las principales preguntas del público sobre el reconocimiento de voz audiovisual.


(III ) Ejemplos del mundo real sobre el uso del reconocimiento de voz audiovisual en muchos campos.


Para quién es este libro


Profesionales, estudiantes de pregrado y posgrado, entusiastas , aficionados y aquellos que quieran ir más allá del conocimiento o la información básica para cualquier tipo de reconocimiento de voz audiovisual.


 


 

IdiomaEspañol
Fecha de lanzamiento14 may 2024
Reconocimiento de voz audiovisual: Avances, aplicaciones y conocimientos

Relacionado con Reconocimiento de voz audiovisual

Títulos en esta serie (100)

Ver más

Libros electrónicos relacionados

Inteligencia (IA) y semántica para usted

Ver más

Artículos relacionados

Comentarios para Reconocimiento de voz audiovisual

Calificación: 0 de 5 estrellas
0 calificaciones

0 clasificaciones0 comentarios

¿Qué te pareció?

Toca para calificar

Los comentarios deben tener al menos 10 palabras

    Vista previa del libro

    Reconocimiento de voz audiovisual - Fouad Sabry

    Capítulo 1: Reconocimiento audiovisual de voz

    El reconocimiento audiovisual de voz (AVSR) es una tecnología que emplea capacidades de procesamiento de imágenes en la lectura de labios para ayudar a los sistemas de reconocimiento de voz a reconocer fonemas no deterministas o proporcionar una preponderancia entre las decisiones de probabilidad cercana.

    Los resultados de cada sistema de lectura de labios y reconocimiento de voz se combinan en la etapa de fusión de características. Como su nombre lo indica, consta de dos secciones. La primera es la parte de audio y la segunda es la parte visual. En el componente de audio, las características como el espectrograma logarítmico, mfcc, etc. se extraen de muestras de audio sin procesar y se utilizan para construir un modelo del que se extraen vectores de características. Para la parte visual, normalmente usamos una forma de red neuronal convolucional para comprimir la imagen en un vector de características. A continuación, concatenamos los vectores de audio y visuales e intentamos predecir el objeto objetivo.

    {Fin del capítulo 1}

    Capítulo 2: Compresión de datos

    En la teoría de la información, la compresión de datos, la codificación de fuentes y otros campos relacionados: En el lenguaje común, un dispositivo que participa en el proceso de compresión de datos se conoce como codificador, mientras que un dispositivo que se involucra en el proceso inverso, es decir, la descompresión, se conoce como decodificador.

    La compresión de datos es el proceso de reducir el tamaño de un archivo de datos y es un término que se usa con bastante frecuencia. La codificación de origen es un proceso de codificación que tiene lugar en el origen de datos original, antes de que los datos se almacenen o transfieran. Este proceso se conoce en el contexto de la transmisión de datos. Es importante no confundir la codificación de origen con otros tipos de codificación, como la codificación de canal, que se utiliza para la detección y corrección de errores, o la codificación de línea, que es un método para asignar datos a una señal.

    La compresión de datos es beneficiosa, ya que reduce la cantidad de espacio y ancho de banda necesarios para almacenar y transferir información. Los procedimientos de compresión y descompresión necesitan una cantidad significativa de recursos computacionales. El equilibrio entre la complejidad del espacio-tiempo es algo que debe tenerse en cuenta al comprimir los datos. Por ejemplo, un método de compresión de vídeo puede requerir hardware costoso para que el vídeo se descomprima lo suficientemente rápido como para verlo mientras se descomprime. Además, la opción de descomprimir completamente el video antes de verlo puede ser un inconveniente o requerir espacio de almacenamiento adicional. Al diseñar esquemas de compresión de datos, los diseñadores deben hacer concesiones entre una serie de factores diferentes. Estos factores incluyen el nivel de compresión alcanzado, la cantidad de distorsión que se introduce (cuando se utiliza la compresión de datos con pérdida) y la cantidad de recursos computacionales que se necesitan para comprimir y descomprimir los datos.

    Para representar los datos sin perder ninguna información en el proceso, los métodos de compresión de datos sin pérdidas suelen hacer uso de la redundancia estadística. Esto asegura que el proceso pueda revertirse. Debido a que la gran mayoría de los datos en el mundo real tienen redundancia estadística, la compresión sin pérdidas es factible. Por ejemplo, una imagen puede incluir parches de color que no cambian en el transcurso de varios píxeles; En este caso, los datos pueden registrarse como 279 píxeles rojos en lugar de la notación tradicional de píxel rojo, píxel rojo,... Esta es una ilustración fundamental de la codificación de longitud de ejecución; Hay muchos más métodos para disminuir el tamaño de un archivo eliminando la información redundante.

    Las técnicas de compresión como Lempel-Ziv (LZ) se encuentran ahora entre los algoritmos más utilizados para el almacenamiento de datos sin pérdidas. Las entradas de tabla se reemplazan por cadenas de datos repetidas en la técnica de compresión LZ, que es un modelo de compresión basado en tablas. Esta tabla se crea dinámicamente para la gran mayoría de los algoritmos de LZ mediante el uso de datos de etapas anteriores de la entrada. La mayoría de las veces, la tabla en sí está codificada en Huffman. Los códigos basados en la gramática como este son capaces de comprimir con éxito entradas sustancialmente repetitivas, como una colección de datos biológicos de la misma especie o casi relacionada, una colección masiva de documentos versionados, archivos de Internet, etc. La construcción de una gramática libre de contexto que derive una sola cadena es la tarea fundamental de los sistemas de codificación basados en la gramática. Sequitur y Re-Pair son otras dos técnicas para comprimir la gramática que tienen aplicaciones prácticas.

    Los modelos probabilísticos, como la predicción por coincidencia parcial, se utilizan en los compresores sin pérdidas más potentes desarrollados en los últimos tiempos. El modelado estadístico indirecto es otra forma de pensar en la transformada de Burrows-Wheeler, que también puede considerar.

    Casi al mismo tiempo que las fotos digitales se generalizaban a finales de la década de 1980, se desarrollaron los primeros estándares para la compresión de imágenes sin pérdidas. A principios de la década de 1990, las técnicas de compresión con pérdida comenzaron a ser más comunes. Estas distinciones perceptivas son utilizadas por una variedad de formatos de compresión bien conocidos, como la psicoacústica y la psicovisual, respectivamente, para la compresión de sonido e imágenes y video.

    La codificación por transformada es la base de la gran mayoría de los métodos de compresión con pérdidas, en particular la transformada discreta de coseno (DCT). Fue concebido por primera vez por Nasir Ahmed en 1972, y pasó a construir un algoritmo funcional con la ayuda de T. Natarajan y K. R. Rao en 1973. Nasir Ahmed presentó la idea por primera vez en enero de 1974. audio y vídeo (en formatos como MPEG, AVC y HEVC) (como MP3, AAC y Vorbis).

    Con el fin de mejorar las capacidades de almacenamiento, las cámaras digitales utilizan un tipo de compresión de imagen conocida como pérdida de imagen. Los DVD, Blu-ray y la transmisión de video son ejemplos de formatos de video que emplean codificación de video con pérdidas. La compresión con pérdida se emplea ampliamente en la industria del video.

    En el proceso de compresión de audio con pérdidas, se utilizan técnicas del campo de la psicoacústica para despojar a la señal de audio de componentes que son inaudibles o audibles en menor grado. La codificación del habla se considera un campo diferente de la compresión de audio de uso general, ya que la compresión del habla humana a menudo requiere el uso de métodos aún más especializados. Por ejemplo, la codificación de voz se utiliza en la telefonía por Internet. La compresión de audio se utiliza para la extracción de CD y los reproductores de audio son responsables de decodificar los archivos comprimidos.

    La compresión con pérdida puede causar pérdida de generación.

    La teoría de la información y, más específicamente, el teorema de codificación de fuentes de Shannon sirven como base teórica para la compresión; Las teorías específicas del dominio incluyen la teoría algorítmica de la información para la compresión sin pérdidas y la teoría de la distorsión de velocidad para la compresión con pérdidas. A Claude Shannon se le atribuye principalmente el inicio de estos subcampos de investigación cuando publicó una serie de artículos seminales sobre el tema a lo largo de la segunda mitad de la década de 1940 y principios de la de 1950. La teoría de la codificación y la inferencia estadística son dos temas relacionados pero distintos que también pertenecen a la compresión.

    Los conceptos de aprendizaje automático y compresión están estrechamente relacionados entre sí. Para lograr el mayor nivel posible de compresión de datos, lo ideal es un sistema que sea capaz de predecir la probabilidad posterior de una secuencia a la luz de su historia completa (mediante el uso de codificación aritmética en la distribución de salida). Por otro lado, un compresor perfecto se puede utilizar con fines predictivos (encontrando el símbolo que mejor comprime, dado el historial anterior). Esta comparabilidad se ha utilizado como argumento para la utilización de la compresión de datos como estándar para la inteligencia universal.

    De acuerdo con la teoría AIXI, que es una relación que se establece más claramente en Hutter Prize, el software más pequeño posible que crea x es la mayor compresión posible de x que sea concebible. Por ejemplo, según ese modelo, el tamaño comprimido de un archivo zip tiene en cuenta tanto el archivo zip como el software necesario para descomprimirlo, dado que no se puede descomprimir sin ambos, aunque puede haber una forma combinada que sea aún más compacta.

    Software como VP9, NVIDIA Maxine, AIVC y AccMPEG son ejemplos de programas de compresión de audio y video impulsados por IA.

    El proceso de compresión de datos puede considerarse como un subconjunto del proceso de diferenciación de datos. La aplicación de parches de datos es el proceso de recrear el destino dado un origen y una diferencia, mientras que la diferenciación de datos es el proceso de marcar la diferencia entre un origen y un destino dada solo la diferencia. Dado que no existe un origen y un destino distintos en la compresión de datos, se puede pensar en ello como una diferenciación de datos con datos de origen vacíos. Esto significa que el archivo comprimido equivale a una diferencia de nada. Esto es lo mismo que considerar que la entropía relativa, que corresponde a la diferenciación de datos, es un caso particular de entropía absoluta, que corresponde a la compresión de datos, pero sin datos iniciales.

    La relación de diferenciación de datos se enfatiza mediante el uso de la frase compresión diferencial.

    El algoritmo de codificación de Shannon-Fano fue el precursor de la codificación de entropía, que

    ¿Disfrutas la vista previa?
    Página 1 de 1