Reconocimiento óptico de caracteres: Liberando el poder de la visión por computadora para el reconocimiento óptico de caracteres
Por Fouad Sabry
()
Información de este libro electrónico
Qué es el reconocimiento óptico de caracteres
El reconocimiento óptico de caracteres o lector óptico de caracteres (OCR) es la conversión electrónica o mecánica de imágenes de texto mecanografiado, escrito a mano o impreso en formato mecánico. texto codificado, ya sea de un documento escaneado, una fotografía de un documento, una fotografía de una escena o un texto de subtítulo superpuesto a una imagen.
Cómo se beneficiará
(I) Ideas y validaciones sobre los siguientes temas:
Capítulo 1: Reconocimiento óptico de caracteres
Capítulo 2: Tipo de letra
Capítulo 3: Reconocimiento de escritura a mano
Capítulo 4: Escáner de imágenes
Capítulo 5: Reconocimiento óptico de marcas
Capítulo 6: Reconocimiento inteligente de caracteres
Capítulo 7: Tesseract ( software)
Capítulo 8: OCRopus
Capítulo 9: CuneiForm (software)
Capítulo 10: Comparación de software de reconocimiento óptico de caracteres
(II) Responder a las principales preguntas del público sobre el reconocimiento óptico de caracteres.
(III) Ejemplos del mundo real sobre el uso del reconocimiento óptico de caracteres en muchos campos.
Quién es este libro es para
Profesionales, estudiantes de pregrado y posgrado, entusiastas, aficionados y aquellos que quieran ir más allá del conocimiento o la información básica para cualquier tipo de Reconocimiento Óptico de Caracteres.
Lee más de Fouad Sabry
Relacionado con Reconocimiento óptico de caracteres
Títulos en esta serie (100)
Histograma de imagen: Revelando conocimientos visuales, explorando las profundidades de los histogramas de imágenes en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesBanco de filtros: Información sobre las técnicas del banco de filtros de Computer Vision Calificación: 0 de 5 estrellas0 calificacionesEn Pintura: Cerrar brechas en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesFunción de combinación de colores: Comprensión de la sensibilidad espectral en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesRetinax: Revelando los secretos de la visión computacional con Retinex Calificación: 0 de 5 estrellas0 calificacionesVisión por computador: Explorando las profundidades de la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesVisión por computadora submarina: Explorando las profundidades de la visión por computadora debajo de las olas Calificación: 0 de 5 estrellas0 calificacionesVisión estéreo por computadora: Explorando la percepción de profundidad en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesSistema de gestión de color: Optimización de la percepción visual en entornos digitales Calificación: 0 de 5 estrellas0 calificacionesDifusión anisotrópica: Mejora del análisis de imágenes mediante difusión anisotrópica Calificación: 0 de 5 estrellas0 calificacionesEcualización de histograma: Mejora del contraste de la imagen para mejorar la percepción visual Calificación: 0 de 5 estrellas0 calificacionesReducción de ruido: Mejora de la claridad, técnicas avanzadas para la reducción del ruido en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesJoint Photographic Experts Group: Liberando el poder de los datos visuales con el estándar JPEG Calificación: 0 de 5 estrellas0 calificacionesMapeo de tonos: Mapeo de tonos: perspectivas iluminadoras en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCorrección gamma: Mejora de la claridad visual en la visión por computadora: la técnica de corrección gamma Calificación: 0 de 5 estrellas0 calificacionesHomografía: Homografía: Transformaciones en Visión por Computador Calificación: 0 de 5 estrellas0 calificacionesTransformacion afin: Desbloqueo de perspectivas visuales: exploración de la transformación afín en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesTransformación de radón: Revelando patrones ocultos en datos visuales Calificación: 0 de 5 estrellas0 calificacionesMétodo de ajuste de nivel: Avances en la visión por computadora, exploración del método de conjunto de niveles Calificación: 0 de 5 estrellas0 calificacionesFiltro adaptativo: Mejora de la visión por computadora mediante filtrado adaptativo Calificación: 0 de 5 estrellas0 calificacionesTransformación dura: Revelando la magia de Hough Transform en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesPercepción visual: Información sobre el procesamiento visual computacional Calificación: 0 de 5 estrellas0 calificacionesModelo del sistema visual humano: Comprender la percepción y el procesamiento Calificación: 0 de 5 estrellas0 calificacionesCompresión de imagen: Técnicas eficientes para la optimización de datos visuales Calificación: 0 de 5 estrellas0 calificacionesEspacio de color: Explorando el espectro de la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesPerfil de color: Explorando la percepción y el análisis visual en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesModelo de apariencia de color: Comprensión de la percepción y la representación en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesTransformación de Hadamard: Revelando el poder de la transformación de Hadamard en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesLeast Squares: Técnicas de optimización para visión por computadora: métodos de mínimos cuadrados Calificación: 0 de 5 estrellas0 calificacionesAjuste del paquete: Optimización de datos visuales para una reconstrucción precisa Calificación: 0 de 5 estrellas0 calificaciones
Libros electrónicos relacionados
Reconocimiento inteligente de caracteres: Avances en la percepción artificial en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesReconocimiento de gestos: Desbloqueando el lenguaje del movimiento Calificación: 0 de 5 estrellas0 calificacionesCámara inteligente: Revolucionando la percepción visual con la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesInstalación y configuración de periféricos microinformáticos. IFCT0309 Calificación: 0 de 5 estrellas0 calificacionesTratamiento de textos para la maquetación. ARGP0110 Calificación: 0 de 5 estrellas0 calificacionesReconocimiento automático de matrículas: Liberando el potencial de la tecnología de visión por computadora Calificación: 0 de 5 estrellas0 calificacionesReconocimiento óptico de Braille: Potenciando la accesibilidad a través de la inteligencia visual Calificación: 0 de 5 estrellas0 calificacionesProgramación en inteligencia artificial: "Nuevos Horizontes", #14 Calificación: 0 de 5 estrellas0 calificacionesKotlin y Jetpack Compose. Desarrollo de aplicaciones Android Calificación: 0 de 5 estrellas0 calificacionesVisión de máquina: Información sobre el mundo de la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesÓrdenes de producción, equipos y páginas maestras para la maquetación y compaginación de productos gráficos. ARGP0110 Calificación: 0 de 5 estrellas0 calificacionesReconocimiento de voz audiovisual: Avances, aplicaciones y conocimientos Calificación: 0 de 5 estrellas0 calificacionesAlexa. Desarrollo de aplicaciones IoT para Arduino y ESP8266 Calificación: 0 de 5 estrellas0 calificacionesCurso de Programación de Apps. Android y iPhone Calificación: 5 de 5 estrellas5/5Iniciación a la creación de páginas web Calificación: 0 de 5 estrellas0 calificacionesProcessing: Desarrollo de interfaces de usuario, aplicaciones de visión artificial e IoT para Arduino y ESP8266 Calificación: 5 de 5 estrellas5/5Computación Física: Explorando la visión por computadora en la computación física Calificación: 0 de 5 estrellas0 calificacionesUF1467 - Aplicaciones microinformáticas e internet para consulta y generación de documentación Calificación: 0 de 5 estrellas0 calificacionesDetección de objetos: Avances, aplicaciones y algoritmos Calificación: 0 de 5 estrellas0 calificacionesLa tradumática Calificación: 0 de 5 estrellas0 calificacionesIngeniería y Arquitectura del Software Calificación: 0 de 5 estrellas0 calificacionesInstalación y parametrización del software. IFCT0510 Calificación: 0 de 5 estrellas0 calificacionesAlfabetización y competencias digitales Calificación: 0 de 5 estrellas0 calificacionesPaquete de programas: Revolucionando la visión por computadora con el paquete de software definitivo Calificación: 0 de 5 estrellas0 calificacionesOperaciones auxiliares con Tecnologías de la Información y la Comunicación. IFCT0108 Calificación: 0 de 5 estrellas0 calificacionesRealidad aumentada: Explorando las fronteras de la visión por computadora en realidad aumentada Calificación: 0 de 5 estrellas0 calificacionesMaquetación de productos editoriales. ARGG0110 Calificación: 0 de 5 estrellas0 calificacionesRed de sensores visuales: Explorando el poder de las redes de sensores visuales en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesSistema operativo, búsqueda de información: Internet/Intranet y correo electrónico. ADGN0210 Calificación: 0 de 5 estrellas0 calificacionesUF1304 - Elaboración de Plantillas y Formularios Calificación: 0 de 5 estrellas0 calificaciones
Inteligencia (IA) y semántica para usted
Introducción a la Ingeniería Industrial Calificación: 0 de 5 estrellas0 calificacionesFundamentos de Programación: Diagramas de flujo, Diagramas N-S, Pseudocódigo y Java Calificación: 0 de 5 estrellas0 calificacionesR en profundidad: Programación, gráficos y estadística Calificación: 0 de 5 estrellas0 calificacionesDominando ChatGPT: Desbloquea el poder de la IA para mejorar la comunicación y las relaciones: Spanish Calificación: 3 de 5 estrellas3/5Cómo Ganar Dinero por Internet con Inteligencia Artificial Emprende tu negocio digital con ChatGPT, Escríbelo.ia, Playground AI, You.com, Canva, Midjourney, Dall-E 2, Amazon... Calificación: 0 de 5 estrellas0 calificacionesDesarrollo de aplicaciones C#: con Visual Studio .NET Curso práctico Calificación: 0 de 5 estrellas0 calificacionesMecatrónica Calificación: 0 de 5 estrellas0 calificacionesChat GPT-4 para Principiantes: Chat GPT, #1 Calificación: 0 de 5 estrellas0 calificacionesEl mito de la inteligencia artificial: Por qué las máquinas no pueden pensar como nosotros lo hacemos Calificación: 5 de 5 estrellas5/5Cómo triunfar en Instagram usando ChatGPT: La guía definitiva para crear contenido impactante con ChatGPT Calificación: 0 de 5 estrellas0 calificacionesResumen CHAT GPT IA Revolución en 2023: Guía de la Tecnología CHAT GPT y su Impacto Social: Resumen Tecnológico, #1 Calificación: 0 de 5 estrellas0 calificacionesAdministración básica de bases de datos con ORACLE 12c SQL: Prácticas y ejercicios Calificación: 0 de 5 estrellas0 calificacionesInteligencia artificial: Una exploración filosófica sobre el futuro de la mente y la conciencia Calificación: 4 de 5 estrellas4/5Introducción a la ingeniería Calificación: 0 de 5 estrellas0 calificacionesArquitectura de computadoras Calificación: 0 de 5 estrellas0 calificacionesInteligencia artificial: Casos prácticos con aprendizaje profundo Calificación: 4 de 5 estrellas4/5Inteligencia artificial: la cuarta revolución industrial Calificación: 0 de 5 estrellas0 calificacionesAprendizaje automático y profundo en python: Una mirada hacia la inteligencia artificial Calificación: 0 de 5 estrellas0 calificacionesLaravel: Curso práctico de formación Calificación: 0 de 5 estrellas0 calificacionesMetodología de la Programación Orientada a Objetos Calificación: 0 de 5 estrellas0 calificacionesInteligencia Artificial Calificación: 4 de 5 estrellas4/5PHP: Programación web avanzada para profesionales Calificación: 0 de 5 estrellas0 calificacionesIntroducción a la computación cuántica para ingenieros Calificación: 0 de 5 estrellas0 calificacionesMonetización de ChatGPT: aproveche el poder de AI: Spanish Calificación: 1 de 5 estrellas1/5Escritura Creativa en la Era de la IA: Dominando la Colaboración con ChatGPT para Crear Libros Impactantes Calificación: 4 de 5 estrellas4/5Oracle 12c PL/SQL: Curso práctico de formación Calificación: 0 de 5 estrellas0 calificacionesMáquinas filosóficas Calificación: 4 de 5 estrellas4/5Cómo usar Chatgpt para tu negocio Calificación: 0 de 5 estrellas0 calificaciones
Comentarios para Reconocimiento óptico de caracteres
0 clasificaciones0 comentarios
Vista previa del libro
Reconocimiento óptico de caracteres - Fouad Sabry
Capítulo 1: Reconocimiento óptico de caracteres
A partir de un documento escaneado, una foto del documento, una foto de escena (como el texto de letreros y vallas publicitarias en una foto de paisaje) o texto de subtítulos superpuesto a una imagen, el reconocimiento óptico de caracteres (OCR) es la conversión electrónica o mecánica de imágenes de texto mecanografiado, escrito a mano o impreso en texto codificado por máquina (por ejemplo, de una transmisión de televisión).
Es un método común de digitalización de textos impresos para la edición electrónica, la búsqueda, el almacenamiento compacto, la visualización en línea y el uso en procesos automáticos como la computación cognitiva, la traducción automática, la conversión de texto a voz (extraído) y otra documentación adecuada, como documentos de pasaporte, facturas, extractos bancarios, recibos computarizados, tarjetas de visita, correo, impresiones de datos estáticos y otra documentación adecuada. El reconocimiento de patrones, la IA y la visión artificial contribuyen al OCR.
Las versiones anteriores solo admitían un único tipo de letra y requerían entrenamiento con fotos de cada personaje. Los sistemas modernos a menudo manejan muchos formatos de archivos de imágenes digitales y pueden proporcionar un alto nivel de precisión de identificación para la mayoría de los tipos de letra. Algunas implementaciones pueden generar una copia de la página con todos los detalles de formato conservados, como gráficos, columnas y otros elementos no textuales.
La telegrafía y el desarrollo de ayudas a la lectura para ciegos son dos posibles antecedentes del reconocimiento óptico moderno de caracteres.
Para examinar archivos de microfilmes utilizando un sistema de reconocimiento de código óptico, Emanuel Goldberg creó lo que denominó una máquina estadística
en las décadas de 1920 y 1930. En 1931, recibió la patente estadounidense 1.838.389 por su creación. IBM ahora es propietaria de la patente.
Después de desarrollar el OCR omni-font, que podía leer texto escrito en casi cualquier tipo de letra, Ray Kurzweil fundó Kurzweil Computer Products, Inc. en 1974. (A menudo se le atribuye a Kurzweil la invención del OCR de fuente omnidireccional, pero fue utilizado por empresas, incluida CompuScan, a fines de la década de 1960 y 1970). El uso óptimo de esta tecnología, razonó Kurzweil, sería desarrollar una máquina de lectura para ciegos, que permitiría a las personas con discapacidad visual tener una computadora que lea en voz alta cualquier texto que el usuario ingrese. Dos tecnologías clave, el escáner de cama plana CCD y el sintetizador de texto a voz, tuvieron que ser desarrolladas para que este dispositivo se convirtiera en una realidad. El producto final fue presentado durante una conferencia de prensa el 13 de enero de 1976, presidida por Kurzweil y la Federación Nacional de Ciegos. La primera versión comercial del software de reconocimiento óptico de caracteres fue lanzada por Kurzweil Computer Products en 1978. Como uno de los primeros en adoptarlo, LexisNexis compró el software para incluir artículos de noticias y resúmenes legales en sus incipientes bases de datos en línea. Kurzweil vendió su empresa a Xerox dos años más tarde debido al deseo de esta última de comercializar la conversión de texto del papel a la computadora. Scansoft, que había sido escindida por Xerox, se fusionó más tarde con Nuance Communications.
En la década de 2000, el OCR se hizo accesible en la nube, en dispositivos móviles y en la traducción en tiempo real de signos en idiomas extranjeros utilizando un teléfono inteligente a través de servicios como WebOCR. Con el auge de los dispositivos móviles conectados a Internet, como los teléfonos inteligentes y los relojes inteligentes, el OCR se está utilizando en aplicaciones que extraen texto de imágenes tomadas con la cámara del dispositivo. Si el dispositivo no tiene capacidades de OCR integradas en el sistema operativo, se utilizará una API de OCR para leer el archivo de imagen y extraer el texto. La API de OCR envía el texto extraído de vuelta al programa en el dispositivo, junto con información sobre en qué parte de la imagen original se reconoció el texto, para que la aplicación pueda hacer algo con él (como convertirlo en voz o mostrarlo).
Los caracteres latinos, cirílicos, árabes, hebreos, índicos, bengalíes (bengalíes), devanagari, tamiles, chinos, japoneses y coreanos son compatibles con una amplia variedad de sistemas OCR comerciales y de código abierto.
El OCR de recibos, el OCR de facturas, el OCR de cheques y el OCR de documentos de facturación legal son solo algunos de los numerosos tipos de aplicaciones de OCR específicas del dominio que se han creado sobre los motores de OCR.
Puede utilizarlos en:
Introducir información de registros corporativos como cheques, pasaportes, facturas, extractos bancarios y recibos
Software de lectura de matrículas
En los aeropuertos, para escanear pasaportes y extraer datos
Extracción automática de datos clave de los papeles de seguros
La capacidad de leer las señales de tráfico
Añadir datos de contacto de una tarjeta de visita
Acelere el proceso de conversión de materiales impresos en texto, como el escaneo de libros para el Proyecto Gutenberg.
Permite buscar copias digitales de libros y revistas impresas como Google Books.
Uso del reconocimiento de escritura a mano en tiempo real para operar una computadora (pen computing)
Evitar los sistemas anti-bot CAPTCHA, incluso si están destinados a detener el OCR. Las pruebas de fuerza del sistema anti-bot CAPTCHA son otro posible objetivo.
Equipos diseñados para ayudar a las personas con discapacidad visual
Las instrucciones del vehículo se escriben localizando imágenes CAD en una base de datos que son relevantes para el diseño del vehículo en constante evolución.
El proceso de transformación de documentos escaneados en archivos PDF con capacidad de búsqueda
El texto mecanografiado es en lo que se centra el reconocimiento óptico de caracteres (OCR). Lo hace analizando cada glifo o letra individual.
El escaneo palabra por palabra del texto impreso es el foco del reconocimiento óptico de palabras (para idiomas que utilizan un espacio como divisor de palabras). (Comúnmente abreviado como OCR
)
La escritura manuscrita impresa o cursiva es otro objetivo del reconocimiento inteligente de caracteres (ICR), que se centra en cada glifo o letra individual.
El análisis palabra por palabra de la escritura a mano en letra impresa o cursiva es otro de los objetivos del reconocimiento inteligente de palabras (IWR). Esto es particularmente útil para los idiomas que emplean la escritura cursiva sin separar los glifos.
El reconocimiento óptico de caracteres suele ser un procedimiento fuera de línea
que evalúa un documento conservado. Las API de OCR en línea son ofrecidas por ciertos servicios basados en la nube. Es posible proporcionar datos sobre los movimientos de la mano de un escritor en un sistema de reconocimiento de escritura a mano. Este método es superior a confiar únicamente en las formas de los glifos y las palabras, ya que puede registrar acciones como el orden en que se dibujan las partes, la dirección tomada y el ritmo de cuando se deja y se recoge el bolígrafo. Estos datos complementarios tienen el potencial de mejorar la precisión general