Descubre millones de libros electrónicos, audiolibros y mucho más con una prueba gratuita

Solo $11.99/mes después de la prueba. Puedes cancelar en cualquier momento.

Lingüística computacional y de corpus: Teorías, métodos y aplicaciones
Lingüística computacional y de corpus: Teorías, métodos y aplicaciones
Lingüística computacional y de corpus: Teorías, métodos y aplicaciones
Libro electrónico516 páginas2 horas

Lingüística computacional y de corpus: Teorías, métodos y aplicaciones

Calificación: 0 de 5 estrellas

()

Leer la vista previa

Información de este libro electrónico

Lingüística computacional y de corpus aborda dos campos disciplinares claves para el estudio del lenguaje y da cuenta de sus desarrollos metodológicos y teóricos más significativos, los que, a su vez, contribuyen al estudio de la lingüística teórica.
El presente libro aporta al cubrimiento del vacío en la producción bibliográfica sobre estos temas en Colombia, y para los estudiantes constituye un manual que presenta terminología, definiciones, desarrollo histórico y posibles aplicaciones de dichos campos. A través de ejemplos y figuras, se pretende un acercamiento didáctico a las diferentes temáticas para quienes aún tienen conocimientos incipientes, y se ofrecen fundamentos y a la vez perspectivas para el estudio y la investigación posteriores.
IdiomaEspañol
Fecha de lanzamiento18 ago 2021
ISBN9789585010390
Lingüística computacional y de corpus: Teorías, métodos y aplicaciones

Relacionado con Lingüística computacional y de corpus

Libros electrónicos relacionados

Inteligencia (IA) y semántica para usted

Ver más

Artículos relacionados

Comentarios para Lingüística computacional y de corpus

Calificación: 0 de 5 estrellas
0 calificaciones

0 clasificaciones0 comentarios

¿Qué te pareció?

Toca para calificar

Los comentarios deben tener al menos 10 palabras

    Vista previa del libro

    Lingüística computacional y de corpus - Jorge Mauricio Molina Mejía

    Dedicatoria en clave computacional

    Agradecimientos

    Quiero comenzar por agradecerles de todo corazón y muy particularmente a mi mentor, el doctor Georges Antoniadis (Université Grenoble Alpes), quien supo guiarme por este intrincado laberinto que es el mundo de la lingüística computacional. A él, por su trabajo, amistad y dedicada labor, Ευχαριστώ πολύ. También, mis más sinceros agradecimientos a la doctora Aurélie Nardy y al doctor Mathieu Loiseau de la misma universidad, por su constante ayuda y amistad durante los años de trabajo de investigación en Francia. A ambos: Merci infiniment du fond de mon cœur !

    Sinceros agradecimientos, además, a los miembros del semillero de investigación Corpus Ex Machina: a las profesoras Laura M. Quintero y María I. Morales; a los estudiantes, Maria A. Zapata, Daniel Taborda, Karen P. Rocha, Maribel Betancur, María C. Cardona, Yósselin Uribe, María V. Delgado, Carolina Lopera, Laura D. Beltrán, Stephany Nieves, Stefanía Ramírez y Vanessa Zuleta, y a los egresados Andrés F. Grajales, José L. Pemberty, Mariana Múnera, Sara M. Galvis, David A. Arboleda, Juan E. Barrera, Franklin Y. Arias y Arbey S. Osorio, por haberse embarcado en este sueño de investigar en el campo de la lingüística computacional y de corpus. A los profesores, investigadores, doctorandos, maestrandos y estudiantes en formación, colegas y amigos del Grupo de Estudios Sociolingüísticos —

    ges

    —, que he tenido la oportunidad de coordinar durante estos últimos años. Finalmente, a la Facultad de Comunicaciones y Filología y al pregrado en Filología Hispánica, por haberme brindado la posibilidad de desarrollar mi trabajo en este campo de investigación y de enseñanza. A la Universidad de Antioquia, además, por ser mi Alma Mater. Un sentido agradecimiento a los estudiantes de los diferentes cursos que he acompañado tanto en la Facultad de Comunicaciones y Filología como en la Facultad de Educación.

    Prefacio

    Motivación inicial

    La idea de escribir un libro de texto en español acerca de la lingüística computacional y de su relación intrínseca con la lingüística de corpus nace de la necesidad que existe, en esta lengua, de tener una bibliografía más amplia al respecto en nuestros países latinoamericanos. Luego de numerosas búsquedas de material bibliográfico acerca del tema en Colombia, en sus ámbitos teórico, metodológico y práctico (sus posibles aplicaciones), me di cuenta del poco material existente, dado que la mayor parte de este ha sido editado en España y en México. Por el momento, y según mi conocimiento personal, en Colombia solo unas pocas obras se han publicado acerca de la lingüística computacional y de la lingüística de corpus, y estas analizan de una forma más bien tangencial la relación entre estos dos campos del conocimiento. ¹

    Por otra parte, este libro de estudio nació del trabajo realizado por el semillero de investigación Corpus Ex Machina, creado en el 2016 y adscrito a la Facultad de Comunicaciones y Filología de la Universidad de Antioquia, en el que se han planteado diversos interrogantes acerca de la importancia de emplear herramientas informáticas, modelizar y crear sistemas informáticos que tengan en cuenta el lenguaje humano desde distintas perspectivas: textos escritos, lenguaje hablado, relación entre lenguaje y música, etc. (véase anexo A).

    Espero, por lo tanto, que este manual sea recibido como una contribución a estos dos campos de la lingüística, tan poco conocidos en nuestro país, y se convierta en una herramienta teórica para los interesados en el tema. Es este, pues, un trabajo de índole pluridisciplinaria.

    Importancia de los estudios pluridisciplinarios

    En la actualidad, en una época en la que se habla más bien poco de disciplinas aisladas, los equipos de investigación son, generalmente, interdisciplinarios, pluridisciplinarios o transdisciplinarios, y los investigadores se enfrentan, cada vez más, a trabajos en los que se les demandan competencias en varias disciplinas a la vez, consideramos que se hace cada vez más importante dar cuenta de esta pluridisciplinariedad, así como escribir libros de texto y manuales que se fundamenten en la investigación y se interesen, además, por esta opción —la plurisdisciplinariedad—, cada vez más recurrente, a partir de varios campos del conocimiento que pueden parecer lejanos los unos de los otros.

    Esta obra es fruto de varios años de investigación, en los que el docente-investigador que aquí escribe, y quien, en un comienzo, se dedicaba exclusivamente a la enseñanza de lenguas extranjeras, se vio abocado a aprender de otros campos del conocimiento, como lo son: la lingüística computacional, la lingüística de corpus, la lingüística textual, la informática, las tecnologías de la información y la comunicación para la enseñanza —

    tice—,

    y, dentro de estas, más concretamente, el aprendizaje y la enseñanza de lenguas asistidos por ordenador. Hemos considerado importante presentar en este libro los aspectos más relevantes de varios de estos campos. Por ello este manual pretende convertirse en un compendio teórico de varios campos disciplinares para que sirva, más adelante, a estudiantes e investigadores interesados en su práctica.

    Consideramos que los trabajos que se realizan de forma pluridisciplinaria tienen un valor más allá del tema que tratan, puesto que permiten la consulta de los estudiantes de pregrado y posgrado, quienes pueden así informarse de los aspectos relevantes de la lingüística computacional, la lingüística de corpus y los análisis que desde la lingüística teórica y aplicada se pueden dar en campos tan variados como la enseñanza y el aprendizaje de lenguas, la traducción automática, el etiquetado morfológico y sintáctico de textos, entre otros. La idea, entonces, es que los lectores puedan encontrar en esta obra los aspectos tanto teóricos como prácticos de estas grandes disciplinas y que, al final, puedan vislumbrar la relación específica entre ellas, con algunos ejemplos reales de su utilización.

    De esta manera basamos la presente obra en la propia trayectoria y proceso de formación, en la que se unen:

    La didáctica de las lenguas extranjeras. Francés y español como lenguas extranjeras, fundamentadas en el empleo de las

    tic

    .

    La lingüística teórica y aplicada, dentro de la cual se entrelazan los cursos de introducción a los estudios del lenguaje, fonética y fonología, y sintaxis, entre otros.

    La lingüística textual, como campo de investigación y de trabajo en el que se entremezclan varios años de trabajo investigativo en Francia y los recientes proyectos dirigidos a estudiantes de pregrado y posgrado de la Universidad de Antioquia.

    La lingüística computacional, de donde parte el proceso de investigación relativo al traitement automatique des langues (tratamiento automático de lenguas), que fue continuado en los cursos impartidos en la Universidad de Antioquia, así como en la formación del semillero de investigación antes mencionado.

    La lingüística de corpus, donde contamos con la creación de corpus textuales y orales para el estudio de las lenguas francesa y española.

    Estos temas han sido motivo de indagación durante más de dieciocho años de actividad académica e investigativa del autor del presente manual.

    Organización del libro de texto

    Este libro se encuentra dividido en tres partes; las dos primeras cubren los campos del conocimiento que son la lingüística computacional y la lingüística de corpus, así como algunos aspectos ligados al

    alao

    —aprendizaje de lenguas asistido por ordenador—; y la tercera parte, que es más de carácter aplicativo de los diferentes sistemas y herramientas informáticas basados en los campos mencionados. Finalmente, un último capítulo de conclusiones y perspectivas de trabajo, vinculadas a los ejes abordados, complementa el presente manual o libro de texto.

    Mediante un capítulo introductorio mostramos la actual importancia de la lingüística computacional y de corpus con respecto al estudio del lenguaje. Abordamos allí la manera en la que la lingüística computacional hace presencia en el día a día de las personas, y constatamos la importancia de la inter- y la pluridisciplinariedad en cuanto a los estudios de los campos que tienen que ver con la lingüística computacional y de corpus.

    Posteriormente, la primera parte está dedicada a la definición, el estudio histórico y los campos de aplicación de la lingüística computacional. Esta primera parte se subdivide, a su vez, en tres capítulos.

    El capítulo 1 aborda la definición, desde la lingüística computacional, del procesamiento del lenguaje natural y del tratamiento automático de las lenguas naturales, y trata de dilucidar, además, si son campos similares o diferentes. Exploramos allí los aspectos conceptuales y la terminología de este campo del conocimiento, así como los aspectos teóricos y metodológicos ligados a él. Hacemos un especial énfasis en los modelos gramaticales que han permitido, de alguna forma, tratar las lenguas naturales, desde las gramáticas regulares, o de estados finitos, hasta las gramáticas de unificación, pasando por aquellas basadas en la gramática generativa transformacional de Noam Chomsky o en la gramática de dependencias de Lucien Tesnière e Igor Mel’čuk, entre otras.

    El capítulo 2, por su parte, hace un recorrido histórico por la lingüística computacional. En él se exploran las etapas y desarrollos que han permitido el crecimiento de este campo desde su inicio, en la década de 1940, más ligado a la traducción automática, hasta nuestros días.

    Cierra esta primera parte el capítulo 3, que presenta las principales áreas de aplicación de la lingüística computacional, teniendo en cuenta, para ello, los actuales trabajos de investigación vinculados a diversas disciplinas, que pueden llegar a tener una influencia directa en la sociedad y en los estudios del lenguaje natural. Con esta finalidad, se incluyen varias herramientas que pueden ser útiles en diferentes áreas, como el análisis de sentimientos, la corrección de textos y la traducción automática, entre otras.

    La segunda parte de este trabajo tiene como objetivo presentar la lingüística de corpus. Para ello trabajamos a partir de tres aspectos importantes: su terminología, su desarrollo histórico y sus posibles aplicaciones, también mediante tres capítulos.

    Así, el capítulo 4 refiere los aspectos teóricos y las definiciones concernientes a la lingüística de corpus, comenzando por la noción de corpus en varias perspectivas. Aquí abordamos la disyuntiva de si nos encontramos frente a un campo disciplinar como tal (lo que sucede con la lingüística computacional), o si se trata de un enfoque metodológico (aplicable a la lingüística, entre otros campos). Luego, se introduce una serie de términos ligados a esta teoría o metodología, y se finaliza con aspectos jurídicos y éticos vinculados al empleo de corpus en la investigación.

    En el capítulo 5 presentamos el desarrollo histórico de la lingüística de corpus, y mostramos, para ello, algunos de los principales corpus disponibles en línea, que se pueden consultar (la mayor parte de ellos) de forma gratuita. Se describen minuciosamente las etapas que han sido claves para el desarrollo del campo, así como la manera en que estas han influido en los estudios actuales que utilizan corpus para el análisis de diferentes fenómenos lingüísticos.

    El capítulo 6, que cierra esta segunda parte, vincula aquellos campos y áreas del conocimiento en general que utilizan o se fundamentan en un trabajo de corpus, mediante algunos ejemplos del campo de la lingüística en particular y algunas aplicaciones que se emplean en la cotidianidad.

    Finalmente, la tercera parte, que consta del capítulo 7, invita a explorar algunas de las aplicaciones reales en las que se relacionan la lingüística de corpus y la lingüística computacional. Para ello hemos incluido aquí los diferentes pasos o etapas que se deben tener en cuenta en la elaboración de un corpus, el cual puede ser estudiado, más adelante, con la ayuda de herramientas computacionales. Para finalizar, el capítulo 8 de este libro da cuenta de las consideraciones finales, las cuales hemos dividido en conclusiones y en diversos ítems de aplicación futura, o perspectivas de uso, que nos sugieren los aspectos teóricos, metodológicos y prácticos (o de aplicabilidad) de la lingüística de corpus y la lingüística computacional. Así, en esta parte, se abarcan aplicaciones relacionadas con el aprendizaje o la enseñanza de lenguas (extranjeras o maternas) y la lingüística textual (o textolingüística).

    Asignaturas y programas hacia los cuales se dirige esta obra

    El presente libro de texto se dirige particularmente a los estudiantes de alguna de las asignaturas listadas a continuación de los diferentes programas de pregrado y posgrado, en este caso de la Universidad de Antioquia, que tienen que ver con las ciencias del lenguaje. Así mismo, a los estudiantes de otras instituciones y facultades con currículos afines.

    Cursos de estadística y lingüística computacional, sintaxis, investigación lingüística (pregrado en Filología Hispánica).

    Sintaxis, proyecto de investigación en lingüística (Licenciatura en Literatura y Lengua Castellana).

    Seminarios del área de lingüística (Maestría en Lingüística).

    Seminarios del área de lingüística y trabajo de investigación (Doctorado en Lingüística).


    1 Hablamos de los siguientes libros: Lingüística computacional aplicada (Baquero Velásquez, 2010), Introducción a la lingüística computacional (Rubio López y Bernal Chávez, 2016) y Lingüística de corpus (Hincapié Moreno y Bernal Chávez, 2018). En el primer libro, publicado por la editorial de la Universidad Nacional de Colombia, la autora aborda la lingüística computacional desde una perspectiva práctica, con algo de teoría, sin analizar de fondo los aspectos metodológicos de este campo del conocimiento. El segundo libro es, como su título lo anuncia, una breve introducción al tema, en el cual se hace una somera referencia a los aspectos metodológicos de la lingüística computacional. El tercer libro constituye un breve compendio, tanto teórico como aplicativo, de lo que es la lingüística de corpus; en este último, sin embargo, no se establece la relación con la lingüística computacional. Estos tres libros realizan, no obstante, un primer y valioso aporte al estudio de estos campos de investigación en nuestro país.

    Introducción a la lingüística computacional y a la lingüística de corpus

    ¿Por qué iniciar este libro vinculando la lingüística computacional y la lingüística de corpus? ¿Se trata acaso de dos campos disciplinares diferenciados, o de un gran campo que recubre al otro? Como veremos en este y en los capítulos que siguen, existe una estrecha relación entre ambos campos del conocimiento. Por una parte, la lingüística computacional permite el análisis del lenguaje a partir de herramientas y programas informáticos creados específicamente para ese fin; por otra parte, el trabajo cada vez más importante de la lingüística de corpus hace posible la recolección metódica de textos o grabaciones (en audio o en video) de producciones del ser humano, que más adelante pueden estudiarse gracias al desarrollo de la informática.

    Si bien es cierto que es factible trabajar sobre corpus sin la necesidad de emplear para ello herramientas computacionales, también es cada vez más evidente la creciente utilización de los computadores en lo que respecta a la recopilación, el análisis y el tratamiento informático de las grandes colecciones de textos, de archivos de audio o de video, lo que desde hace ya varias décadas se ha denominado lingüística de corpus. Esta particular forma de realizar el trabajo investigativo nos va alejando, cada vez más, del trabajo manual que antaño se efectuaba a partir de los corpus. Por otra parte, nos enfrentamos a un creciente empleo de grandes masas de datos para alimentar los sistemas de análisis del lenguaje humano. La lingüística computacional necesita, por lo tanto, de grandes corpus para poder mejorar los sistemas de corrección automática, de etiquetado morfosintáctico o lexicográfico, de autocompletado de textos, de revisión ortográfica y gramatical, etc. Como podemos constatar, se trata de dos campos que necesitan el uno del otro para retroalimentarse y poder ser mejorados día a día.

    En las siguientes secciones, pasamos a describir la importancia de estos campos pertenecientes a las ciencias del lenguaje, tratando de mostrar, en cada caso, la utilidad que en la actualidad ofrecen para el estudio del lenguaje y la comunicación humanas.

    Importancia de la lingüística computacional

    Podemos constatar que en la época actual el empleo de la informática dentro del estudio de las lenguas naturales no nace de un simple uso tecnológico o de una suerte de moda; el afán de los lingüistas computacionales (ya sea de lingüistas con conocimientos en el campo de la informática o de ingenieros de sistemas con conocimientos en el campo de la lingüística) se debe a un gran interés por proporcionar a las ciencias del lenguaje mejores herramientas (generalmente gratuitas o de libre acceso) que permitan estudiar y trabajar a partir de grandes cantidades de datos lingüísticos, con el fin de que cualquier interesado en dichos datos pueda comprobar de manera estadística diversas hipótesis desde diferentes posturas teóricas, pero siempre a partir de datos comprobables de forma científica.

    Según lo plantean autores como Bolshakov y Gelbukh (2004), la lingüística computacional se encuentra ligada a las llamadas ciencias del lenguaje. Podemos apreciar en la figura 0.1 el rol preponderante que esta ha ido adquiriendo en varios campos de la lingüística y como centro de lo que se ha llamado la lingüística aplicada, de manera que se pueden ver las intersecciones entre este y otros campos del conocimiento afines, como las matemáticas, la psicología, la lexicografía y la lingüística general. Tales intersecciones, en nuestro concepto, deberían demostrar una retroalimentación entre estos diversos campos, complementados, además, por disciplinas que no provienen necesariamente de las ciencias del lenguaje, como las matemáticas y la psicología, que llevan al nacimiento de dos subcampos de la lingüística: la lingüística matemática y la psicolingüística, respectivamente.

    Figura 0.1. La lingüística computacional dentro de las ciencias del lenguaje

    Fuente: traducción y adaptación de Bolshakov y Gelbukh (2004, p. 18).

    Aquí podríamos agregar, sin ningún tipo de problema, el campo relativo a las ciencias de la cognición —el aprendizaje y la enseñanza—. Nos referimos, por supuesto, a los campos conocidos como

    alao

    y

    elao

    , que nombran el aprendizaje y la enseñanza de lenguas asistidos por ordenador, los cuales tienen sus bases en la lingüística computacional y el procesamiento del lenguaje natural (Antoniadis, 2008 y 2010; Chanier, 1998a; L’Haire, 2011; Loiseau, 2009; Molina Mejía, 2015).

    Finalmente, podemos constatar, como los profesores Hirschberg y Manning (2015, p. 261), que la lingüística computacional se ha ido transformando paulatinamente, en las dos últimas décadas, en un magnífico campo de investigación científica y de práctica tecnológica. Esto, según los mismos autores, se ha visto reflejado en varios productos dirigidos al consumidor final de este tipo de tecnologías (caso, por ejemplo, de las aplicaciones Siri para Apple y Skype Translator, el traductor simultáneo de Skype, entre otras). En pocas palabras, se puede decir que hoy en día la lingüística computacional afecta nuestra vida personal y social de una manera palpable, aunque muchas personas la utilicen a diario sin siquiera percatarse de ello.

    Necesidad de trabajar a partir de una lingüística de corpus

    En realidad, este aspecto del lenguaje no solamente se aplica a la recolección de corpus en los subcampos de la lingüística; de hecho, se utiliza en otros campos del conocimiento: literatura, sociología, antropología, política, derecho, medicina, ingenierías, etc., en los que se ha vuelto necesario, por su propia naturaleza y por lo que ofrecen a la sociedad, trabajar a partir de datos reales de tipo escrito u oral, reunidos en corpus o en grandes colecciones de documentos. En este sentido, se puede observar el trabajo que se efectúa en la literatura con corpus que permiten el estudio de metáforas, figuras retóricas, en la edición crítica; en antropología, los corpus sirven para el estudio de fenómenos ligados al habla, la escritura y la cultura de diferentes pueblos del mundo; en la medicina, este tipo de trabajo ayuda en el tratamiento de enfermedades mentales, como el alzhéimer, el párkinson, entre otras. Así mismo, usar estas masas de datos auténticos y reales en trabajos de las diversas disciplinas que se han mencionado permite corroborar, de manera estadística, la información recolectada. De modo que en subcampos o niveles de análisis, en este caso de la lingüística (la morfología, la sintaxis, la fonética y la fonología, la pragmática y la semántica) o de las ciencias del lenguaje (sociolingüística, dialectología, lexicografía, la lingüística histórica, etc.), la utilización de grandes colecciones de textos y grabaciones se hace imprescindible para el estudio de fenómenos particulares, cuyas hipótesis asociadas puedan ser corroboradas gracias a datos reales; es allí donde la lingüística de corpus y la estadística van de la mano, pues su trabajo conjunto hace posible comprobar dichas hipótesis de una forma científica.

    Ya sea en cuanto a su aceptación como campo teórico o a su empleo como metodología de trabajo (asunto que se verá más adelante, en el capítulo 4), la lingüística de corpus es, sin lugar a dudas, un terreno de vasta investigación y trabajo en la actualidad.

    Veamos, en la sección siguiente, la manera como la lingüística computacional está al servicio de la lingüística de corpus, y viceversa, al ir de un trabajo interdisciplinario a uno pluridisciplinario, en el que participarán otras disciplinas y campos del conocimiento humanístico y tecnológico.

    De la inter- a la pluridisciplinariedad

    La pluridisciplinariedad podría ser definida como la posibilidad de que un objeto común a dos o más disciplinas pueda ser examinado desde cada uno de esto campos del conocimiento (Lebarbé, 2010, p. 18). Es así como en el presente caso nos referimos a lo pluridisciplinario cuando el objeto de estudio se trabaja desde diferentes áreas del conocimiento que tienen que ver con las ciencias humanas y sociales, y con las ciencias exactas y de la computación, puesto que, según el mismo autor, desde la pluridisciplinariedad se trabaja a partir de diferentes equipos en proyectos e ideas comunes.

    A partir de la figura 0.1 y del trabajo de Bolshakov y Gelbukh (2004, p. 18), presentamos un nuevo esquema que se adapta a este concepto, que va de la interdisciplinariedad a la pluridisciplinariedad, pues, como puede notarse en la figura 0.2, son muchas las disciplinas que entran en juego cuando se conjugan los trabajos computacionales y de la lingüística de corpus.

    Figura 0.2. Posición de la lingüística computacional y de la

    ¿Disfrutas la vista previa?
    Página 1 de 1