Lenguajes Naturales
Facultad de Informática de La Coruña
Ingeniería Informática
Curso 2011-2012
Esta páxina en galego
For Erasmus students: this page in English
Índice:
Nota: existe también una página
oficial de la asignatura en el servidor web de la facultad.
NOTA IMPORTANTE: La información mostrada en estas
páginas se ofrece a título meramente informativo y no
sustituye a la información oficial publicada en los medios
correspondientes.
Profesores
Aulas y horario
-
Teoría: la primera mitad del cuatrimestre, en el aula 2.6, los LUNES de 16:30 a 18:30 y los VIERNES de 15:30 a 17:30
-
Prácticas: la segunda mitad del cuatrimestre, en horario libre, aunque tenemos aisgnado el laboratorio 1.3 los viernes de 15:30 a 17:30
Programa
-
Introducción
-
Niveles de análisis
-
Ambigüedad
-
Recursos lingüísticos
-
Juegos de etiquetas
-
Diccionarios
-
Textos etiquetados
-
Bancos de árboles
-
Análisis léxico
-
Segmentación de textos
-
Morfología flexiva y derivativa
-
Modelización de grandes diccionarios
-
Autómatas finitos acíclicos deterministas numerados
-
Traductores de estado finito y morfología de dos niveles
-
Etiquetación
-
Modelos de Markov ocultos
-
Ejecución eficiente de los modelos de Markov ocultos
-
Técnicas de suavizado
-
Tratamiento de palabras desconocidas
-
Aprendizaje de etiquetas basado en transformaciones y dirigido por el
error
-
Análisis sintáctico: gramáticas independientes del
contexto
-
Esquemas de análisis sintáctico
-
Análisis ascendente
-
El algoritmo de Earley
-
Autómatas a pila y programación dinámica
-
Análisis sintáctico LR generalizado
-
Representación compartida de los árboles de
análisis
sintáctico
-
Análisis sintáctico probabilístico
-
Análisis sintáctico: gramáticas suavemente
dependientes
del contexto
-
Gramáticas de adjución de árboles
-
Análisis sintáctico de gramáticas de
adjunción
de árboles
-
Autómatas para el análisis de gramáticas de
adjunción
de árboles
-
Representación compartida de los árboles de
derivación
-
Gramáticas de adjunción de árboles
probabilísticas
-
Análisis semántico
- Estruturas de rasgos y formalismos basados en
unificación
- Relaciones léxicas. WordNet y EuroWordnet
- Recuperación de información (RI)
- Conceptos básicos
- Modelos de recuperación: booleano, vectorial y
probabilístico
- Los procesos de indexación y recuperación
- Evaluación en RI
- RI en la web. Un caso práctico: Google
- Aplicaciones del procesamento del lenguaje natural a RI:
la variación lingüística
- Extración de información (EI)
- Conceptos básicos
- Arquitectura de un sistema de EI
- Tareas de EI
- Evaluación en EI
- Ejemplos de sistemas de EI: FASTUS y otros
- Búsqueda de respuestas (BR)
- Conceptos básicos
- BR vs. RI/EI
- Arquitectura de un sistema de BR
- Procesamiento de la pregunta
- Recuperación y selección de documentos/pasajes
- Extracción de la respuesta
- Evaluación en BR
- Traducción automática (TA)
- Conceptos básicos y problemática
- Técnicas "clásicas"
- Técnicas estadísticas
- Aplicaciones en la RI interlingüe
Bibliografía Básica
-
Daniel Jurafsky y James H. Martin, Speech and
Language Processing. Second Edition, Pearson Education, Upper Saddle River, New Jersey,
2009.
-
Christopher D. Manning and Hinrich Schütze, Foundations of Statistical
Natural Language Processing, The MIT Press, Cambridge
(Massachusetts)
and London (England), 1999.
- ChristopherD. Manning, Prabhakar Raghavan, and Hinrich Schütze. Introduction to Information Retrieval,
Cambridge University Press, Cambridge, 2008.
Bibliografía Complementaria:
En la signatura I28 de la biblioteca pueden encontrarse numerosos
libros sobre Procesamiento del Lenguaje Natural. Se recomienda a los
alumnos que se den una vuelta por esa parte de la biblioteca.
-
Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information
Retrieval,
Addison Wesley and ACM Press, Harlow, England, 1999.
-
Marie-Francine Moens, Information Extraction: Algorithms and
Prospects in a Retrieval Context, Springer, Dordrecht, 2006.
-
Klaas Sikkel, Parsing Schemata - A Framework for Specification and
Analysis
of Parsing Algorithms, Texts in Theoretical Computer Science - An
EATCS
Series. Springer-Verlag, Berlin/Heidelberg/New York, 1997 (una
versión
previa de este libro se encuentra en ftp://ftp.cs.utwente.nl/pub/doc/Parlevink/PhD/Sikkel/).
- Robert Dale, Hermann Moisi and Harold Somers (editores), Handbook
of
Natural Language Processing, Marcel Dekker, Inc., New York and
Basel,
2000.
-
James Allen, Natural Language Understanding, The
Benjamin/Cummings
Publishing Company, Inc., Redwood City, CA, USA, second edition, 1995.
Transparencias:
Material complementario:
- Análisis léxico:
- preprocesamiento.pdf
(artículo conjunto del Prof. Jorge Graña, Fco. Mario
Barcala y Jesús Vilares sobre la segmentación y el
preprocesamiento)
- diccionario.pdf
(material preparado por el Prof. Jorge Graña sobre la
implemenatción eficiente de grandes diccionarios)
- Etiquetación:
- HMM.pdf (material preparado
por el Prof. Jorge Graña sobre los modelos de Markov ocultos)
- brill.pdf (material
preparado por el Prof. Jorge Graña sobre aprendizaje de
etiquetas basado en transformaciones y dirigido por el error)
- Análisis sintáctico de gramáticas
independientes del contexto:
- parsing_schemata.pdf
(material preparado por el Prof. Miguel A. Alonso sobre los esquemas de
análisis sintáctico)
- cfg_parsing.pdf
(material preparado por el Prof. Miguel A. Alonso sobre los algoritmos
CYK y Earley)
- PDA.pdf (material preparado
por el Prof. Miguel A. Alonso sobre la interpretación en
programación dinámica de los autómatas a pila no
deterministas)
- PCFG.pdf (material
preparado por el Prof. Jorge Graña para introducir el
análisis sintáctico probabilístico)
- Análisis sintáctico de gramáticas
suavemente dependientes del contexto:
- TAG.pdf (material preparado
por el Prof. Miguel A. Alonso sobre las gramáticas de
adjunción de árboles)
- parsing_TAG.pdf
(material preparado por el Prof. Miguel A. Alonso sobre el
análisis sintáctico de las gramáticas de
adjunción de árboles)
- LIA.pdf (material preparado
por el Prof. Miguel A. Alonso sobre los autómatas lineales de
índices)
- Análisis semántico:
- feature_structures.pdf
(material sobre estructuras de rasgos extraído del
capítulo 7 del libro de Sikkel)
- parsing_unification.pdf
(material sobre análisis sintáctico de gramáticas
de unificación extraído del capítulo 8 del libro
de Sikkel)
- wordnet.pdf (cinco
artículos sobre WordNet)
- Recuperación y extracción de información:
- ir.pdf
(Introducción a la recuperación de información
realizada por el Prof. jesús Vilares)
- ir_pobabilistico.pdf
(Introducción a los modelos probabilísticos de
recuperación de informació:n realizada por el Prof.
jesús Vilares)
- slides_IR.pdf
(transparencias del capítulo 15 del libro de Manning &
Schütze)
- pagerank.pdf
(artículo de Page, Brin, Motwani & Winograd sobre el
algoritmo PageRank usado por Google)
- ie.pdf (tutorial de Appelt
& Israel en IJCAI'99 sobre extracción de información)
- agrep.pdf (technical
Report de Wu y Manber sobre pattern matchning con errores)
Tutorías
Véase la página web de la
facultad
Prácticas
Evaluación
Enlaces de interés
-
LIBNAFDA,
Librería para el manejo eficiente de diccionarios de gran
tamaño, basada en autómatas finitos acíclicos
deterministas numerados.
-
NLTK, Natural Language Toolkit: módulos open-source en Python para diversas tareas de NLP, corpus lingüísticos y buena documentación. Si se utiliza, es recomedable mirar el libro Natural Language Processing with Python
--- Analyzing Text with the Natural Language Toolkit disponible on-line.
-
OpenNLP, un conjunto de herramientas NLP en Java. Pensadas para utilizar encadenadas mediante pipelines. Escasa documentación.
-
WordFreak, una herramienta basada en Java para dar soporte a la anotación manual y automática de textos, compatible con el aprendizaje activo. Se puede combinar con las herramientas de OpenNLP.
-
http://coleweb.dc.fi.udc.es/cole/sites_cl.html,
página del Grupo COLE con multitud de enlaces a sitios de
interés
en el ámbito del procesamiento del lenguaje natural
-
http://coleweb.dc.fi.udc.es/cole/sites_ir.html,
página del Grupo COLE con multitud de enlaces a sitios de
interés
en los ámbitos de la recuperación y extracción de
información
-
El
Mundo según Google, programa de Documentos TV emitido el
martes 30
de septiembre de 2007 por La 2
-
Europarl Parallel Corpus
Last modified: Mon Oct 19 12:20:43 CEST 2010