Linguaxes Naturais
Facultade de Informática da Coruña
Enxeñería Informática
Curso 2011-2012
Esta página en español
For Erasmus students: this page in English
Índice:
Nota: existe tamén unha páxina
oficial da asignatura no servidor web da facultade.
NOTA IMPORTANTE: A información mostrada nestas páginas
ofrécese a título meramente informativo e non substitue
á información oficial publicada nos medios
correspondentes.
Profesores
Aulas e horario
-
Teoría: a primeira metade do cuadrimestre, na aula 2.6, os LUNS de 16:30 a 18:30 e os VENRES de 15:30 a 17:30
-
Prácticas: a segunda metade do cuadrimestre, en horario libre, ainda tenemos asignado o laboratorio 1.3 os vienres de 15:30 a 17:30
Programa
-
Introdución
-
Niveis de análise
-
Ambigüedade
-
Recursos lingüísticos
-
Xogos de etiquetas
-
Diccionarios
-
Textos etiquetados
-
Bancos de árbores
-
Análise léxica
-
Segmentación de textos
-
Morfoloxía flexiva e derivativa
-
Modelización de grandes diccionarios
-
Autómatas finitos acíclicos deterministas numerados
-
Tradutores de estado finito e morfoloxía de dous niveis
-
Etiquetación
-
Modelos de Markov ocultos
-
Execución eficiente dos modelos de Markov ocultos
-
Técnicas de suavizado
-
Tratamento de palabras descoñecidas
-
Aprendizaxe de etiquetas baseado en transformacións e dirixido
polo erro
-
Análise sintáctica: gramáticas independentes do
contexto
-
Esquemas de análise sintáctica
-
Análise ascendente
-
O algoritmo de Earley
-
Autómatas a pila e programación dinámica
-
Análise sintáctica LR xeralizada
-
Representación compartida das árbores de análise
sintáctica
-
Análise sintáctica probabilística
-
Análise sintáctica: gramáticas suavemente
dependentes do contexto
-
Gramáticas de adxunción de árbores
-
Análise sintáctica de gramáticas de
adxunción
de árbores
-
Autómatas para a análisise de gramáticas de
adxunción de árbores
-
Representación compartida das árbores de derivación
-
Gramáticas de adxunción de árbores
probabilísticas
- Análise semántica
- Estruturas de rasgos e formalismos baseados en
unificación
- Relacións léxicas. WordNet e EuroWordnet
- Recuperación de información (RI)
- Conceptos básicos
- Modelos de recuperación: booleano, vectorial e
probabilístico
- Os procesos de indexación e recuperación
- Avaliación en RI
- RI na web. Un caso práctico: Google
- Aplicacións do procesamento da linguaxe natural á
RI: a variación lingüística
- Extración de información (EI)
- Conceptos básicos
- Arquitectura dun sistema de EI
- Tarefas de EI
- Avaliación en EI
- Exemplos de sistemas de EI: FASTUS e outros
- Busca de respostas (BR)
- Conceptos básicos
- BR vs. RI/EI
- Arquitectura dun sistema de BR
- Procesamento da pregunta
- Recuperación e selección de documentos/pasaxes
- Extracción de resposta
- Avaliación en BR
- Traducción automática (TA)
- Conceptos básicos e problemática
- Técnicas "clásicas"
- Técnicas estadísticas
- Aplicacións na RI interlingüe
Bibliografía Básica
-
Daniel Jurafsky y James H. Martin, Speech and
Language Processing. Second Edition, Pearson Education, Upper Saddle River, New Jersey,
2009.
-
Christopher D. Manning and Hinrich Schütze, Foundations of Statistical
Natural Language Processing, The MIT Press, Cambridge
(Massachusetts)
and London (England), 1999.
- ChristopherD. Manning, Prabhakar Raghavan, and Hinrich Schütze. Introduction to Information Retrieval,
Cambridge University Press, Cambridge, 2008.
Bibliografía Complementaria:
Na signatura I28 da biblioteca pódense atopar numerosos
libros sobre Procesamento da Linguaxe Natural. Recoméndase aos
alumnos que se dean unha volta por esa parte da biblioteca.
-
Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information
Retrieval,
Addison Wesley and ACM Press, Harlow, England, 1999.
-
Marie-Francine Moens, Information Extraction: Algorithms and
Prospects in a Retrieval Context, Springer, Dordrecht, 2006.
-
Klaas Sikkel, Parsing Schemata - A Framework for Specification and
Analysis
of Parsing Algorithms, Texts in Theoretical Computer Science - An
EATCS
Series. Springer-Verlag, Berlin/Heidelberg/New York, 1997 (unha
versión
previa deste libro atópase en ftp://ftp.cs.utwente.nl/pub/doc/Parlevink/PhD/Sikkel/).
- Robert Dale, Hermann Moisi and Harold Somers (editores), Handbook
of
Natural Language Processing, Marcel Dekker, Inc., New York and
Basel,
2000.
-
James Allen, Natural Language Understanding, The
Benjamin/Cummings
Publishing Company, Inc., Redwood City, CA, USA, second edition, 1995.
Transparencias:
Material complementario:
- Análise léxica:
- preprocesamiento.pdf
(artigo conxunto do Prof. Jorge Graña, Fco. Mario Barcala e
Jesús Vilares sobre a segmentación e o preprocesamiento)
- diccionario.pdf
(material preparado polo Prof. Jorge Graña sobre a
implemenatción eficiente de grandes diccionarios)
- Etiquetación:
- HMM.pdf (material preparado
polo Prof. Jorge Graña sobre os modelos de Markov ocultos)
- brill.pdf (material
preparado polo Prof. Jorge Graña sobre aprendizaxe de etiquetas
baseado en transformacións e dirixido polo erro)
- Análise sintáctica de gramáticas
independientes do contexto:
- parsing_schemata.pdf
(material preparado polo Prof. Miguel A. Alonso sobre os esquemas de
análise sintáctica)
- cfg_parsing.pdf
(material preparado polo Prof. Miguel A. Alonso sobre os algoritmos CYK
e Earley)
- PDA.pdf (material preparado
polo Prof. Miguel A. Alonso sobre a interpretación en
programación dinámica dos autómatas a pila non
deterministas)
- PCFG.pdf (material
preparado polo Prof. Jorge Graña para introducir a
análise sintáctica probabilística)
- Análise sintáctica de gramáticas suavemente
dependentes do contexto:
- TAG.pdf (material preparado
polo Prof. Miguel A. Alonso sobre as gramáticas de
adxunción de árbores)
- parsing_TAG.pdf
(material preparado polo Prof. Miguel A. Alonso sobre a
análisise sintáctica das gramáticas de
adxunción de árbores)
- LIA.pdf (material preparado
polo Prof. Miguel A. Alonso sobre os autómatas lineais de
índices)
- Análise semántica:
- Recuperación e extración de información:
- ir.pdf
(Introdución á recuperación de información
realizada polo Prof. jesús Vilares)
- ir_pobabilistico.pdf
(Introdución aos modelos probabilísticos de
recuperación de información realizada polo Prof.
jesús Vilares)
- slides_IR.pdf
(transparencias do capítulo 15 do libro de Manning &
Schütze)
- pagerank.pdf (artigo de
Page, Brin, Motwani & Winograd sobre o algoritmo PageRank usado por
Google)
- ie.pdf (tutorial de Appelt
& Israel en IJCAI'99 sobre extración de información)
- agrep.pdf (technical
Report de Wu & Manber sobre pattern matchning con erros)
Tutorías
Véxase a páxina web da
facultade
Prácticas
Evaluación
Enlaces de interese
-
LIBNAFDA,
Librería para o manexo eficiente de diccionarios de gran
tamaño, baseada en autómatas finitos acíclicos
deterministas numerados.
-
NLTK, Natural Language Toolkit: módulos open-source en Python para diversas tarefas de NLP, corpus lingüísticos e boa documentación. No caso de utilizarse, recoméndase mirar o libro Natural Language Processing with Python
--- Analyzing Text with the Natural Language Toolkit dispoñible on-line.
-
OpenNLP, un conxunto de ferramentas NLP en Java. Pensadas para utilizar encadenadas mediante pipelines. Escasa documentación.
-
WordFreak, unha ferramenta basada en Java para dar soporte á anotación manual e automática de textos, compatible coa aprendizaxe activa. Pódese combinar coas ferramentas de OpenNLP.
-
http://coleweb.dc.fi.udc.es/cole/sites_cl.html,
páxina do Grupo COLE con multitude de enlaces a sitios de
interese
no ámbito do procesamento da linguaxe natural
-
http://coleweb.dc.fi.udc.es/cole/sites_ir.html,
páxina do Grupo COLE con multitude de enlaces a sitios de
interese
nos ámbitos da recuperación e extración de
información
-
El
Mundo según Google, programa de Documentos TV emitido o
martes 30
de setembro de 2007 por La 2
-
Europarl Parallel Corpus
Last modified: Mon Oct 19 12:21:26 CEST 2010