Linguaxes Naturais

Facultade de Informática da Coruña
Enxeñería Informática
Curso 2011-2012

For Erasmus students: this page in English

Índice:

Profesores
Aulas e horario
Programa
Bibliografía
Tutorías
Prácticas
Evaluación
Enlaces de interese

Nota: existe tamén unha páxina oficial da asignatura no servidor web da facultade.

NOTA IMPORTANTE: A información mostrada nestas páginas ofrécese a título meramente informativo e non substitue á información oficial publicada nos medios correspondentes.

Profesores

Aulas e horario

Teoría: a primeira metade do cuadrimestre, na aula 2.6, os LUNS de 16:30 a 18:30 e os VENRES de 15:30 a 17:30
Prácticas: a segunda metade do cuadrimestre, en horario libre, ainda tenemos asignado o laboratorio 1.3 os vienres de 15:30 a 17:30

Programa

Introdución

Niveis de análise
Ambigüedade

Recursos lingüísticos

Xogos de etiquetas
Diccionarios
Textos etiquetados
Bancos de árbores

Análise léxica

Segmentación de textos
Morfoloxía flexiva e derivativa
Modelización de grandes diccionarios
Autómatas finitos acíclicos deterministas numerados
Tradutores de estado finito e morfoloxía de dous niveis

Etiquetación

Modelos de Markov ocultos
Execución eficiente dos modelos de Markov ocultos
Técnicas de suavizado
Tratamento de palabras descoñecidas
Aprendizaxe de etiquetas baseado en transformacións e dirixido polo erro

Análise sintáctica: gramáticas independentes do contexto

Esquemas de análise sintáctica
Análise ascendente
O algoritmo de Earley
Autómatas a pila e programación dinámica
Análise sintáctica LR xeralizada
Representación compartida das árbores de análise sintáctica
Análise sintáctica probabilística

Análise sintáctica: gramáticas suavemente dependentes do contexto

Gramáticas de adxunción de árbores
Análise sintáctica de gramáticas de adxunción de árbores
Autómatas para a análisise de gramáticas de adxunción de árbores
Representación compartida das árbores de derivación
Gramáticas de adxunción de árbores probabilísticas

Análise semántica

Estruturas de rasgos e formalismos baseados en unificación
Relacións léxicas. WordNet e EuroWordnet

Recuperación de información (RI)

Conceptos básicos
Modelos de recuperación: booleano, vectorial e probabilístico
Os procesos de indexación e recuperación
Avaliación en RI
RI na web. Un caso práctico: Google
Aplicacións do procesamento da linguaxe natural á RI: a variación lingüística

Extración de información (EI)

Conceptos básicos
Arquitectura dun sistema de EI
Tarefas de EI
Avaliación en EI
Exemplos de sistemas de EI: FASTUS e outros

Busca de respostas (BR)

Conceptos básicos
BR vs. RI/EI
Arquitectura dun sistema de BR
Procesamento da pregunta
Recuperación e selección de documentos/pasaxes
Extracción de resposta
Avaliación en BR

Traducción automática (TA)

Conceptos básicos e problemática
Técnicas "clásicas"
Técnicas estadísticas
Aplicacións na RI interlingüe

Bibliografía Básica

Daniel Jurafsky y James H. Martin, Speech and Language Processing. Second Edition, Pearson Education, Upper Saddle River, New Jersey, 2009.
Christopher D. Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, The MIT Press, Cambridge (Massachusetts) and London (England), 1999.
ChristopherD. Manning, Prabhakar Raghavan, and Hinrich Schütze. Introduction to Information Retrieval, Cambridge University Press, Cambridge, 2008.

Bibliografía Complementaria:

Na signatura I28 da biblioteca pódense atopar numerosos libros sobre Procesamento da Linguaxe Natural. Recoméndase aos alumnos que se dean unha volta por esa parte da biblioteca.

Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, Addison Wesley and ACM Press, Harlow, England, 1999.
Marie-Francine Moens, Information Extraction: Algorithms and Prospects in a Retrieval Context, Springer, Dordrecht, 2006.
Klaas Sikkel, Parsing Schemata - A Framework for Specification and Analysis of Parsing Algorithms, Texts in Theoretical Computer Science - An EATCS Series. Springer-Verlag, Berlin/Heidelberg/New York, 1997 (unha versión previa deste libro atópase en ftp://ftp.cs.utwente.nl/pub/doc/Parlevink/PhD/Sikkel/).
Robert Dale, Hermann Moisi and Harold Somers (editores), Handbook of Natural Language Processing, Marcel Dekker, Inc., New York and Basel, 2000.
James Allen, Natural Language Understanding, The Benjamin/Cummings Publishing Company, Inc., Redwood City, CA, USA, second edition, 1995.

Transparencias:

Tema de recursos lingüísticos
Tema de análise léxica

Tema de etiquetación

HMM
Brill

Tema de análise sintáctica de gramáticas independientes do contexto
Tema de análise sintáctica de gramáticas suavemente dependentes do contexto
Tema de gramáticas de unificación

Exemplo

Tema de representación e análise semántica

Exemplo

Tema de análise sintáctica superficial

Demos on-line:

Freeling 2.1 demo (inclúe español e galego)
Cognitive Computation Group (CCG) demo (Univ. of Illinois at Urbana-Champaign)
Memory-Based Shallow Parsing (MBSP) demo, Computational Linguistics and Psycholinguistics (CLiPS) Research Centre, University of Antwerp

Tema de semántica léxica
Tema de recuperación de información

Tutorial sobre o modelo probabilístico: apuntes, traspas
Exemplo de xeración dun índice

Tema de extración de información

Sistema FASTUS: web, local (protexida)

Tema de busca de respostas

Sistemas QA on-line:

START (xeralista)
EAGLi (xenómica)

Tema de tradución automática

Material complementario:

Análise léxica:

preprocesamiento.pdf (artigo conxunto do Prof. Jorge Graña, Fco. Mario Barcala e Jesús Vilares sobre a segmentación e o preprocesamiento)
diccionario.pdf (material preparado polo Prof. Jorge Graña sobre a implemenatción eficiente de grandes diccionarios)

Etiquetación:

HMM.pdf (material preparado polo Prof. Jorge Graña sobre os modelos de Markov ocultos)
brill.pdf (material preparado polo Prof. Jorge Graña sobre aprendizaxe de etiquetas baseado en transformacións e dirixido polo erro)

Análise sintáctica de gramáticas independientes do contexto:

parsing_schemata.pdf (material preparado polo Prof. Miguel A. Alonso sobre os esquemas de análise sintáctica)
cfg_parsing.pdf (material preparado polo Prof. Miguel A. Alonso sobre os algoritmos CYK e Earley)
PDA.pdf (material preparado polo Prof. Miguel A. Alonso sobre a interpretación en programación dinámica dos autómatas a pila non deterministas)
PCFG.pdf (material preparado polo Prof. Jorge Graña para introducir a análise sintáctica probabilística)

Análise sintáctica de gramáticas suavemente dependentes do contexto:

TAG.pdf (material preparado polo Prof. Miguel A. Alonso sobre as gramáticas de adxunción de árbores)
parsing_TAG.pdf (material preparado polo Prof. Miguel A. Alonso sobre a análisise sintáctica das gramáticas de adxunción de árbores)
LIA.pdf (material preparado polo Prof. Miguel A. Alonso sobre os autómatas lineais de índices)

Análise semántica:

feature_structures.pdf (material sobre estruturas de rasgos extraído do capítulo 7 do libro de Sikkel)
parsing_unification.pdf (material sobre análise sintáctica de gramáticas de unificación extraído do capítulo 8 do libro de Sikkel)
wordnet.pdf (cinco artigos sobre WordNet)

Recuperación e extración de información:

ir.pdf (Introdución á recuperación de información realizada polo Prof. jesús Vilares)
ir_pobabilistico.pdf (Introdución aos modelos probabilísticos de recuperación de información realizada polo Prof. jesús Vilares)
slides_IR.pdf (transparencias do capítulo 15 do libro de Manning & Schütze)
pagerank.pdf (artigo de Page, Brin, Motwani & Winograd sobre o algoritmo PageRank usado por Google)
ie.pdf (tutorial de Appelt & Israel en IJCAI'99 sobre extración de información)
agrep.pdf (technical Report de Wu & Manber sobre pattern matchning con erros)

Tutorías

Véxase a páxina web da facultade

Prácticas

Evaluación

Normas de evaluación:
A nota final da asignatura baséase na calificación obtida nas práticas. O examen escrito de teoría é opcional.

Enlaces de interese

LIBNAFDA, Librería para o manexo eficiente de diccionarios de gran tamaño, baseada en autómatas finitos acíclicos deterministas numerados.
NLTK, Natural Language Toolkit: módulos open-source en Python para diversas tarefas de NLP, corpus lingüísticos e boa documentación. No caso de utilizarse, recoméndase mirar o libro Natural Language Processing with Python --- Analyzing Text with the Natural Language Toolkit dispoñible on-line.
OpenNLP, un conxunto de ferramentas NLP en Java. Pensadas para utilizar encadenadas mediante pipelines. Escasa documentación.
WordFreak, unha ferramenta basada en Java para dar soporte á anotación manual e automática de textos, compatible coa aprendizaxe activa. Pódese combinar coas ferramentas de OpenNLP.
http://coleweb.dc.fi.udc.es/cole/sites_cl.html, páxina do Grupo COLE con multitude de enlaces a sitios de interese no ámbito do procesamento da linguaxe natural
http://coleweb.dc.fi.udc.es/cole/sites_ir.html, páxina do Grupo COLE con multitude de enlaces a sitios de interese nos ámbitos da recuperación e extración de información
El Mundo según Google, programa de Documentos TV emitido o martes 30 de setembro de 2007 por La 2
Europarl Parallel Corpus

Last modified: Mon Oct 19 12:21:26 CEST 2010