Natural Languages
Facultade de Informática da Coruña
Computer Science Engineering
Esta páxina en galego
Esta página en español
REMARK: there exists a official page
of the course in the web site of the Faculty.
IMPORTANT REMARK: Information provided in this pages does not
substitute the official information published in official media.
Rooms and Timeline
Theory: the first half of the term, Room 2.6, Monday 16:30-18:30 and Friday 15:30-17:30
Practical works: the second half of the term, Lab. 1.3, Friday 15:30-17:30
Levels of analysis
Linguistic Resources
Tagged texts
Lexical Analysis
Text segmentation
Flexive and derivative morphology
Modelizing large dictionaries
Numbered acyclic deterministic finite-state automata
Finite-state transducers and two-level morphology
Hidden Markov Models
Efficient execution of Hidden Markov Models
Smoothing techniques
Dealing with unknown words
Transformation-based and error-driven tag learning
Context-free parsing
Parsing schemata
Bottom-up parsing
Earley's parser
Push-down automata and dynamic programming
Generalized LR parsers
Shared forest
Probabilistic parsing
Parsing of mildly context-sensitive languages
Tree adjoining grammars
Parsing tree adjoining grammars
Automata for parsing tree adjoining grammars
Derivation trees
Probabilistic Representación compartida de los árboles de
Semantic analysis
- Feature structures and unification-based formalisms
- Lexical relations: WordNet and EuroWordNet
- Information Retrieval (IR)
- Basic concepts
- Retrieval models: boolean, vector and probabilistic
- Indexing and retrieval
- Evaluation of IR systems
- Wen IR. A case in point: Google
- Applications of natural language processing to IR: linguistic
- Information Extraction (IE)
- Basic concepts
- Arquitecture of an IE system
- IE tasks
- Evaluation of IE systema
- Examples of IE sytems: FASTUS and others
- Question Answering (QA)
- Basic conceptos
- QA vs. IR/IE
- Arquitecture of a QA syetem
- Question processing
- Retrieving and selectinf documents/passages
- Answer extraction
- Evaluaction of QA systems
- Machine Translation (MT)
- Basic concepts and open issues
- "Classic" approaches
- Statistical approaches
- Applications in multilingual IR
Basic Bibliography
Daniel Jurafsky y James H. Martin, Speech and
Language Processing. Second Edition, Pearson Education, Upper Saddle River, New Jersey,
Christopher D. Manning and Hinrich Schütze, Foundations of Statistical
Natural Language Processing, The MIT Press, Cambridge
and London (England), 1999.
- ChristopherD. Manning, Prabhakar Raghavan, and Hinrich Schütze. Introduction to Information Retrieval,
Cambridge University Press, Cambridge, 2008.
Additional Bibliography:
In shelves I28 of the librtary you can found a lot of books on
Natural Language Processing. We strongly recommend to visit that part
of the library.
Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information
Addison Wesley and ACM Press, Harlow, England, 1999.
Marie-Francine Moens, Information Extraction: Algorithms and
Prospects in a Retrieval Context, Springer, Dordrecht, 2006.
Klaas Sikkel, Parsing Schemata - A Framework for Specification and
of Parsing Algorithms, Texts in Theoretical Computer Science - An
Series. Springer-Verlag, Berlin/Heidelberg/New York, 1997 (a former
version of this book is available at
Robert Dale, Hermann Moisi and Harold Somers (editores), Handbook
Natural Language Processing, Marcel Dekker, Inc., New York and
James Allen, Natural Language Understanding, The
Publishing Company, Inc., Redwood City, CA, USA, second edition, 1995.
Lecture notes:
- Análisis léxico:
- preprocesamiento.pdf
(artículo conjunto del Prof. Jorge Graña, Fco. Mario
Barcala y Jesús Vilares sobre la segmentación y el
- diccionario.pdf
(material preparado por el Prof. Jorge Graña sobre la
implemenatción eficiente de grandes diccionarios)
- Etiquetación:
- HMM.pdf (material preparado
por el Prof. Jorge Graña sobre los modelos de Markov ocultos)
- brill.pdf (material
preparado por el Prof. Jorge Graña sobre aprendizaje de
etiquetas basado en transformaciones y dirigido por el error)
- Análisis sintáctico de gramáticas
independientes del contexto:
- parsing_schemata.pdf
(material preparado por el Prof. Miguel A. Alonso sobre los esquemas de
análisis sintáctico)
- cfg_parsing.pdf
(material preparado por el Prof. Miguel A. Alonso sobre los algoritmos
CYK y Earley)
- PDA.pdf (material preparado
por el Prof. Miguel A. Alonso sobre la interpretación en
programación dinámica de los autómatas a pila no
- PCFG.pdf (material
preparado por el Prof. Jorge Graña para introducir el
análisis sintáctico probabilístico)
- Análisis sintáctico de gramáticas
suavemente dependientes del contexto:
- TAG.pdf (material preparado
por el Prof. Miguel A. Alonso sobre las gramáticas de
adjunción de árboles)
- parsing_TAG.pdf
(material preparado por el Prof. Miguel A. Alonso sobre el
análisis sintáctico de las gramáticas de
adjunción de árboles)
- LIA.pdf (material preparado
por el Prof. Miguel A. Alonso sobre los autómatas lineales de
- Análisis semántico:
- feature_structures.pdf
(material sobre estructuras de rasgos extraído del
capítulo 7 del libro de Sikkel)
- parsing_unification.pdf
(material sobre análisis sintáctico de gramáticas
de unificación extraído del capítulo 8 del libro
de Sikkel)
- wordnet.pdf (cinco
artículos sobre WordNet)
- Recuperación y extracción de información:
- ir.pdf
(Introducción a la recuperación de informació:n
realizada por el Prof. jesús Vilares)
- ir_pobabilistico.pdf
(Introducción a los modelos probabilísticos de
recuperación de informació:n realizada por el Prof.
jesús Vilares)
- slides_IR.pdf
(transparencias del capítulo 15 del libro de Manning &
- pagerank.pdf
(artículo de Page, Brin, Motwani & Winograd sobre el
algoritmo PageRank usado por Google)
- ie.pdf (tutorial de Appelt
& Israel en IJCAI'99 sobre extracción de información)
- agrep.pdf (technical
Report de Wu y Manber sobre pattern matchning con errores)
Student time
See the web page of the Faculty
Practical works
LIBNAFDA, A library for efficient management of very large dictionaries based on numbered acyclic deterministic finite-state automata.
NLTL, Natural Language Toolkit: open source Python modules, linguistic data and documentation for research and development in natural language processing and text analytics, with distributions for Windows, Mac OSX and Linux.
OpenNLP, a variety of Java-based NLP tools.
WordFreak, a java-based linguistic annotation tool designed to support human, and automatic annotation of linguistic data as well as employ active-learning for human correction of automatically annotated data.
COLE Group page with links to NLP sites
COLE GRoup page with links to IR and IE sites
Mundo según Google, Documentos TV program scheduled Tuesday,
September 2007, by La 2
Europarl Parallel Corpus
Last modified: Mon Oct 19 12:23:59 CEST 2010