Natural Languages
Facultade de Informática da Coruña
Computer Science Engineering
2011-2012
Esta páxina en galego
Esta página en español
Outline:
REMARK: there exists a official page
of the course in the web site of the Faculty.
IMPORTANT REMARK: Information provided in this pages does not
substitute the official information published in official media.
Faculty
Rooms and Timeline
-
Theory: the first half of the term, Room 2.6, Monday 16:30-18:30 and Friday 15:30-17:30
-
Practical works: the second half of the term, Lab. 1.3, Friday 15:30-17:30
Programme
-
Introduction
-
Levels of analysis
-
Ambiguity
-
Linguistic Resources
-
Tag-sets
-
Dictionaries
-
Tagged texts
-
Tree-banks
-
Lexical Analysis
-
Text segmentation
-
Flexive and derivative morphology
-
Modelizing large dictionaries
-
Numbered acyclic deterministic finite-state automata
-
Finite-state transducers and two-level morphology
-
Tagging
-
Hidden Markov Models
-
Efficient execution of Hidden Markov Models
-
Smoothing techniques
-
Dealing with unknown words
-
Transformation-based and error-driven tag learning
-
Context-free parsing
-
Parsing schemata
-
Bottom-up parsing
-
Earley's parser
-
Push-down automata and dynamic programming
-
Generalized LR parsers
-
Shared forest
-
Probabilistic parsing
-
Parsing of mildly context-sensitive languages
-
Tree adjoining grammars
-
Parsing tree adjoining grammars
-
Automata for parsing tree adjoining grammars
-
Derivation trees
-
Probabilistic Representación compartida de los árboles de
derivación
-
Semantic analysis
- Feature structures and unification-based formalisms
- Lexical relations: WordNet and EuroWordNet
- Information Retrieval (IR)
- Basic concepts
- Retrieval models: boolean, vector and probabilistic
- Indexing and retrieval
- Evaluation of IR systems
- Wen IR. A case in point: Google
- Applications of natural language processing to IR: linguistic
variation
- Information Extraction (IE)
- Basic concepts
- Arquitecture of an IE system
- IE tasks
- Evaluation of IE systema
- Examples of IE sytems: FASTUS and others
- Question Answering (QA)
- Basic conceptos
- QA vs. IR/IE
- Arquitecture of a QA syetem
- Question processing
- Retrieving and selectinf documents/passages
- Answer extraction
- Evaluaction of QA systems
- Machine Translation (MT)
- Basic concepts and open issues
- "Classic" approaches
- Statistical approaches
- Applications in multilingual IR
Basic Bibliography
-
Daniel Jurafsky y James H. Martin, Speech and
Language Processing. Second Edition, Pearson Education, Upper Saddle River, New Jersey,
2009.
-
Christopher D. Manning and Hinrich Schütze, Foundations of Statistical
Natural Language Processing, The MIT Press, Cambridge
(Massachusetts)
and London (England), 1999.
- ChristopherD. Manning, Prabhakar Raghavan, and Hinrich Schütze. Introduction to Information Retrieval,
Cambridge University Press, Cambridge, 2008.
Additional Bibliography:
In shelves I28 of the librtary you can found a lot of books on
Natural Language Processing. We strongly recommend to visit that part
of the library.
-
Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information
Retrieval,
Addison Wesley and ACM Press, Harlow, England, 1999.
-
Marie-Francine Moens, Information Extraction: Algorithms and
Prospects in a Retrieval Context, Springer, Dordrecht, 2006.
-
Klaas Sikkel, Parsing Schemata - A Framework for Specification and
Analysis
of Parsing Algorithms, Texts in Theoretical Computer Science - An
EATCS
Series. Springer-Verlag, Berlin/Heidelberg/New York, 1997 (a former
version of this book is available at
ftp://ftp.cs.utwente.nl/pub/doc/Parlevink/PhD/Sikkel/).
-
Robert Dale, Hermann Moisi and Harold Somers (editores), Handbook
of
Natural Language Processing, Marcel Dekker, Inc., New York and
Basel,
2000.
-
James Allen, Natural Language Understanding, The
Benjamin/Cummings
Publishing Company, Inc., Redwood City, CA, USA, second edition, 1995.
Slides:
Lecture notes:
- Análisis léxico:
- preprocesamiento.pdf
(artículo conjunto del Prof. Jorge Graña, Fco. Mario
Barcala y Jesús Vilares sobre la segmentación y el
preprocesamiento)
- diccionario.pdf
(material preparado por el Prof. Jorge Graña sobre la
implemenatción eficiente de grandes diccionarios)
- Etiquetación:
- HMM.pdf (material preparado
por el Prof. Jorge Graña sobre los modelos de Markov ocultos)
- brill.pdf (material
preparado por el Prof. Jorge Graña sobre aprendizaje de
etiquetas basado en transformaciones y dirigido por el error)
- Análisis sintáctico de gramáticas
independientes del contexto:
- parsing_schemata.pdf
(material preparado por el Prof. Miguel A. Alonso sobre los esquemas de
análisis sintáctico)
- cfg_parsing.pdf
(material preparado por el Prof. Miguel A. Alonso sobre los algoritmos
CYK y Earley)
- PDA.pdf (material preparado
por el Prof. Miguel A. Alonso sobre la interpretación en
programación dinámica de los autómatas a pila no
deterministas)
- PCFG.pdf (material
preparado por el Prof. Jorge Graña para introducir el
análisis sintáctico probabilístico)
- Análisis sintáctico de gramáticas
suavemente dependientes del contexto:
- TAG.pdf (material preparado
por el Prof. Miguel A. Alonso sobre las gramáticas de
adjunción de árboles)
- parsing_TAG.pdf
(material preparado por el Prof. Miguel A. Alonso sobre el
análisis sintáctico de las gramáticas de
adjunción de árboles)
- LIA.pdf (material preparado
por el Prof. Miguel A. Alonso sobre los autómatas lineales de
índices)
- Análisis semántico:
- feature_structures.pdf
(material sobre estructuras de rasgos extraído del
capítulo 7 del libro de Sikkel)
- parsing_unification.pdf
(material sobre análisis sintáctico de gramáticas
de unificación extraído del capítulo 8 del libro
de Sikkel)
- wordnet.pdf (cinco
artículos sobre WordNet)
- Recuperación y extracción de información:
- ir.pdf
(Introducción a la recuperación de informació:n
realizada por el Prof. jesús Vilares)
- ir_pobabilistico.pdf
(Introducción a los modelos probabilísticos de
recuperación de informació:n realizada por el Prof.
jesús Vilares)
- slides_IR.pdf
(transparencias del capítulo 15 del libro de Manning &
Schütze)
- pagerank.pdf
(artículo de Page, Brin, Motwani & Winograd sobre el
algoritmo PageRank usado por Google)
- ie.pdf (tutorial de Appelt
& Israel en IJCAI'99 sobre extracción de información)
- agrep.pdf (technical
Report de Wu y Manber sobre pattern matchning con errores)
Student time
See the web page of the Faculty
Practical works
Evaluation
Links
-
LIBNAFDA, A library for efficient management of very large dictionaries based on numbered acyclic deterministic finite-state automata.
-
NLTL, Natural Language Toolkit: open source Python modules, linguistic data and documentation for research and development in natural language processing and text analytics, with distributions for Windows, Mac OSX and Linux.
-
OpenNLP, a variety of Java-based NLP tools.
-
WordFreak, a java-based linguistic annotation tool designed to support human, and automatic annotation of linguistic data as well as employ active-learning for human correction of automatically annotated data.
-
http://coleweb.dc.fi.udc.es/cole/sites_cl.html,
COLE Group page with links to NLP sites
-
http://coleweb.dc.fi.udc.es/cole/sites_ir.html,
COLE GRoup page with links to IR and IE sites
-
El
Mundo según Google, Documentos TV program scheduled Tuesday,
30
September 2007, by La 2
-
Europarl Parallel Corpus
Last modified: Mon Oct 19 12:23:59 CEST 2010