Creación, etiquetación y desambiguación de un corpus de referencia del español

En este artículo presentamos los criterios para la anotación y desambiguación morfosintáctica de un corpus de referencia del español que será de libre disposición, proponiendo respuestas concretas a casos problemáticos de ambas tareas. El objetivo final es disponer de una colección escrita de 1 mill...

Descripción completa

Detalles Bibliográficos
Autores: Civit, Montse, Castellón Masalles, Irene, Martí Antonin, M. Antònia
Tipo de recurso: artículo
Estado:Versión publicada
Fecha de publicación:2001
País:España
Institución:Varias* (Consorci de Biblioteques Universitáries de Catalunya, Centre de Serveis Científics i Acadèmics de Catalunya)
Repositorio:Recercat. Dipósit de la Recerca de Catalunya
OAI Identifier:oai:recercat.cat:2445/129955
Acceso en línea:https://hdl.handle.net/2445/129955
Access Level:acceso abierto
Palabra clave:Tractament del llenguatge natural (Informàtica)
Corpus (Lingüística)
Castellà (Llengua)
Natural language processing (Computer science)
Corpora (Linguistics)
Spanish language
Descripción
Sumario:En este artículo presentamos los criterios para la anotación y desambiguación morfosintáctica de un corpus de referencia del español que será de libre disposición, proponiendo respuestas concretas a casos problemáticos de ambas tareas. El objetivo final es disponer de una colección escrita de 1 millón de palabras desambiguadas manualmente a nivel tanto morfológico como sintáctico, que pueda utilizarse para el aprendizaje automático así como para la consulta lingüística. Discutimos detalladamente la categorización de las palabras del español así como los criterios lingüísticos de desambigüación.