Creación, etiquetación y desambiguación de un corpus de referencia del español
En este artículo presentamos los criterios para la anotación y desambiguación morfosintáctica de un corpus de referencia del español que será de libre disposición, proponiendo respuestas concretas a casos problemáticos de ambas tareas. El objetivo final es disponer de una colección escrita de 1 mill...
| Autores: | , , |
|---|---|
| Tipo de recurso: | artículo |
| Estado: | Versión publicada |
| Fecha de publicación: | 2001 |
| País: | España |
| Institución: | Varias* (Consorci de Biblioteques Universitáries de Catalunya, Centre de Serveis Científics i Acadèmics de Catalunya) |
| Repositorio: | Recercat. Dipósit de la Recerca de Catalunya |
| OAI Identifier: | oai:recercat.cat:2445/129955 |
| Acceso en línea: | https://hdl.handle.net/2445/129955 |
| Access Level: | acceso abierto |
| Palabra clave: | Tractament del llenguatge natural (Informàtica) Corpus (Lingüística) Castellà (Llengua) Natural language processing (Computer science) Corpora (Linguistics) Spanish language |
| Sumario: | En este artículo presentamos los criterios para la anotación y desambiguación morfosintáctica de un corpus de referencia del español que será de libre disposición, proponiendo respuestas concretas a casos problemáticos de ambas tareas. El objetivo final es disponer de una colección escrita de 1 millón de palabras desambiguadas manualmente a nivel tanto morfológico como sintáctico, que pueda utilizarse para el aprendizaje automático así como para la consulta lingüística. Discutimos detalladamente la categorización de las palabras del español así como los criterios lingüísticos de desambigüación. |
|---|