El Old Spanish Textual Archive, diseño y desarrollo de un corpus de textos medievales
Este trabajo expone los aspectos relacionados con el procesamiento de las formas, lemas, análisis gramatical y textos en el Old Spanish Textual Archive (OSTA), un corpus lingüístico de más de 32 millones de palabras, basado en las más de 400 transcripciones semi-paleográficas de textos medievales es...
| Autores: | , |
|---|---|
| Formato: | artículo |
| Fecha de publicación: | 2018 |
| País: | España |
| Recursos: | Universitat Autònoma de Barcelona |
| Repositorio: | Dipòsit Digital de Documents de la UAB |
| Idioma: | español |
| OAI Identifier: | oai:ddd.uab.cat:200298 |
| Acesso em linha: | https://ddd.uab.cat/record/200298 https://dx.doi.org/urn:doi:10.5565/rev/scriptum.88 |
| Access Level: | acceso abierto |
| Palavra-chave: | Diseño de corpus electrónicos Anotación de corpus Corpus digitalizado del castellano antiguo Español medieval Electronic corpus design Corpus annotation Digital medieval Spanish corpus Medieval Spanish |
| Resumo: | Este trabajo expone los aspectos relacionados con el procesamiento de las formas, lemas, análisis gramatical y textos en el Old Spanish Textual Archive (OSTA), un corpus lingüístico de más de 32 millones de palabras, basado en las más de 400 transcripciones semi-paleográficas de textos medievales escritos en castellano, asturiano, leonés, navarro-aragonés y aragonés realizadas por los colaboradores del Hispanic Seminary of Medieval Studies (HSMS). Se describe además el proceso de etiquetado y lematización mediante el uso de Freeling, una herramienta de Procesamiento del Lenguaje Natural, y de HSMS-app, una herramienta de análisis textual desarrollada para este proyecto. |
|---|