El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya
En aquest article presentem el procés de compilació de la nova versió del corpus paral·lel català-castellà creat a partir dels textos del Diari Oficial de la Generalitat de Catalunya (DOGC). Es descriuen els processos de descàrrega, conversió a text, segmentació i alineació automàtica. Tots els prog...
| Autor: | |
|---|---|
| Tipo de recurso: | artículo |
| Estado: | Versión publicada |
| Fecha de publicación: | 2022 |
| País: | España |
| Institución: | Universitat Oberta de Catalunya (UOC) |
| Repositorio: | O2, repositorio institucional de la UOC |
| OAI Identifier: | oai:openaccess.uoc.edu:10609/149208 |
| Acceso en línea: | http://hdl.handle.net/10609/149208 https://doi.org/10.21814/lm.14.2.380 |
| Access Level: | acceso abierto |
| Palabra clave: | corpus paral.lel traducció automàtica neuronal parallel corpus neural machine translation |
| Sumario: | En aquest article presentem el procés de compilació de la nova versió del corpus paral·lel català-castellà creat a partir dels textos del Diari Oficial de la Generalitat de Catalunya (DOGC). Es descriuen els processos de descàrrega, conversió a text, segmentació i alineació automàtica. Tots els programes que s'han desenvolupat per dur a terme aquests processos es distribueixen amb una llicència lliure i el corpus compilat es pot descarregar lliurement. A més, es descriu el procés d'entrenament i avaluació de dos motors de traducció automàtica neuronal català-castellà i castellà-català que s'ha dut a terme fent servir aquest corpus paral·el. |
|---|