El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya

Oliver, Antoni

El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya

En aquest article presentem el procés de compilació de la nova versió del corpus paral·lel català-castellà creat a partir dels textos del Diari Oficial de la Generalitat de Catalunya (DOGC). Es descriuen els processos de descàrrega, conversió a text, segmentació i alineació automàtica. Tots els prog...

Descripción completa

Detalles Bibliográficos
Autor:	Oliver, Antoni
Tipo de recurso:	artículo
Estado:	Versión publicada
Fecha de publicación:	2022
País:	España
Institución:	Universitat Oberta de Catalunya (UOC)
Repositorio:	O2, repositorio institucional de la UOC
OAI Identifier:	oai:openaccess.uoc.edu:10609/149208
Acceso en línea:	http://hdl.handle.net/10609/149208 https://doi.org/10.21814/lm.14.2.380
Access Level:	acceso abierto
Palabra clave:	corpus paral.lel traducció automàtica neuronal parallel corpus neural machine translation

Descripción
Sumario:	En aquest article presentem el procés de compilació de la nova versió del corpus paral·lel català-castellà creat a partir dels textos del Diari Oficial de la Generalitat de Catalunya (DOGC). Es descriuen els processos de descàrrega, conversió a text, segmentació i alineació automàtica. Tots els programes que s'han desenvolupat per dur a terme aquests processos es distribueixen amb una llicència lliure i el corpus compilat es pot descarregar lliurement. A més, es descriu el procés d'entrenament i avaluació de dos motors de traducció automàtica neuronal català-castellà i castellà-català que s'ha dut a terme fent servir aquest corpus paral·el.

El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya

Similares en LA Referencia