What do post-editors correct? A fine-grained analysis of SMT and NMT errors

The recent improvements in neural MT (NMT) have driven a shift from statistical MT (SMT) to NMT. However, to assess the usefulness of MT models for post-editing (PE) and have a detailed insight of the output they produce, we need to analyse the most frequent errors and how they affect the task. We p...

Descripción completa

Detalles Bibliográficos
Autores: Alvarez Vidal, Sergi, Oliver, Antoni, Badia, Toni
Tipo de recurso: artículo
Estado:Versión publicada
Fecha de publicación:2021
País:España
Institución:Universitat Oberta de Catalunya (UOC)
Repositorio:O2, repositorio institucional de la UOC
OAI Identifier:oai:openaccess.uoc.edu:10609/150203
Acceso en línea:http://hdl.handle.net/10609/150203
https://doi.org/10.5565/rev/tradumatica.286
Access Level:acceso abierto
Palabra clave:machine translation
MT
NMT
post-editing
neuram machine translation
error taxonomy
traducció automàtica
taxonomia d'errors
traducció automàtica neuronal
postedició
TAN
TA
traducción automática
taxonomía de errores
posedición
traducción automática neuronal
id ES_0a2832f1dcdcf9b06c1ef6e87b68be2d
oai_identifier_str oai:openaccess.uoc.edu:10609/150203
network_acronym_str ES
network_name_str España
repository_id_str
spelling What do post-editors correct? A fine-grained analysis of SMT and NMT errorsAlvarez Vidal, SergiOliver, AntoniBadia, Tonimachine translationMTNMTpost-editingneuram machine translationerror taxonomytraducció automàticataxonomia d'errorstraducció automàtica neuronalpostedicióTANTAtraducción automáticaTANTAtaxonomía de erroresposedicióntraducción automática neuronalThe recent improvements in neural MT (NMT) have driven a shift from statistical MT (SMT) to NMT. However, to assess the usefulness of MT models for post-editing (PE) and have a detailed insight of the output they produce, we need to analyse the most frequent errors and how they affect the task. We present a pilot study of a fine-grained analysis of MT errors based on post-editors corrections for an English to Spanish medical text translated with SMT and NMT. We use the MQM taxonomy to compare the two MT models and have a categorized classification of the errors produced. Even though results show a great variation among posteditors’ corrections, for this language combination fewer errors are corrected by post-editors in the NMT output. NMT also produces fewer accuracy errors and errors that are less critical.Les millores recents en la TA neuronal (TAN) han impulsat un canvi de la TA estadística (TAE) a la TAN. Tanmateix, per avaluar la utilitat dels models de TA per a la postedició (PE), és fonamental analitzar els errors més freqüents i com afecten la tasca. Presentem un estudi pilot d'una anàlisi detallada dels errors de la TA basat en correccions de postedició d’un text mèdic traduït de l'anglès al castellà amb TAE i TAN. Hem utilitzat la taxonomia MQM per comparar els dos models de TA i hem classificat els errors produïts. La nostra anàlisi també inclou una avaluació de la variació entre els posteditors, que se centra en els passatges amb una major variació en la postedició.Los avances recientes en TA neuronal (TAN) han producido un giro desde la TA estadística (TAE) hacia la TAN. Sin embargo, para evaluar la utilidad de los modelos de TA para la posedición, es imprescindible analizar los errores más frecuentes y cómo afectan a esta tarea. Presentamos el estudio piloto de un análisis pormenorizado de errores en TA basado en las correcciones realizadas por los poseditores en la traducción de un texto médico realizada del inglés al castellano mediante TAE y TAN. Utilizamos la taxonomía MQM para comparar los dos modelos de TA y obtener una clasificación categorizada de los errores resultantes. Nuestro análisis incluye también una evaluación de las diferencias entre poseditores, centrada en los pasajes en los que la posedición presentaba mayor disparidad.Universitat Autònoma de Barcelona202420242021info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfapplication/pdfhttp://hdl.handle.net/10609/150203https://doi.org/10.5565/rev/tradumatica.286reponame:O2, repositorio institucional de la UOCinstname:Universitat Oberta de Catalunya (UOC)InglésRevista Tradumàtica, 2021, 19https://doi.org/10.5565/rev/tradumatica.286CC BYhttp://creativecommons.org/licenses/by/4.0/es/info:eu-repo/semantics/openAccessoai:openaccess.uoc.edu:10609/1502032026-05-28T12:42:01Z
dc.title.none.fl_str_mv What do post-editors correct? A fine-grained analysis of SMT and NMT errors
title What do post-editors correct? A fine-grained analysis of SMT and NMT errors
spellingShingle What do post-editors correct? A fine-grained analysis of SMT and NMT errors
Alvarez Vidal, Sergi
machine translation
MT
NMT
post-editing
neuram machine translation
error taxonomy
traducció automàtica
taxonomia d'errors
traducció automàtica neuronal
postedició
TAN
TA
traducción automática
TAN
TA
taxonomía de errores
posedición
traducción automática neuronal
title_short What do post-editors correct? A fine-grained analysis of SMT and NMT errors
title_full What do post-editors correct? A fine-grained analysis of SMT and NMT errors
title_fullStr What do post-editors correct? A fine-grained analysis of SMT and NMT errors
title_full_unstemmed What do post-editors correct? A fine-grained analysis of SMT and NMT errors
title_sort What do post-editors correct? A fine-grained analysis of SMT and NMT errors
dc.creator.none.fl_str_mv Alvarez Vidal, Sergi
Oliver, Antoni
Badia, Toni
author Alvarez Vidal, Sergi
author_facet Alvarez Vidal, Sergi
Oliver, Antoni
Badia, Toni
author_role author
author2 Oliver, Antoni
Badia, Toni
author2_role author
author
dc.subject.none.fl_str_mv machine translation
MT
NMT
post-editing
neuram machine translation
error taxonomy
traducció automàtica
taxonomia d'errors
traducció automàtica neuronal
postedició
TAN
TA
traducción automática
TAN
TA
taxonomía de errores
posedición
traducción automática neuronal
topic machine translation
MT
NMT
post-editing
neuram machine translation
error taxonomy
traducció automàtica
taxonomia d'errors
traducció automàtica neuronal
postedició
TAN
TA
traducción automática
TAN
TA
taxonomía de errores
posedición
traducción automática neuronal
description The recent improvements in neural MT (NMT) have driven a shift from statistical MT (SMT) to NMT. However, to assess the usefulness of MT models for post-editing (PE) and have a detailed insight of the output they produce, we need to analyse the most frequent errors and how they affect the task. We present a pilot study of a fine-grained analysis of MT errors based on post-editors corrections for an English to Spanish medical text translated with SMT and NMT. We use the MQM taxonomy to compare the two MT models and have a categorized classification of the errors produced. Even though results show a great variation among posteditors’ corrections, for this language combination fewer errors are corrected by post-editors in the NMT output. NMT also produces fewer accuracy errors and errors that are less critical.
publishDate 2021
dc.date.none.fl_str_mv 2021
2024
2024
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/10609/150203
https://doi.org/10.5565/rev/tradumatica.286
url http://hdl.handle.net/10609/150203
https://doi.org/10.5565/rev/tradumatica.286
dc.language.none.fl_str_mv Inglés
language_invalid_str_mv Inglés
dc.relation.none.fl_str_mv Revista Tradumàtica, 2021, 19
https://doi.org/10.5565/rev/tradumatica.286
dc.rights.none.fl_str_mv CC BY
http://creativecommons.org/licenses/by/4.0/es/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC BY
http://creativecommons.org/licenses/by/4.0/es/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universitat Autònoma de Barcelona
publisher.none.fl_str_mv Universitat Autònoma de Barcelona
dc.source.none.fl_str_mv reponame:O2, repositorio institucional de la UOC
instname:Universitat Oberta de Catalunya (UOC)
instname_str Universitat Oberta de Catalunya (UOC)
reponame_str O2, repositorio institucional de la UOC
collection O2, repositorio institucional de la UOC
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_ 1869403147777081344
score 15,300724