What do post-editors correct? A fine-grained analysis of SMT and NMT errors
The recent improvements in neural MT (NMT) have driven a shift from statistical MT (SMT) to NMT. However, to assess the usefulness of MT models for post-editing (PE) and have a detailed insight of the output they produce, we need to analyse the most frequent errors and how they affect the task. We p...
| Autores: | , , |
|---|---|
| Tipo de recurso: | artículo |
| Estado: | Versión publicada |
| Fecha de publicación: | 2021 |
| País: | España |
| Institución: | Universitat Oberta de Catalunya (UOC) |
| Repositorio: | O2, repositorio institucional de la UOC |
| OAI Identifier: | oai:openaccess.uoc.edu:10609/150203 |
| Acceso en línea: | http://hdl.handle.net/10609/150203 https://doi.org/10.5565/rev/tradumatica.286 |
| Access Level: | acceso abierto |
| Palabra clave: | machine translation MT NMT post-editing neuram machine translation error taxonomy traducció automàtica taxonomia d'errors traducció automàtica neuronal postedició TAN TA traducción automática taxonomía de errores posedición traducción automática neuronal |
| id |
ES_0a2832f1dcdcf9b06c1ef6e87b68be2d |
|---|---|
| oai_identifier_str |
oai:openaccess.uoc.edu:10609/150203 |
| network_acronym_str |
ES |
| network_name_str |
España |
| repository_id_str |
|
| spelling |
What do post-editors correct? A fine-grained analysis of SMT and NMT errorsAlvarez Vidal, SergiOliver, AntoniBadia, Tonimachine translationMTNMTpost-editingneuram machine translationerror taxonomytraducció automàticataxonomia d'errorstraducció automàtica neuronalpostedicióTANTAtraducción automáticaTANTAtaxonomía de erroresposedicióntraducción automática neuronalThe recent improvements in neural MT (NMT) have driven a shift from statistical MT (SMT) to NMT. However, to assess the usefulness of MT models for post-editing (PE) and have a detailed insight of the output they produce, we need to analyse the most frequent errors and how they affect the task. We present a pilot study of a fine-grained analysis of MT errors based on post-editors corrections for an English to Spanish medical text translated with SMT and NMT. We use the MQM taxonomy to compare the two MT models and have a categorized classification of the errors produced. Even though results show a great variation among posteditors’ corrections, for this language combination fewer errors are corrected by post-editors in the NMT output. NMT also produces fewer accuracy errors and errors that are less critical.Les millores recents en la TA neuronal (TAN) han impulsat un canvi de la TA estadística (TAE) a la TAN. Tanmateix, per avaluar la utilitat dels models de TA per a la postedició (PE), és fonamental analitzar els errors més freqüents i com afecten la tasca. Presentem un estudi pilot d'una anàlisi detallada dels errors de la TA basat en correccions de postedició d’un text mèdic traduït de l'anglès al castellà amb TAE i TAN. Hem utilitzat la taxonomia MQM per comparar els dos models de TA i hem classificat els errors produïts. La nostra anàlisi també inclou una avaluació de la variació entre els posteditors, que se centra en els passatges amb una major variació en la postedició.Los avances recientes en TA neuronal (TAN) han producido un giro desde la TA estadística (TAE) hacia la TAN. Sin embargo, para evaluar la utilidad de los modelos de TA para la posedición, es imprescindible analizar los errores más frecuentes y cómo afectan a esta tarea. Presentamos el estudio piloto de un análisis pormenorizado de errores en TA basado en las correcciones realizadas por los poseditores en la traducción de un texto médico realizada del inglés al castellano mediante TAE y TAN. Utilizamos la taxonomía MQM para comparar los dos modelos de TA y obtener una clasificación categorizada de los errores resultantes. Nuestro análisis incluye también una evaluación de las diferencias entre poseditores, centrada en los pasajes en los que la posedición presentaba mayor disparidad.Universitat Autònoma de Barcelona202420242021info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfapplication/pdfhttp://hdl.handle.net/10609/150203https://doi.org/10.5565/rev/tradumatica.286reponame:O2, repositorio institucional de la UOCinstname:Universitat Oberta de Catalunya (UOC)InglésRevista Tradumàtica, 2021, 19https://doi.org/10.5565/rev/tradumatica.286CC BYhttp://creativecommons.org/licenses/by/4.0/es/info:eu-repo/semantics/openAccessoai:openaccess.uoc.edu:10609/1502032026-05-28T12:42:01Z |
| dc.title.none.fl_str_mv |
What do post-editors correct? A fine-grained analysis of SMT and NMT errors |
| title |
What do post-editors correct? A fine-grained analysis of SMT and NMT errors |
| spellingShingle |
What do post-editors correct? A fine-grained analysis of SMT and NMT errors Alvarez Vidal, Sergi machine translation MT NMT post-editing neuram machine translation error taxonomy traducció automàtica taxonomia d'errors traducció automàtica neuronal postedició TAN TA traducción automática TAN TA taxonomía de errores posedición traducción automática neuronal |
| title_short |
What do post-editors correct? A fine-grained analysis of SMT and NMT errors |
| title_full |
What do post-editors correct? A fine-grained analysis of SMT and NMT errors |
| title_fullStr |
What do post-editors correct? A fine-grained analysis of SMT and NMT errors |
| title_full_unstemmed |
What do post-editors correct? A fine-grained analysis of SMT and NMT errors |
| title_sort |
What do post-editors correct? A fine-grained analysis of SMT and NMT errors |
| dc.creator.none.fl_str_mv |
Alvarez Vidal, Sergi Oliver, Antoni Badia, Toni |
| author |
Alvarez Vidal, Sergi |
| author_facet |
Alvarez Vidal, Sergi Oliver, Antoni Badia, Toni |
| author_role |
author |
| author2 |
Oliver, Antoni Badia, Toni |
| author2_role |
author author |
| dc.subject.none.fl_str_mv |
machine translation MT NMT post-editing neuram machine translation error taxonomy traducció automàtica taxonomia d'errors traducció automàtica neuronal postedició TAN TA traducción automática TAN TA taxonomía de errores posedición traducción automática neuronal |
| topic |
machine translation MT NMT post-editing neuram machine translation error taxonomy traducció automàtica taxonomia d'errors traducció automàtica neuronal postedició TAN TA traducción automática TAN TA taxonomía de errores posedición traducción automática neuronal |
| description |
The recent improvements in neural MT (NMT) have driven a shift from statistical MT (SMT) to NMT. However, to assess the usefulness of MT models for post-editing (PE) and have a detailed insight of the output they produce, we need to analyse the most frequent errors and how they affect the task. We present a pilot study of a fine-grained analysis of MT errors based on post-editors corrections for an English to Spanish medical text translated with SMT and NMT. We use the MQM taxonomy to compare the two MT models and have a categorized classification of the errors produced. Even though results show a great variation among posteditors’ corrections, for this language combination fewer errors are corrected by post-editors in the NMT output. NMT also produces fewer accuracy errors and errors that are less critical. |
| publishDate |
2021 |
| dc.date.none.fl_str_mv |
2021 2024 2024 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
| format |
article |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
http://hdl.handle.net/10609/150203 https://doi.org/10.5565/rev/tradumatica.286 |
| url |
http://hdl.handle.net/10609/150203 https://doi.org/10.5565/rev/tradumatica.286 |
| dc.language.none.fl_str_mv |
Inglés |
| language_invalid_str_mv |
Inglés |
| dc.relation.none.fl_str_mv |
Revista Tradumàtica, 2021, 19 https://doi.org/10.5565/rev/tradumatica.286 |
| dc.rights.none.fl_str_mv |
CC BY http://creativecommons.org/licenses/by/4.0/es/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
CC BY http://creativecommons.org/licenses/by/4.0/es/ |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf application/pdf |
| dc.publisher.none.fl_str_mv |
Universitat Autònoma de Barcelona |
| publisher.none.fl_str_mv |
Universitat Autònoma de Barcelona |
| dc.source.none.fl_str_mv |
reponame:O2, repositorio institucional de la UOC instname:Universitat Oberta de Catalunya (UOC) |
| instname_str |
Universitat Oberta de Catalunya (UOC) |
| reponame_str |
O2, repositorio institucional de la UOC |
| collection |
O2, repositorio institucional de la UOC |
| repository.name.fl_str_mv |
|
| repository.mail.fl_str_mv |
|
| _version_ |
1869403147777081344 |
| score |
15,300724 |