Multicutural LLM Evaluation: The Case of Spanish as a Pluricentric Language
El español es una lengua pluricéntrica con más de 600 millones de hablantes y numerosas variedades regionales, pero la mayoría de las tecnologías del lenguaje lo tratan como una única lengua uniforme. Este trabajo estudia cómo los grandes modelos de lenguaje (LLM) reflejan esa diversidad y cómo debe...
| Autor: | |
|---|---|
| Tipo de recurso: | tesis de maestría |
| Fecha de publicación: | 2025 |
| País: | España |
| Institución: | Universidad Nacional de Educación a Distancia |
| Repositorio: | e-spacio. Repositorio Institucional de la UNED |
| Idioma: | inglés |
| OAI Identifier: | oai:e-spacio.uned.es:20.500.14468/31642 |
| Acceso en línea: | https://hdl.handle.net/20.500.14468/31642 |
| Access Level: | acceso abierto |
| Palabra clave: | 5701 Lingüística aplicada Evaluación de LLMs PLN Multilingüe PLN Cultural LLM Evaluation Multilingual LLM Cultural NLP |
| Sumario: | El español es una lengua pluricéntrica con más de 600 millones de hablantes y numerosas variedades regionales, pero la mayoría de las tecnologías del lenguaje lo tratan como una única lengua uniforme. Este trabajo estudia cómo los grandes modelos de lenguaje (LLM) reflejan esa diversidad y cómo debemos tenerla en cuenta al evaluarlos. Primero, repasamos el desarrollo del PLN en español y las iniciativas actuales que buscan servir al mundo hispanohablante. A continuación, analizamos las prácticas de evaluación estándar y mostramos por qué pueden dar una imagen incorrecta del rendimiento cuando se ignoran el contexto cultural y los usos regionales. Partiendo de esfuerzos abiertos de la comunidad, se presenta la primera leaderboard de código abierto para evaluar LLM en las lenguas de España, incluyendo resultados de 50 modelos de código abierto en 66 conjuntos de datos. El análisis muestra brechas tanto en competencia lingüística como en conocimiento cultural. Para mitigarlas, este trabajo presenta un conjunto de datos para evaluar el conocimiento de los LLM sobre las variedades del español y extiende un conjunto de datos multilingüe de conocimiento cultural para cubrir 17 países hispanohablantes. Los resultados muestran que los modelos a menudo favorecen ciertas variedades y tienen dificultades con el léxico y la morfosintaxis, a la vez que motivan la anotación por países de los conjuntos de datos. Por último, este trabajo propone próximos pasos concretos: un marco de recolección de datos impulsado por la comunidad, centrado en la inclusión y la representación justa, una tarea de evaluación compartida para la identificación de variedades del español y un taller para catalizar la creación de recursos diversos. Estas contribuciones ofrecen herramientas prácticas y evidencia para que la evaluación de los LLM en español sea más fiel a su riqueza lingüística y cultural. |
|---|