Multicutural LLM Evaluation: The Case of Spanish as a Pluricentric Language

El español es una lengua pluricéntrica con más de 600 millones de hablantes y numerosas variedades regionales, pero la mayoría de las tecnologías del lenguaje lo tratan como una única lengua uniforme. Este trabajo estudia cómo los grandes modelos de lenguaje (LLM) reflejan esa diversidad y cómo debe...

Descripción completa

Detalles Bibliográficos
Autor: Grandury González, María Aurora
Tipo de recurso: tesis de maestría
Fecha de publicación:2025
País:España
Institución:Universidad Nacional de Educación a Distancia
Repositorio:e-spacio. Repositorio Institucional de la UNED
Idioma:inglés
OAI Identifier:oai:e-spacio.uned.es:20.500.14468/31642
Acceso en línea:https://hdl.handle.net/20.500.14468/31642
Access Level:acceso abierto
Palabra clave:5701 Lingüística aplicada
Evaluación de LLMs
PLN Multilingüe
PLN Cultural
LLM Evaluation
Multilingual LLM
Cultural NLP
Descripción
Sumario:El español es una lengua pluricéntrica con más de 600 millones de hablantes y numerosas variedades regionales, pero la mayoría de las tecnologías del lenguaje lo tratan como una única lengua uniforme. Este trabajo estudia cómo los grandes modelos de lenguaje (LLM) reflejan esa diversidad y cómo debemos tenerla en cuenta al evaluarlos. Primero, repasamos el desarrollo del PLN en español y las iniciativas actuales que buscan servir al mundo hispanohablante. A continuación, analizamos las prácticas de evaluación estándar y mostramos por qué pueden dar una imagen incorrecta del rendimiento cuando se ignoran el contexto cultural y los usos regionales. Partiendo de esfuerzos abiertos de la comunidad, se presenta la primera leaderboard de código abierto para evaluar LLM en las lenguas de España, incluyendo resultados de 50 modelos de código abierto en 66 conjuntos de datos. El análisis muestra brechas tanto en competencia lingüística como en conocimiento cultural. Para mitigarlas, este trabajo presenta un conjunto de datos para evaluar el conocimiento de los LLM sobre las variedades del español y extiende un conjunto de datos multilingüe de conocimiento cultural para cubrir 17 países hispanohablantes. Los resultados muestran que los modelos a menudo favorecen ciertas variedades y tienen dificultades con el léxico y la morfosintaxis, a la vez que motivan la anotación por países de los conjuntos de datos. Por último, este trabajo propone próximos pasos concretos: un marco de recolección de datos impulsado por la comunidad, centrado en la inclusión y la representación justa, una tarea de evaluación compartida para la identificación de variedades del español y un taller para catalizar la creación de recursos diversos. Estas contribuciones ofrecen herramientas prácticas y evidencia para que la evaluación de los LLM en español sea más fiel a su riqueza lingüística y cultural.