Evaluación morfológica de los vocabularios de subpalabras utilizados por los grandes modelos de lenguaje

García Sierra, Óscar; Fernández-Pampillón Cesteros, Ana María; Ortega Martín, Miguel

Evaluación morfológica de los vocabularios de subpalabras utilizados por los grandes modelos de lenguaje

RESUMEN: Con el auge de los grandes modelos del lenguaje neuronales, especialmente aquellos basados en "Transformers", la tradicional segmentación en palabras y morfemas que empleaba reglas lingüísticas ha sido reemplazada por algoritmos de segmentación estadísticos. Estos algoritmos son m...

Descripción completa

Detalles Bibliográficos
Autores:	García Sierra, Óscar, Fernández-Pampillón Cesteros, Ana María, Ortega Martín, Miguel
Tipo de recurso:	artículo
Fecha de publicación:	2024
País:	España
Institución:	Universidad Complutense de Madrid (UCM)
Repositorio:	Docta Complutense
Idioma:	español
OAI Identifier:	oai:docta.ucm.es:20.500.14352/129172
Acceso en línea:	https://hdl.handle.net/20.500.14352/129172
Access Level:	acceso abierto
Palabra clave:	81'322 004.8 811.134.2'366 Segmentación Morfemas Subpalabras Grandes modelos del lenguaje Lengua española Tokenizing Morphemes Subwords Large language models Spanish language Lingüística Inteligencia artificial (Informática) 5701.04 Lingüística Informatizada 1203.04 Inteligencia Artificial

Descripción
Sumario:	RESUMEN: Con el auge de los grandes modelos del lenguaje neuronales, especialmente aquellos basados en "Transformers", la tradicional segmentación en palabras y morfemas que empleaba reglas lingüísticas ha sido reemplazada por algoritmos de segmentación estadísticos. Estos algoritmos son mucho más eficientes y, sin necesidad de intervención humana, son capaces de, a partir de corpus de millones de palabras, construir el vocabulario de palabras y subpalabras que necesitan los grandes modelos del lenguaje monolingües o multilingües. Ocurre, sin embargo, que estas subpalabras no se corresponden siempre con morfemas y esto repercute negativamente en el funcionamiento de los modelos del lenguaje que utilizan estos segmentadores. Cuánto se alejan los vocabularios estadísticos de un vocabulario real de palabras y morfemas de una lengua –lo que denominamos calidad morfológica del vocabulario–, y cuánto repercute esta falta de calidad en la eficacia de los grandes modelos del lenguaje son cuestiones todavía sin resolver. Este artículo aborda la primera cuestión, la calidad morfológica de los vocabularios, aportando un método de evaluación basado en tres medidas de calidad –relevancia, coherencia y corrección morfológica–, y un procedimiento para evaluarlas. El método se aplica para medir la calidad de los vocabularios generados por tres algoritmos de segmentación en subpalabras, "BPE", "WordPiece" y "Unigram", utilizados mayoritariamente para la construcción de los grandes modelos del lenguaje. Los resultados que hemos obtenido indican que la calidad morfológica de los mismos es muy baja, por lo que merece la pena buscar nuevas soluciones para mejorar la calidad de los vocabularios de los grandes modelos del lenguaje.

Evaluación morfológica de los vocabularios de subpalabras utilizados por los grandes modelos de lenguaje

Similares en LA Referencia