Adaptación de ASR al habla de personas con síndrome de Down

El habla de las personas con discapacidad intelectual (DI) plantea enormes retos a los sistemas de reconocimiento automático del habla (ASR), dificultando con ello el acceso de una población especialmente sensible a los servicios de información. En este trabajo se estudian las dificultades de los si...

Descripción completa

Detalles Bibliográficos
Autores: Fernández García, David, Cardeñoso Payo, Valentín, González Ferreras, César, Escudero Mancebo, David
Tipo de recurso: artículo
Estado:Versión publicada
Fecha de publicación:2024
País:España
Institución:Universidad de Valladolid
Repositorio:UVaDOC. Repositorio Documental de la Universidad de Valladolid
OAI Identifier:oai:uvadoc.uva.es:10324/82053
Acceso en línea:https://doi.org/10.26342/2024-73-15
https://uvadoc.uva.es/handle/10324/82053
Access Level:acceso abierto
Palabra clave:Reconocimiento automático del habla
Habla, Trastornos del
Speech disorders
Down, síndrome de
Personas con discapacidad
Habla
Patologia
6102.05 Patología del Lenguaje
Descripción
Sumario:El habla de las personas con discapacidad intelectual (DI) plantea enormes retos a los sistemas de reconocimiento automático del habla (ASR), dificultando con ello el acceso de una población especialmente sensible a los servicios de información. En este trabajo se estudian las dificultades de los sistemas ASR para reconocer habla de personas DI y se muestra cómo esta limitación puede ser combatida con estrategias de ajuste fino de modelos. Se mide el rendimiento de ASR basado en whisper (v2 y v3) con un corpus de referencia de habla típica y habla DI, comprobando que hay diferencias importantes y significativas. Aplicando técnicas de fine-tuning, el rendimiento para hablantes DI mejora en al menos 30 puntos porcentuales. Nuestros resultados muestran que la inclusión de voz de personas DI en los corpus de entrenamiento es fundamental para mejorar la eficacia de los ASR.