Un modelo híbrido orientado a la síntesis multimodal del habla

En este articulo se presenta un sistema de conversión texto-habla de alta calidad utilizando voz segmentada en difonemas y trifonemas. El sistema de síntesis implementado se basa en un modelo híbrido que combina aspectos de un modelo "armónico + ruido", con el que se descompone la señal de...

Descripción completa

Detalles Bibliográficos
Autores: Iriondo, Ignasi, Alías-Pujol, Francesc, Melenchón, Javier
Tipo de recurso: artículo
Estado:Versión publicada
Fecha de publicación:2002
País:España
Institución:Varias* (Consorci de Biblioteques Universitáries de Catalunya, Centre de Serveis Científics i Acadèmics de Catalunya)
Repositorio:Recercat. Dipósit de la Recerca de Catalunya
OAI Identifier:oai:recercat.cat:20.500.14342/3374
Acceso en línea:http://hdl.handle.net/20.500.14342/3374
Access Level:acceso abierto
Palabra clave:Reconeixement automàtic de la parla
Percepció del llenguatge
Processament de la parla
Perceptrons
Anàlisi prosòdica (Lingüística)
62
Descripción
Sumario:En este articulo se presenta un sistema de conversión texto-habla de alta calidad utilizando voz segmentada en difonemas y trifonemas. El sistema de síntesis implementado se basa en un modelo híbrido que combina aspectos de un modelo "armónico + ruido", con el que se descompone la señal de voz original en dos componentes y aspectos del TD-PSOLA. Los procesos de análisis y síntesis se realizan síncronamente con e pitch de forma que se pueden conseguir modificaciones prosódicas con un alto grado de naturalidad en el habla generada gracias a la representación parmétrica de la señal de voz. Este sistema resulta una buena solución para la síntesis del habla emocionada que requiere grandes variaciones de la prosodia. El objetivo fina de este proyecto consiste en implementar este modelo hibrido de síntesis audiovisual del habla, capaz de generar síncronamente voz y animación facial para simular expresiones emocionales