Deep Neural Network Architectures for Large-scale, Robust and Small-Footprint Speaker and Language Recognition

López Moreno, Ignacio

Deep Neural Network Architectures for Large-scale, Robust and Small-Footprint Speaker and Language Recognition

Tesis doctoral inédita leída en la Universidad Autónoma de Madrid, Escuela Politécnica Superior, Departamento de Tecnología Electrónica y de las Comunicaciones. Fecha de lectura : 27-04-2017

Detalles Bibliográficos
Autor:	López Moreno, Ignacio
Tipo de recurso:	tesis doctoral
Fecha de publicación:	2017
País:	España
Institución:	Universidad Autónoma de Madrid
Repositorio:	Biblos-e Archivo. Repositorio Institucional de la UAM
Idioma:	inglés
OAI Identifier:	oai:repositorio.uam.es:10486/678952
Acceso en línea:	http://hdl.handle.net/10486/678952
Access Level:	acceso abierto
Palabra clave:	Redes neuronales (Informática) - Tesis doctorales Reconocimiento automático de la palabra - Tesis doctorales Aprendizaje automático - Tesis doctorales Telecomunicaciones

id	ES_fd37710fefbf53eec7758a09ed0e3ce8
oai_identifier_str	oai:repositorio.uam.es:10486/678952
network_acronym_str	ES
network_name_str	España
repository_id_str
dc.title.none.fl_str_mv	Deep Neural Network Architectures for Large-scale, Robust and Small-Footprint Speaker and Language Recognition
title	Deep Neural Network Architectures for Large-scale, Robust and Small-Footprint Speaker and Language Recognition
spellingShingle	Deep Neural Network Architectures for Large-scale, Robust and Small-Footprint Speaker and Language Recognition López Moreno, Ignacio Redes neuronales (Informática) - Tesis doctorales Reconocimiento automático de la palabra - Tesis doctorales Aprendizaje automático - Tesis doctorales Telecomunicaciones
title_short	Deep Neural Network Architectures for Large-scale, Robust and Small-Footprint Speaker and Language Recognition
title_full	Deep Neural Network Architectures for Large-scale, Robust and Small-Footprint Speaker and Language Recognition
title_fullStr	Deep Neural Network Architectures for Large-scale, Robust and Small-Footprint Speaker and Language Recognition
title_full_unstemmed	Deep Neural Network Architectures for Large-scale, Robust and Small-Footprint Speaker and Language Recognition
title_sort	Deep Neural Network Architectures for Large-scale, Robust and Small-Footprint Speaker and Language Recognition
dc.creator.none.fl_str_mv	López Moreno, Ignacio
author	López Moreno, Ignacio
author_facet	López Moreno, Ignacio
author_role	author
dc.contributor.none.fl_str_mv	González Domínguez, Javier Gonzalez- Rodriguez, Joaquin Departamento de Tecnología Electrónica y de las Comunicaciones Escuela Politécnica Superior
dc.subject.none.fl_str_mv	Redes neuronales (Informática) - Tesis doctorales Reconocimiento automático de la palabra - Tesis doctorales Aprendizaje automático - Tesis doctorales Telecomunicaciones
topic	Redes neuronales (Informática) - Tesis doctorales Reconocimiento automático de la palabra - Tesis doctorales Aprendizaje automático - Tesis doctorales Telecomunicaciones
description	Tesis doctoral inédita leída en la Universidad Autónoma de Madrid, Escuela Politécnica Superior, Departamento de Tecnología Electrónica y de las Comunicaciones. Fecha de lectura : 27-04-2017
publishDate	2017
dc.date.none.fl_str_mv	2017 2017-04-27
dc.type.none.fl_str_mv	doctoral thesis http://purl.org/coar/resource_type/c_db06 NA http://purl.org/coar/version/c_be7fb7dd8ff6fe43
dc.type.openaire.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
dc.identifier.none.fl_str_mv	http://hdl.handle.net/10486/678952
url	http://hdl.handle.net/10486/678952
dc.language.none.fl_str_mv	Inglés eng
language_invalid_str_mv	Inglés
language	eng
dc.rights.none.fl_str_mv	open access http://purl.org/coar/access_right/c_abf2
dc.rights.openaire.fl_str_mv	info:eu-repo/semantics/openAccess
rights_invalid_str_mv	open access http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblos-e Archivo. Repositorio Institucional de la UAM instname:Universidad Autónoma de Madrid
instname_str	Universidad Autónoma de Madrid
reponame_str	Biblos-e Archivo. Repositorio Institucional de la UAM
collection	Biblos-e Archivo. Repositorio Institucional de la UAM
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_	1869425519967076352
spelling	Deep Neural Network Architectures for Large-scale, Robust and Small-Footprint Speaker and Language RecognitionLópez Moreno, IgnacioRedes neuronales (Informática) - Tesis doctoralesReconocimiento automático de la palabra - Tesis doctoralesAprendizaje automático - Tesis doctoralesTelecomunicacionesTesis doctoral inédita leída en la Universidad Autónoma de Madrid, Escuela Politécnica Superior, Departamento de Tecnología Electrónica y de las Comunicaciones. Fecha de lectura : 27-04-2017Artificial neural networks are powerful learners of the information embedded in speech signals. They can provide compact, multi-level, nonlinear representations of temporal sequences and holistic optimization algorithms capable of surpassing former leading paradigms. Artificial neural networks are, therefore, a promising technology that can be used to enhance our ability to recognize speakers and languages–an ability increasingly in demand in the context of new, voice-enabled interfaces used today by millions of users. The aim of this thesis is to advance the state-of-the-art of language and speaker recognition through the formulation, implementation and empirical analysis of novel approaches for large-scale and portable speech interfaces. Its major contributions are: (1) novel, compact network architectures for language and speaker recognition, including a variety of network topologies based on fully-connected, recurrent, convolutional, and locally connected layers; (2) a bottleneck combination strategy for classical and neural network approaches for long speech sequences; (3) the architectural design of the first, public, multilingual, large vocabulary continuous speech recognition system; and (4) a novel, end-to-end optimization algorithm for text-dependent speaker recognition that is applicable to a range of verification tasks. Experimental results have demonstrated that artificial neural networks can substantially reduce the number of model parameters and surpass the performance of previous approaches to language and speaker recognition, particularly in the cases of long short-term memory recurrent networks (used to model the input speech signal), end-to-end optimization algorithms (used to predict languages or speakers), short testing utterances, and large training data collections.Las redes neuronales artificiales son sistemas de aprendizaje capaces de extraer la información embebida en las señales de voz. Son capaces de modelar de forma eficiente secuencias temporales complejas, con información no lineal y distribuida en distintos niveles semanticos, mediante el uso de algoritmos de optimización integral con la capacidad potencial de mejorar los sistemas aprendizaje automático existentes. Las redes neuronales artificiales son, pues, una tecnología prometedora para mejorar el reconocimiento automático de locutores e idiomas; siendo el reconocimiento de de locutores e idiomas, tareas con cada vez más demanda en los nuevos sistemas de control por voz, que ya utilizan millones de personas. Esta tesis tiene como objetivo la mejora del estado del arte de las tecnologías de reconocimiento de locutor y de idioma mediante la formulación, implementación y análisis empírico de nuevos enfoques basados en redes neuronales, aplicables a dispositivos portátiles y a su uso en gran escala. Las principales contribuciones de esta tesis incluyen la propuesta original de: (1) arquitecturas eficientes que hacen uso de capas neuronales densas, localmente densas, recurrentes y convolucionales; (2) una nueva estrategia de combinación de enfoques clásicos y enfoques basados en el uso de las denominadas redes de cuello de botella; (3) el diseño del primer sistema público de reconocimiento de voz, de vocabulario abierto y continuo, que es además multilingüe; y (4) la propuesta de un nuevo algoritmo de optimización integral para tareas de reconocimiento de locutor, aplicable también a otras tareas de verificación. Los resultados experimentales extraídos de esta tesis han demostrado que las redes neuronales artificiales son capaces de reducir el número de parámetros usados por los algoritmos de reconocimiento tradicionales, así como de mejorar el rendimiento de dichos sistemas de forma substancial. Dicha mejora relativa puede acentuarse a través del modelado de voz mediante redes recurrentes de memoria a largo plazo, el uso de algoritmos de optimización integral, el uso de locuciones de evaluation de corta duración y mediante la optimización del sistema con grandes cantidades de datos de entrenamiento.González Domínguez, JavierGonzalez- Rodriguez, JoaquinDepartamento de Tecnología Electrónica y de las ComunicacionesEscuela Politécnica Superior20172017-04-27doctoral thesishttp://purl.org/coar/resource_type/c_db06NAhttp://purl.org/coar/version/c_be7fb7dd8ff6fe43info:eu-repo/semantics/doctoralThesisapplication/pdfhttp://hdl.handle.net/10486/678952reponame:Biblos-e Archivo. Repositorio Institucional de la UAMinstname:Universidad Autónoma de MadridInglésengopen accesshttp://purl.org/coar/access_right/c_abf2info:eu-repo/semantics/openAccessoai:repositorio.uam.es:10486/6789522026-06-23T12:46:27Z
score	15,300724

Deep Neural Network Architectures for Large-scale, Robust and Small-Footprint Speaker and Language Recognition

Similares en LA Referencia