Evaluating the performance and improving the usability of parallel and distributed word embedding tools

A representação de palavras por meio de vetores chamada de Word Embeddings (WE) vem recebendo grande atenção do campo de Processamento de Linguagem natural (NLP). Modelos WE são capazes de expressar similaridades sintáticas e semânticas, bem como relacionamentos e contextos de palavras em um determi...

Descripción completa

Detalles Bibliográficos
Autor: Silva, Mateus Lyra da
Tipo de recurso: tesis de maestría
Estado:Versión publicada
Fecha de publicación:2020
País:Brasil
Institución:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
Repositorio:Biblioteca Digital de Teses e Dissertações da PUC_RS
Idioma:inglés
OAI Identifier:oai:tede2.pucrs.br:tede/9245
Acceso en línea:http://tede2.pucrs.br/tede2/handle/tede/9245
Access Level:acceso abierto
Palabra clave:Word2vec
HPC
Memória distribuída
Multicomputadores
MPI
OpenMP
Shared memory
Multicomputers
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
Descripción
Sumario:A representação de palavras por meio de vetores chamada de Word Embeddings (WE) vem recebendo grande atenção do campo de Processamento de Linguagem natural (NLP). Modelos WE são capazes de expressar similaridades sintáticas e semânticas, bem como relacionamentos e contextos de palavras em um determinado corpus. Apesar de as implementações mais populares de algoritmos de WE apresentarem baixa escalabilidade, existem novas abordagens que aplicam técnicas de High-Performance Computing (HPC). Nesta dissertação é apresentado um estudo interdisciplinar direcionado a utilização de recursos e aspectos de desempenho dos algoritmos de WE encontrados na literatura. Para melhorar a escalabilidade e usabilidade, o presente trabalho propõe uma integração para ambientes de execução locais e remotos, que contém um conjunto das versões mais otimizadas. Usando estas otimizações é possível alcançar um ganho de desempenho médio de 15x para multicores e 105x para multinodes comparado à versão original. Há também uma grande redução no consumo de memória comparado às versões mais populares em Python. Uma vez que o uso apropriado de ambientes de alta performance pode requerer conhecimento especializado de seus usuários, neste trabalho também é proposto um modelo de otimização de parâmetros que utiliza uma rede neural Multilayer Perceptron (MLP) e o algoritmo Simulated Annealing (SA) para sugerir conjuntos de parâmetros que considerem os recursos computacionais, o que pode ser um auxílio para usuários não especialistas no uso de ambientes computacionais de alto desempenho.