Representação e computação de cubos de dados completos ou parciais em clusters de computadores de baixo custo.

A abordagem PnP (Pipe ’n Prune) é considerada uma das abordagens mais promissoras da literatura para computação de cubos em arquiteturas de computadores com memória distribuída. Infelizmente, a abordagem PnP gera uma enorme quantidade de dados redundantes. No geral, a PnP não considera a uniformidad...

Descripción completa

Detalles Bibliográficos
Autor: Moreira, Angélica Aparecida
Tipo de recurso: tesis de maestría
Estado:Versión publicada
Fecha de publicación:2012
País:Brasil
Institución:Universidade Federal de Ouro Preto (UFOP)
Repositorio:Repositório Institucional da UFOP
Idioma:portugués
OAI Identifier:oai:repositorio.ufop.br:123456789/3448
Acceso en línea:http://www.repositorio.ufop.br/handle/123456789/3448
Access Level:acceso abierto
Palabra clave:Computação de alto desempenho
Banco de dados - armazém de dados - cubo de dados
Processamento analítico online - OLAP
Descripción
Sumario:A abordagem PnP (Pipe ’n Prune) é considerada uma das abordagens mais promissoras da literatura para computação de cubos em arquiteturas de computadores com memória distribuída. Infelizmente, a abordagem PnP gera uma enorme quantidade de dados redundantes. No geral, a PnP não considera a uniformidade nos dados, denominada skew. Não considerar o skew no particionamento da carga de trabalho impõe máxima redundância de dados, mesmo com dados uniformes. Diante deste cenário, foi desenvolvida a abordagem P2CDM (acrônimo de Parallel Cube Computation with Distributed Memory), que possui comunicação minimizada e gera redundância de dados sob demanda, dependendo do grau de uniformidade dos dados. Neste sentido, a abordagem P2CDM permite a computação de cubos completos a partir de um certo grau de uniformidade nos dados e cubos parciais quando o grau de uniformidade nos dados ultrapassar um limite predefinido. Os experimentos demonstram que as abordagens PnP e P2CDM possuem acelerações similares, porém a abordagem P2CDM ´e 20-25% mais rápida e consome 30-40% menos memória em cada nó do cluster, quando comparada com a abordagem PnP.