Representação e computação de cubos de dados completos ou parciais em clusters de computadores de baixo custo.
A abordagem PnP (Pipe ’n Prune) é considerada uma das abordagens mais promissoras da literatura para computação de cubos em arquiteturas de computadores com memória distribuída. Infelizmente, a abordagem PnP gera uma enorme quantidade de dados redundantes. No geral, a PnP não considera a uniformidad...
| Autor: | |
|---|---|
| Tipo de recurso: | tesis de maestría |
| Estado: | Versión publicada |
| Fecha de publicación: | 2012 |
| País: | Brasil |
| Institución: | Universidade Federal de Ouro Preto (UFOP) |
| Repositorio: | Repositório Institucional da UFOP |
| Idioma: | portugués |
| OAI Identifier: | oai:repositorio.ufop.br:123456789/3448 |
| Acceso en línea: | http://www.repositorio.ufop.br/handle/123456789/3448 |
| Access Level: | acceso abierto |
| Palabra clave: | Computação de alto desempenho Banco de dados - armazém de dados - cubo de dados Processamento analítico online - OLAP |
| Sumario: | A abordagem PnP (Pipe ’n Prune) é considerada uma das abordagens mais promissoras da literatura para computação de cubos em arquiteturas de computadores com memória distribuída. Infelizmente, a abordagem PnP gera uma enorme quantidade de dados redundantes. No geral, a PnP não considera a uniformidade nos dados, denominada skew. Não considerar o skew no particionamento da carga de trabalho impõe máxima redundância de dados, mesmo com dados uniformes. Diante deste cenário, foi desenvolvida a abordagem P2CDM (acrônimo de Parallel Cube Computation with Distributed Memory), que possui comunicação minimizada e gera redundância de dados sob demanda, dependendo do grau de uniformidade dos dados. Neste sentido, a abordagem P2CDM permite a computação de cubos completos a partir de um certo grau de uniformidade nos dados e cubos parciais quando o grau de uniformidade nos dados ultrapassar um limite predefinido. Os experimentos demonstram que as abordagens PnP e P2CDM possuem acelerações similares, porém a abordagem P2CDM ´e 20-25% mais rápida e consome 30-40% menos memória em cada nó do cluster, quando comparada com a abordagem PnP. |
|---|