A staging area for in-memory computing
An in-memory staging area provides fast access to different applications. This research is based on evaluating the benefits of a distributed in-memory staging area applied to the field of Big data. With this purpose, a prototype is designed and proposed to verify the idea. Then, a working version co...
| Autor: | |
|---|---|
| Tipo de recurso: | tesis de maestría |
| Fecha de publicación: | 2018 |
| País: | España |
| Institución: | Universitat Oberta de Catalunya (UOC) |
| Repositorio: | O2, repositorio institucional de la UOC |
| OAI Identifier: | oai:openaccess.uoc.edu:10609/83667 |
| Acceso en línea: | http://hdl.handle.net/10609/83667 |
| Access Level: | acceso abierto |
| Palabra clave: | in-memory database big data Alluxio base de datos en memoria base de dades en memòria Big data -- TFM Dades massives -- TFM Datos masivos -- TFM |
| id |
ES_bce2ed1bf5736b7bf8fbd5a9d4cf1053 |
|---|---|
| oai_identifier_str |
oai:openaccess.uoc.edu:10609/83667 |
| network_acronym_str |
ES |
| network_name_str |
España |
| repository_id_str |
|
| spelling |
A staging area for in-memory computingSantamaria Mateu, Polin-memory databasebig dataAlluxiobig dataAlluxiobase de datos en memoriabig dataAlluxiobase de dades en memòriaBig data -- TFMDades massives -- TFMDatos masivos -- TFMAn in-memory staging area provides fast access to different applications. This research is based on evaluating the benefits of a distributed in-memory staging area applied to the field of Big data. With this purpose, a prototype is designed and proposed to verify the idea. Then, a working version comprised of the in-memory software Alluxio and the processing engine Apache Spark is deployed and evaluated. In particular, the work demonstrates the increase in performance resulting from updating the data in the in-memory staging instead of allocating space for new objects. The evaluation is conducted by running an analytic with Spark over a continuously changing dataset stored in Alluxio. The experiments reported a throughput increase of 10x when compared to storing information in a regular parallel filesystem, and an increase of 3x compared to the official deployment methodology. By updating the dataset, the Alluxio in-memory capacity stays constant at a low level compared to current deployments where its capacity decreases linearly, resulting in lower performance.Esta investigación se basa en evaluar los beneficios de un área de almacenamiento en memoria distribuida aplicada al campo de Big data. Con este propósito, se diseña y propone un prototipo para verificar la idea. Luego, se implementa y evalúa una versión de trabajo compuesta por el software de memoria Alluxio y el motor de procesamiento Apache Spark. En particular, el trabajo demuestra el aumento en el rendimiento que resulta de actualizar los datos en la puesta en escena de memoria en lugar de asignar espacio para nuevos objetos. La evaluación se realiza ejecutando una analítica con Spark sobre un conjunto de datos que cambia continuamente y que se almacena en Alluxio. Los experimentos sacaron un aumento del rendimiento de 10x en comparación con el almacenamiento de información en un sistema de archivos paralelo regular, y un aumento de 3x en comparación con la metodología de implementación oficial. Al actualizar el conjunto de datos, la capacidad en memoria de Alluxio se mantiene constante en un nivel bajo en comparación con las implementaciones actuales, donde su capacidad disminuye linealmente, lo que resulta en un menor rendimiento.Aquesta recerca es basa a avaluar els beneficis d'un àrea d'emmagatzematge en memòria distribuïda aplicada al camp de Big data. Amb aquest propòsit, es dissenya i proposa un prototip per verificar la idea. Després, s'implementa i avalua una versió de treball composta pel programari de memòria Alluxio i el motor de processament Apatxe Spark. En particular, el treball demostra l'augment en el rendiment que resulta d'actualitzar les dades en la posada en escena de memòria en lloc d'assignar espai per a nous objectes. L'avaluació es realitza executant una analítica amb Spark sobre un conjunt de dades que canvia contínuament i que s'emmagatzema en Alluxio. Els experiments van treure un augment del rendiment de 10x en comparació de l'emmagatzematge d'informació en un sistema d'arxius paral·lel regular, i un augment de 3x en comparació de la metodologia d'implementació oficial. En actualitzar el conjunt de dades, la capacitat en memòria de Alluxio es manté constant en un nivell baix en comparació de les implementacions actuals, on la seva capacitat disminueix linealment, la qual cosa resulta en un menor rendiment.Universitat Oberta de Catalunya (UOC)Rodero, Ivan201820182018info:eu-repo/semantics/masterThesisapplication/pdfapplication/pdfhttp://hdl.handle.net/10609/83667reponame:O2, repositorio institucional de la UOCinstname:Universitat Oberta de Catalunya (UOC)InglésCC BY-NC-NDhttp://creativecommons.org/licenses/by-nc-nd/3.0/es/info:eu-repo/semantics/openAccessoai:openaccess.uoc.edu:10609/836672026-05-28T12:42:01Z |
| dc.title.none.fl_str_mv |
A staging area for in-memory computing |
| title |
A staging area for in-memory computing |
| spellingShingle |
A staging area for in-memory computing Santamaria Mateu, Pol in-memory database big data Alluxio big data Alluxio base de datos en memoria big data Alluxio base de dades en memòria Big data -- TFM Dades massives -- TFM Datos masivos -- TFM |
| title_short |
A staging area for in-memory computing |
| title_full |
A staging area for in-memory computing |
| title_fullStr |
A staging area for in-memory computing |
| title_full_unstemmed |
A staging area for in-memory computing |
| title_sort |
A staging area for in-memory computing |
| dc.creator.none.fl_str_mv |
Santamaria Mateu, Pol |
| author |
Santamaria Mateu, Pol |
| author_facet |
Santamaria Mateu, Pol |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Rodero, Ivan |
| dc.subject.none.fl_str_mv |
in-memory database big data Alluxio big data Alluxio base de datos en memoria big data Alluxio base de dades en memòria Big data -- TFM Dades massives -- TFM Datos masivos -- TFM |
| topic |
in-memory database big data Alluxio big data Alluxio base de datos en memoria big data Alluxio base de dades en memòria Big data -- TFM Dades massives -- TFM Datos masivos -- TFM |
| description |
An in-memory staging area provides fast access to different applications. This research is based on evaluating the benefits of a distributed in-memory staging area applied to the field of Big data. With this purpose, a prototype is designed and proposed to verify the idea. Then, a working version comprised of the in-memory software Alluxio and the processing engine Apache Spark is deployed and evaluated. In particular, the work demonstrates the increase in performance resulting from updating the data in the in-memory staging instead of allocating space for new objects. The evaluation is conducted by running an analytic with Spark over a continuously changing dataset stored in Alluxio. The experiments reported a throughput increase of 10x when compared to storing information in a regular parallel filesystem, and an increase of 3x compared to the official deployment methodology. By updating the dataset, the Alluxio in-memory capacity stays constant at a low level compared to current deployments where its capacity decreases linearly, resulting in lower performance. |
| publishDate |
2018 |
| dc.date.none.fl_str_mv |
2018 2018 2018 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| dc.identifier.none.fl_str_mv |
http://hdl.handle.net/10609/83667 |
| url |
http://hdl.handle.net/10609/83667 |
| dc.language.none.fl_str_mv |
Inglés |
| language_invalid_str_mv |
Inglés |
| dc.rights.none.fl_str_mv |
CC BY-NC-ND http://creativecommons.org/licenses/by-nc-nd/3.0/es/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
CC BY-NC-ND http://creativecommons.org/licenses/by-nc-nd/3.0/es/ |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf application/pdf |
| dc.publisher.none.fl_str_mv |
Universitat Oberta de Catalunya (UOC) |
| publisher.none.fl_str_mv |
Universitat Oberta de Catalunya (UOC) |
| dc.source.none.fl_str_mv |
reponame:O2, repositorio institucional de la UOC instname:Universitat Oberta de Catalunya (UOC) |
| instname_str |
Universitat Oberta de Catalunya (UOC) |
| reponame_str |
O2, repositorio institucional de la UOC |
| collection |
O2, repositorio institucional de la UOC |
| repository.name.fl_str_mv |
|
| repository.mail.fl_str_mv |
|
| _version_ |
1869418153513058304 |
| score |
15.300724 |