Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse

El presente trabajo tiene como objetivo desarrollar un estudio comparativo entre Apache Flink y Apache Spark, partiendo de la medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse. Para ello, la presente investigación se sustenta en el paradigma cuantitativo de t...

Descripción completa

Detalles Bibliográficos
Autor: Jaime, Rubén Alejandro
Tipo de recurso: tesis de maestría
Estado:Versión aceptada para publicación
Fecha de publicación:2021
País:Argentina
Institución:Universidad Nacional de La Plata
Repositorio:SEDICI (UNLP)
Idioma:español
OAI Identifier:oai:sedici.unlp.edu.ar:10915/126780
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/126780
Access Level:acceso abierto
Palabra clave:Ciencias Informáticas
Apache Spark
Big Data
Apache Flink
Descripción
Sumario:El presente trabajo tiene como objetivo desarrollar un estudio comparativo entre Apache Flink y Apache Spark, partiendo de la medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse. Para ello, la presente investigación se sustenta en el paradigma cuantitativo de tipo comparativo. Las técnicas de investigación son el análisis de documento y análisis de contenido. Los resultados develan que de tratarse de un proyecto que requiere de amplio volumen de procesamiento de datos, la opción es emplear Apache Spark, dada la facilidad para codificar y realizar numerosas tareas; adicionalmente se pudo develar que este framework dispone de abundante información y profesionales con competencias y experiencia para trabajar en este sistema. Por su parte Apache Flink se distingue por ser un framework diseñado para procesamiento de streaming, no cuenta con mucha información de fácil acceso y existe un número reducido de especialistas con dominio y experiencia en este campo; siendo dos desventajas para su selección. Además, es importante señalar que ambos framework son eficientes en la ejecución de tareas, aunque en cuanto a versatilidad se distingue Apache Spark, por cuanto que permite emplear su potencial en diversos lenguajes de programación. Asimismo, es de destacar que a través de la experimentación los mejores tiempos obtenidos para ambas herramientas se logran al modificar el storage y cuando se lo trabaja en un formato columnar.