Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data

Fajardo, Hugo Manuel

Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data

La sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo n...

Descripción completa

Detalles Bibliográficos
Autor:	Fajardo, Hugo Manuel
Tipo de recurso:	tesis de maestría
Estado:	Versión aceptada para publicación
Fecha de publicación:	2023
País:	Argentina
Institución:	Universidad Nacional de La Plata
Repositorio:	SEDICI (UNLP)
Idioma:	español
OAI Identifier:	oai:sedici.unlp.edu.ar:10915/155135
Acceso en línea:	http://sedici.unlp.edu.ar/handle/10915/155135
Access Level:	acceso abierto
Palabra clave:	Ciencias Informáticas Streaming de Datos Procesamiento de Flujos Procesamiento Distribuido de Flujos de Datos Apache Spark Apache Flink Apache Kafka

id	AR_58675a29b9060fc1cc1c2bbd0504f9c3
oai_identifier_str	oai:sedici.unlp.edu.ar:10915/155135
network_acronym_str	AR
network_name_str	Argentina
repository_id_str
spelling	Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big DataFajardo, Hugo ManuelCiencias InformáticasStreaming de DatosProcesamiento de FlujosProcesamiento Distribuido de Flujos de DatosApache SparkApache FlinkApache KafkaLa sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo necesario para realizarlo. Surge así, la necesidad de herramientas específicas, llamadas herramientas de Big Data. Dentro de estas existe un grupo concreto para el procesamiento de flujos de datos (stream processing), entendiendo por flujo de datos la recepción y procesamiento continuo de datos ilimitados desde diferentes fuentes. Debido a su naturaleza sin límite, estos flujos no pueden descargarse de manera completa, y deben ser procesados en línea cuando se reciben. Dos de las principales herramientas para el procesamiento de streaming son Apache Spark y Apache Flink. El objetivo del presente trabajo es realizar una comparación entre Apache Spark y Apache Flink en el procesamiento de streaming. Para realizar la comparación entre estas herramientas se utilizará el lenguaje de desarrollo Python, ya que el mismo soporta el trabajo tanto en Spark como en Flink, y a su vez es uno de los lenguajes de programación más utilizados en la actualidad. La comparación entre los frameworks requiere el desarrollo de dos aplicaciones para el tratamiento del flujo de datos, ambas resolviendo el mismo problema. Una aplicación realizará el procesamiento de streaming en Apache Spark, mientras que la otra realizará la misma tarea en Apache Flink.Especialista en Inteligencia de Datos orientada a Big DataUniversidad Nacional de La PlataFacultad de InformáticaHasperué, Waldo2023-05-09info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTrabajo de especializacionhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/155135spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2024-05-08T13:18:51Zoai:sedici.unlp.edu.ar:10915/155135Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292024-05-08 13:18:51.822SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv	Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
title	Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
spellingShingle	Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data Fajardo, Hugo Manuel Ciencias Informáticas Streaming de Datos Procesamiento de Flujos Procesamiento Distribuido de Flujos de Datos Apache Spark Apache Flink Apache Kafka
title_short	Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
title_full	Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
title_fullStr	Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
title_full_unstemmed	Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
title_sort	Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data
dc.creator.none.fl_str_mv	Fajardo, Hugo Manuel
author	Fajardo, Hugo Manuel
author_facet	Fajardo, Hugo Manuel
author_role	author
dc.contributor.none.fl_str_mv	Hasperué, Waldo
dc.subject.none.fl_str_mv	Ciencias Informáticas Streaming de Datos Procesamiento de Flujos Procesamiento Distribuido de Flujos de Datos Apache Spark Apache Flink Apache Kafka
topic	Ciencias Informáticas Streaming de Datos Procesamiento de Flujos Procesamiento Distribuido de Flujos de Datos Apache Spark Apache Flink Apache Kafka
description	La sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo necesario para realizarlo. Surge así, la necesidad de herramientas específicas, llamadas herramientas de Big Data. Dentro de estas existe un grupo concreto para el procesamiento de flujos de datos (stream processing), entendiendo por flujo de datos la recepción y procesamiento continuo de datos ilimitados desde diferentes fuentes. Debido a su naturaleza sin límite, estos flujos no pueden descargarse de manera completa, y deben ser procesados en línea cuando se reciben. Dos de las principales herramientas para el procesamiento de streaming son Apache Spark y Apache Flink. El objetivo del presente trabajo es realizar una comparación entre Apache Spark y Apache Flink en el procesamiento de streaming. Para realizar la comparación entre estas herramientas se utilizará el lenguaje de desarrollo Python, ya que el mismo soporta el trabajo tanto en Spark como en Flink, y a su vez es uno de los lenguajes de programación más utilizados en la actualidad. La comparación entre los frameworks requiere el desarrollo de dos aplicaciones para el tratamiento del flujo de datos, ambas resolviendo el mismo problema. Una aplicación realizará el procesamiento de streaming en Apache Spark, mientras que la otra realizará la misma tarea en Apache Flink.
publishDate	2023
dc.date.none.fl_str_mv	2023-05-09
dc.type.none.fl_str_mv	info:eu-repo/semantics/masterThesis info:eu-repo/semantics/acceptedVersion Trabajo de especializacion http://purl.org/coar/resource_type/c_bdcc info:ar-repo/semantics/tesisDeMaestria
format	masterThesis
status_str	acceptedVersion
dc.identifier.none.fl_str_mv	http://sedici.unlp.edu.ar/handle/10915/155135
url	http://sedici.unlp.edu.ar/handle/10915/155135
dc.language.none.fl_str_mv	spa
language	spa
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP
instname_str	Universidad Nacional de La Plata
instacron_str	UNLP
institution	UNLP
reponame_str	SEDICI (UNLP)
collection	SEDICI (UNLP)
repository.name.fl_str_mv	SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv	alira@sedici.unlp.edu.ar
_version_	1799194523393327104
score	15.81155

Estudio comparativo entre Apache Spark y Apache Flink en el procesamiento de streaming en entornos Big Data

Similares en LA Referencia