A framework to operationalize and automate the data integration lifecycle

(English) Data plays a key role in today’s world. Many organizations collect and store massive amounts of data from many different data sources. As a result, these data collections show a diversity in structure and semantics that grows as the data sources expand and evolve. These factors challenge t...

Descripción completa

Detalles Bibliográficos
Autor: Flores Herrera, Javier de Jesús
Tipo de recurso: tesis doctoral
Estado:Versión publicada
Fecha de publicación:2025
País:España
Institución:CBUC, CESCA
Repositorio:TDR. Tesis Doctorales en Red
OAI Identifier:oai:www.tdx.cat:10803/695267
Acceso en línea:http://hdl.handle.net/10803/695267
https://dx.doi.org/10.5821/dissertation-2117-442278
Access Level:acceso abierto
Palabra clave:Data Integration
Data Discovery
Knowledge Graphs
Data Wrangling
Àrees temàtiques de la UPC::Informàtica
004 - Informàtica
id ES_bb7c911db3acf4fe13cd4a955ea151ca
oai_identifier_str oai:www.tdx.cat:10803/695267
network_acronym_str ES
network_name_str España
repository_id_str
dc.title.none.fl_str_mv A framework to operationalize and automate the data integration lifecycle
title A framework to operationalize and automate the data integration lifecycle
spellingShingle A framework to operationalize and automate the data integration lifecycle
Flores Herrera, Javier de Jesús
Data Integration
Data Discovery
Knowledge Graphs
Data Wrangling
Àrees temàtiques de la UPC::Informàtica
004 - Informàtica
title_short A framework to operationalize and automate the data integration lifecycle
title_full A framework to operationalize and automate the data integration lifecycle
title_fullStr A framework to operationalize and automate the data integration lifecycle
title_full_unstemmed A framework to operationalize and automate the data integration lifecycle
title_sort A framework to operationalize and automate the data integration lifecycle
dc.creator.none.fl_str_mv Flores Herrera, Javier de Jesús
author Flores Herrera, Javier de Jesús
author_facet Flores Herrera, Javier de Jesús
author_role author
dc.contributor.none.fl_str_mv Nadal Francesch, Sergi
Romero Moral, Óscar
Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
dc.subject.none.fl_str_mv Data Integration
Data Discovery
Knowledge Graphs
Data Wrangling
Àrees temàtiques de la UPC::Informàtica
004 - Informàtica
topic Data Integration
Data Discovery
Knowledge Graphs
Data Wrangling
Àrees temàtiques de la UPC::Informàtica
004 - Informàtica
description (English) Data plays a key role in today’s world. Many organizations collect and store massive amounts of data from many different data sources. As a result, these data collections show a diversity in structure and semantics that grows as the data sources expand and evolve. These factors challenge traditional data management methods, which depend on fixed structures and stable conditions. There is a mismatch between old assumptions and new realities, where it is not enough to just collect data and run conventional tools. Instead, we must rethink how we integrate data to support high variety, handle large-scale collections, and accommodate new available data. This PhD thesis proposes innovative and advanced techniques to support and automate the data integration lifecycle. First, we describe how to represent and standardize data sources using graph-based schemas. These schemas provide a solid foundation for all steps of the data integration lifecycle. Next, we introduce an integration method that leverages graph-based schemas to add new data incrementally without disrupting existing integration structures. This approach ensures that data integration remains flexible and scalable as organizations grow. We also help users find the right datasets to integrate. By focusing on data discovery, we reduce the time spent exploring irrelevant data sources and suggest relevant ones for integration. To this end, we focus first on facilitating the discovery of joinable attributes among datasets. We propose a new qualitative metric and use data profiles and learning models to decide which attributes are worth joining. To further enhance data discovery, we introduce contextual pre-filtering. Using data profiles and graph-based schemas, we can focus on promising datasets before applying data discovery tools. This pre-filtering step not only boosts the accuracy of existing data discovery tools but also optimizes their performance by narrowing the search space. In summary, this thesis helps bridge the gap between conventional data methods and modern, diverse data ecosystems. The results contribute to the field of data integration by offering scalable and automated solutions that match the changing needs of data integration today.
publishDate 2025
dc.date.none.fl_str_mv 2025
2025
2025
2025
dc.type.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
info:eu-repo/semantics/publishedVersion
format doctoralThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/10803/695267
https://dx.doi.org/10.5821/dissertation-2117-442278
url http://hdl.handle.net/10803/695267
https://dx.doi.org/10.5821/dissertation-2117-442278
dc.language.none.fl_str_mv Inglés
language_invalid_str_mv Inglés
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 177 p.
application/pdf
dc.publisher.none.fl_str_mv Universitat Politècnica de Catalunya
publisher.none.fl_str_mv Universitat Politècnica de Catalunya
dc.source.none.fl_str_mv TDX (Tesis Doctorals en Xarxa)
reponame:TDR. Tesis Doctorales en Red
instname:CBUC, CESCA
instname_str CBUC, CESCA
reponame_str TDR. Tesis Doctorales en Red
collection TDR. Tesis Doctorales en Red
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_ 1869418030117683200
spelling A framework to operationalize and automate the data integration lifecycleFlores Herrera, Javier de JesúsData IntegrationData DiscoveryKnowledge GraphsData WranglingÀrees temàtiques de la UPC::Informàtica004 - Informàtica(English) Data plays a key role in today’s world. Many organizations collect and store massive amounts of data from many different data sources. As a result, these data collections show a diversity in structure and semantics that grows as the data sources expand and evolve. These factors challenge traditional data management methods, which depend on fixed structures and stable conditions. There is a mismatch between old assumptions and new realities, where it is not enough to just collect data and run conventional tools. Instead, we must rethink how we integrate data to support high variety, handle large-scale collections, and accommodate new available data. This PhD thesis proposes innovative and advanced techniques to support and automate the data integration lifecycle. First, we describe how to represent and standardize data sources using graph-based schemas. These schemas provide a solid foundation for all steps of the data integration lifecycle. Next, we introduce an integration method that leverages graph-based schemas to add new data incrementally without disrupting existing integration structures. This approach ensures that data integration remains flexible and scalable as organizations grow. We also help users find the right datasets to integrate. By focusing on data discovery, we reduce the time spent exploring irrelevant data sources and suggest relevant ones for integration. To this end, we focus first on facilitating the discovery of joinable attributes among datasets. We propose a new qualitative metric and use data profiles and learning models to decide which attributes are worth joining. To further enhance data discovery, we introduce contextual pre-filtering. Using data profiles and graph-based schemas, we can focus on promising datasets before applying data discovery tools. This pre-filtering step not only boosts the accuracy of existing data discovery tools but also optimizes their performance by narrowing the search space. In summary, this thesis helps bridge the gap between conventional data methods and modern, diverse data ecosystems. The results contribute to the field of data integration by offering scalable and automated solutions that match the changing needs of data integration today.(Català) Les dades tenen un paper fonamental en el món actual. Moltes organitzacions recopilen i emmagatzemen grans volums de dades procedents de diverses fonts. Aquestes fonts poden variar tant en l’estructura com en la modelització de conceptes i van creixent i evolucionant a mesura que s’hi afegeixen noves fonts de dades. Això posa a prova els mètodes clàssics de gestió de dades, que depenen d’estructures fixes i condicions estables. Avui, ja no n’hi ha prou de reunir dades i emprar eines convencionals. Cal replantejar la manera d’integrar les dades per gestionar-ne la gran varietat, tractar grans volums i incorporar noves fonts a mesura que s’integren. Aquesta tesi proposa tècniques per automatitzar el cicle de vida de la integració de dades. Primer, mostrem com representar i estandarditzar les fonts mitjançant esquemes basats en graf. Aquests esquemes serveixen de fonament sòlid per a cada pas de la integració. Tot seguit, presentem un mètode que aprofita aquests esquemes per afegir noves fonts de manera incremental sense alterar les estructures existents, tot mantenint flexibilitat i escalabilitat a mesura que les organitzacions creixen. També fem més àgil la cerca de conjunts de dades que valgui la pena integrar. En centrar-nos en el descobriment de dades, reduïm el temps destinat a explorar fonts irrellevants i proposem les més adequades. Per fer-ho, introduïm una mètrica qualitativa i fem servir perfils de dades i models d’aprenentatge per decidir quins atributs cal unir. A més, incorporem un prefiltrat contextual que detecta els conjunts de dades més prometedors abans d’aplicar eines de descobriment, cosa que millora la precisió i redueix la càrrega computacional. En resum, aquesta tesi escurça la distància entre els mètodes tradicionals i els entorns moderns de dades. Ofereix solucions escalables i automatitzades que s’adapten a les necessitats canviants de la integració de dades.(Español) Los datos desempeñan un papel fundamental en el mundo actual. Muchas organizaciones recopilan y almacenan grandes volúmenes de datos desde diversas fuentes. Estas fuentes pueden variar en estructura y modelado de conceptos que van creciendo y evolucionando a medida que más fuentes de datos son integradas. Esto pone a prueba los métodos clásicos de gestión de datos, que dependen de estructuras fijas y condiciones estables. Hoy en día, no basta con reunir datos y usar herramientas convencionales. En su lugar, debemos replantearnos cómo integrar datos para manejar una alta variedad, gestionar grandes volúmenes y acomodar nuevas fuentes a medida que se integran. Esta tesis propone técnicas para automatizar el ciclo de vida de la integración de datos. Primero, mostramos cómo representar y estandarizar las fuentes con esquemas basados en grafos. Estos esquemas sirven de base sólida para cada paso de la integración. Luego, presentamos un método que emplea dichos esquemas para añadir nuevas fuentes de forma incremental sin afectar las estructuras existentes, manteniendo flexibilidad y escalabilidad a medida que las organizaciones crecen. También agilizamos la búsqueda de conjuntos de datos que valga la pena integrar. Al centrarnos en el descubrimiento de datos, reducimos el tiempo dedicado a explorar fuentes irrelevantes y sugerimos las más adecuadas. Para ello, introducimos una métrica cualitativa y usamos perfiles de datos y modelos de aprendizaje para decidir qué atributos se deben unir. Además, aportamos un prefiltrado contextual que identifica los conjuntos de datos más prometedores antes de aplicar herramientas de descubrimiento, lo que mejora la precisión y reduce la carga computacional. En resumen, esta tesis acorta la brecha entre los métodos tradicionales y los entornos modernos de datos. Ofrece soluciones escalables y automatizadas que se adaptan a las cambiantes necesidades de la integración de datos.DOCTORAT EN COMPUTACIÓ (Pla 2012)Universitat Politècnica de CatalunyaNadal Francesch, SergiRomero Moral, ÓscarUniversitat Politècnica de Catalunya. Departament de Ciències de la Computació2025202520252025info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersion177 p.application/pdfhttp://hdl.handle.net/10803/695267https://dx.doi.org/10.5821/dissertation-2117-442278TDX (Tesis Doctorals en Xarxa)reponame:TDR. Tesis Doctorales en Redinstname:CBUC, CESCAInglésADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.info:eu-repo/semantics/openAccessoai:www.tdx.cat:10803/6952672026-06-14T12:46:07Z
score 15.81155