Informazio espaziala aztertzen eredu multimodaletan

Atxa Landa, Eneko

Informazio espaziala aztertzen eredu multimodaletan

Lan honetan, irudiak eta testua prozesatzen dituzten transformer multimodalak aztertu dira, irudiak prozesatzeko garaian objektuen posizioa kodetzeko duten eran sakonduz. Ikerketa hori egiteko, objektuen posizioa kodetzeko modu, edo spatial embedding, desberdinak konparatu dira elkarren artean. Oina...

Descripción completa

Detalles Bibliográficos
Autor:	Atxa Landa, Eneko
Tipo de recurso:	tesis de maestría
Fecha de publicación:	2022
País:	España
Institución:	Universidad del País Vasco
Repositorio:	Addi. Archivo Digital para la Docencia y la Investigación
OAI Identifier:	oai:addi.ehu.eus:10810/58980
Acceso en línea:	http://hdl.handle.net/10810/58980
Access Level:	acceso abierto
Palabra clave:	ikaskuntza sakona ataza multimodalak transformerrak ikusmen artifiziala lengoaia naturalen prozesamendua

id	ES_ff07a3473c4cc801830b2928dcce8d8e
oai_identifier_str	oai:addi.ehu.eus:10810/58980
network_acronym_str	ES
network_name_str	España
repository_id_str
spelling	Informazio espaziala aztertzen eredu multimodaletanAtxa Landa, Enekoikaskuntza sakonaataza multimodalaktransformerrakikusmen artifizialalengoaia naturalen prozesamenduaLan honetan, irudiak eta testua prozesatzen dituzten transformer multimodalak aztertu dira, irudiak prozesatzeko garaian objektuen posizioa kodetzeko duten eran sakonduz. Ikerketa hori egiteko, objektuen posizioa kodetzeko modu, edo spatial embedding, desberdinak konparatu dira elkarren artean. Oinarritzat VisualBERT izeneko transformer multimodal bat hartu da, zeinak ez duen spatial embeddingik erabiltzen izatez, eta hainbat embedding inplementatu dira eta elkarren artean konparatu. Visual question answering (VQA) hartu da konparatzeko erabiliko den ataza bezala, zeinetan irudi bat eta honen gaineko galdera bat hartuta galderari erantzun behar zaion. Bertan ikusiko da ea spatial embedding desberdinek nolako eragina duten galderei erantzuterako garaian. VQA v2.0 datu-multzoa erabiliko da probak egiteko hasieran, atazari lotua dagoen datu-multzoa izanik. Ondoren, honen azpimultzo bat egingo da, galdera espazialek soilik osaturiko instantziak hartuz, ikusteko, espezifikoki arrazonamendu espazialean nolako eragina duen. Gainera, beste bi transformer multimodalekin konparatuko da VisualBERT, LxMERT eta ViLTekin, hauek integratzen dituztelako spatial embeddingak hasieratik, eta beraz, ondorioak ateratzen lagundu dezakeelako konparaketa honek. Esperimentazio eta konparaketaren ondoren, hainbat ondorio aterako dira: lehenik, ikusiko da, spatial embeddingek ez dutela diferentziarik suposatzen VQA atazan VisualBERT erabiltzerakoan. Gainera, honen arrazoia, ziurrenik, sareen aurre-entrenamendua dela argudiatuko da, informazio espaziala erabiltzen ikasteko fine-tuning fasea nahikoa ez dela ondorioztatuz. Horiek horrela, etorkizunerako hainbat ikerketa proposamen egingo dira, spatial embeddingak hobeto erabiltzen ikasteko helburuarekin.Azkune Galparsoro, GorkaSalaberria Saizar, AnderMáster Universitario en Ingeniería Computacional y Sistemas InteligentesKonputazio Ingeniaritza eta Sistema Adimentsuak Unibertsitate MasterraMáster Universitario en Ingeniería Computacional y Sistemas InteligentesKonputazio Ingeniaritza eta Sistema Adimentsuak Unibertsitate Masterra2022202220222022info:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10810/58980reponame:Addi. Archivo Digital para la Docencia y la Investigacióninstname:Universidad del País VascoEuskeraEspañolinfo:eu-repo/semantics/openAccess© 2022, el autoroai:addi.ehu.eus:10810/589802026-06-18T09:23:17Z
dc.title.none.fl_str_mv	Informazio espaziala aztertzen eredu multimodaletan
title	Informazio espaziala aztertzen eredu multimodaletan
spellingShingle	Informazio espaziala aztertzen eredu multimodaletan Atxa Landa, Eneko ikaskuntza sakona ataza multimodalak transformerrak ikusmen artifiziala lengoaia naturalen prozesamendua
title_short	Informazio espaziala aztertzen eredu multimodaletan
title_full	Informazio espaziala aztertzen eredu multimodaletan
title_fullStr	Informazio espaziala aztertzen eredu multimodaletan
title_full_unstemmed	Informazio espaziala aztertzen eredu multimodaletan
title_sort	Informazio espaziala aztertzen eredu multimodaletan
dc.creator.none.fl_str_mv	Atxa Landa, Eneko
author	Atxa Landa, Eneko
author_facet	Atxa Landa, Eneko
author_role	author
dc.contributor.none.fl_str_mv	Azkune Galparsoro, Gorka Salaberria Saizar, Ander Máster Universitario en Ingeniería Computacional y Sistemas Inteligentes Konputazio Ingeniaritza eta Sistema Adimentsuak Unibertsitate Masterra Máster Universitario en Ingeniería Computacional y Sistemas Inteligentes Konputazio Ingeniaritza eta Sistema Adimentsuak Unibertsitate Masterra
dc.subject.none.fl_str_mv	ikaskuntza sakona ataza multimodalak transformerrak ikusmen artifiziala lengoaia naturalen prozesamendua
topic	ikaskuntza sakona ataza multimodalak transformerrak ikusmen artifiziala lengoaia naturalen prozesamendua
description	Lan honetan, irudiak eta testua prozesatzen dituzten transformer multimodalak aztertu dira, irudiak prozesatzeko garaian objektuen posizioa kodetzeko duten eran sakonduz. Ikerketa hori egiteko, objektuen posizioa kodetzeko modu, edo spatial embedding, desberdinak konparatu dira elkarren artean. Oinarritzat VisualBERT izeneko transformer multimodal bat hartu da, zeinak ez duen spatial embeddingik erabiltzen izatez, eta hainbat embedding inplementatu dira eta elkarren artean konparatu. Visual question answering (VQA) hartu da konparatzeko erabiliko den ataza bezala, zeinetan irudi bat eta honen gaineko galdera bat hartuta galderari erantzun behar zaion. Bertan ikusiko da ea spatial embedding desberdinek nolako eragina duten galderei erantzuterako garaian. VQA v2.0 datu-multzoa erabiliko da probak egiteko hasieran, atazari lotua dagoen datu-multzoa izanik. Ondoren, honen azpimultzo bat egingo da, galdera espazialek soilik osaturiko instantziak hartuz, ikusteko, espezifikoki arrazonamendu espazialean nolako eragina duen. Gainera, beste bi transformer multimodalekin konparatuko da VisualBERT, LxMERT eta ViLTekin, hauek integratzen dituztelako spatial embeddingak hasieratik, eta beraz, ondorioak ateratzen lagundu dezakeelako konparaketa honek. Esperimentazio eta konparaketaren ondoren, hainbat ondorio aterako dira: lehenik, ikusiko da, spatial embeddingek ez dutela diferentziarik suposatzen VQA atazan VisualBERT erabiltzerakoan. Gainera, honen arrazoia, ziurrenik, sareen aurre-entrenamendua dela argudiatuko da, informazio espaziala erabiltzen ikasteko fine-tuning fasea nahikoa ez dela ondorioztatuz. Horiek horrela, etorkizunerako hainbat ikerketa proposamen egingo dira, spatial embeddingak hobeto erabiltzen ikasteko helburuarekin.
publishDate	2022
dc.date.none.fl_str_mv	2022 2022 2022 2022
dc.type.none.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
dc.identifier.none.fl_str_mv	http://hdl.handle.net/10810/58980
url	http://hdl.handle.net/10810/58980
dc.language.none.fl_str_mv	Euskera Español
language_invalid_str_mv	Euskera Español
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess © 2022, el autor
eu_rights_str_mv	openAccess
rights_invalid_str_mv	© 2022, el autor
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Addi. Archivo Digital para la Docencia y la Investigación instname:Universidad del País Vasco
instname_str	Universidad del País Vasco
reponame_str	Addi. Archivo Digital para la Docencia y la Investigación
collection	Addi. Archivo Digital para la Docencia y la Investigación
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_	1869425737945055232
score	15,300724

Informazio espaziala aztertzen eredu multimodaletan

Similares en LA Referencia