Informazio espaziala aztertzen eredu multimodaletan
Lan honetan, irudiak eta testua prozesatzen dituzten transformer multimodalak aztertu dira, irudiak prozesatzeko garaian objektuen posizioa kodetzeko duten eran sakonduz. Ikerketa hori egiteko, objektuen posizioa kodetzeko modu, edo spatial embedding, desberdinak konparatu dira elkarren artean. Oina...
| Autor: | |
|---|---|
| Tipo de recurso: | tesis de maestría |
| Fecha de publicación: | 2022 |
| País: | España |
| Institución: | Universidad del País Vasco |
| Repositorio: | Addi. Archivo Digital para la Docencia y la Investigación |
| OAI Identifier: | oai:addi.ehu.eus:10810/58980 |
| Acceso en línea: | http://hdl.handle.net/10810/58980 |
| Access Level: | acceso abierto |
| Palabra clave: | ikaskuntza sakona ataza multimodalak transformerrak ikusmen artifiziala lengoaia naturalen prozesamendua |
| id |
ES_ff07a3473c4cc801830b2928dcce8d8e |
|---|---|
| oai_identifier_str |
oai:addi.ehu.eus:10810/58980 |
| network_acronym_str |
ES |
| network_name_str |
España |
| repository_id_str |
|
| spelling |
Informazio espaziala aztertzen eredu multimodaletanAtxa Landa, Enekoikaskuntza sakonaataza multimodalaktransformerrakikusmen artifizialalengoaia naturalen prozesamenduaLan honetan, irudiak eta testua prozesatzen dituzten transformer multimodalak aztertu dira, irudiak prozesatzeko garaian objektuen posizioa kodetzeko duten eran sakonduz. Ikerketa hori egiteko, objektuen posizioa kodetzeko modu, edo spatial embedding, desberdinak konparatu dira elkarren artean. Oinarritzat VisualBERT izeneko transformer multimodal bat hartu da, zeinak ez duen spatial embeddingik erabiltzen izatez, eta hainbat embedding inplementatu dira eta elkarren artean konparatu. Visual question answering (VQA) hartu da konparatzeko erabiliko den ataza bezala, zeinetan irudi bat eta honen gaineko galdera bat hartuta galderari erantzun behar zaion. Bertan ikusiko da ea spatial embedding desberdinek nolako eragina duten galderei erantzuterako garaian. VQA v2.0 datu-multzoa erabiliko da probak egiteko hasieran, atazari lotua dagoen datu-multzoa izanik. Ondoren, honen azpimultzo bat egingo da, galdera espazialek soilik osaturiko instantziak hartuz, ikusteko, espezifikoki arrazonamendu espazialean nolako eragina duen. Gainera, beste bi transformer multimodalekin konparatuko da VisualBERT, LxMERT eta ViLTekin, hauek integratzen dituztelako spatial embeddingak hasieratik, eta beraz, ondorioak ateratzen lagundu dezakeelako konparaketa honek. Esperimentazio eta konparaketaren ondoren, hainbat ondorio aterako dira: lehenik, ikusiko da, spatial embeddingek ez dutela diferentziarik suposatzen VQA atazan VisualBERT erabiltzerakoan. Gainera, honen arrazoia, ziurrenik, sareen aurre-entrenamendua dela argudiatuko da, informazio espaziala erabiltzen ikasteko fine-tuning fasea nahikoa ez dela ondorioztatuz. Horiek horrela, etorkizunerako hainbat ikerketa proposamen egingo dira, spatial embeddingak hobeto erabiltzen ikasteko helburuarekin.Azkune Galparsoro, GorkaSalaberria Saizar, AnderMáster Universitario en Ingeniería Computacional y Sistemas InteligentesKonputazio Ingeniaritza eta Sistema Adimentsuak Unibertsitate MasterraMáster Universitario en Ingeniería Computacional y Sistemas InteligentesKonputazio Ingeniaritza eta Sistema Adimentsuak Unibertsitate Masterra2022202220222022info:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10810/58980reponame:Addi. Archivo Digital para la Docencia y la Investigacióninstname:Universidad del País VascoEuskeraEspañolinfo:eu-repo/semantics/openAccess© 2022, el autoroai:addi.ehu.eus:10810/589802026-06-18T09:23:17Z |
| dc.title.none.fl_str_mv |
Informazio espaziala aztertzen eredu multimodaletan |
| title |
Informazio espaziala aztertzen eredu multimodaletan |
| spellingShingle |
Informazio espaziala aztertzen eredu multimodaletan Atxa Landa, Eneko ikaskuntza sakona ataza multimodalak transformerrak ikusmen artifiziala lengoaia naturalen prozesamendua |
| title_short |
Informazio espaziala aztertzen eredu multimodaletan |
| title_full |
Informazio espaziala aztertzen eredu multimodaletan |
| title_fullStr |
Informazio espaziala aztertzen eredu multimodaletan |
| title_full_unstemmed |
Informazio espaziala aztertzen eredu multimodaletan |
| title_sort |
Informazio espaziala aztertzen eredu multimodaletan |
| dc.creator.none.fl_str_mv |
Atxa Landa, Eneko |
| author |
Atxa Landa, Eneko |
| author_facet |
Atxa Landa, Eneko |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Azkune Galparsoro, Gorka Salaberria Saizar, Ander Máster Universitario en Ingeniería Computacional y Sistemas Inteligentes Konputazio Ingeniaritza eta Sistema Adimentsuak Unibertsitate Masterra Máster Universitario en Ingeniería Computacional y Sistemas Inteligentes Konputazio Ingeniaritza eta Sistema Adimentsuak Unibertsitate Masterra |
| dc.subject.none.fl_str_mv |
ikaskuntza sakona ataza multimodalak transformerrak ikusmen artifiziala lengoaia naturalen prozesamendua |
| topic |
ikaskuntza sakona ataza multimodalak transformerrak ikusmen artifiziala lengoaia naturalen prozesamendua |
| description |
Lan honetan, irudiak eta testua prozesatzen dituzten transformer multimodalak aztertu dira, irudiak prozesatzeko garaian objektuen posizioa kodetzeko duten eran sakonduz. Ikerketa hori egiteko, objektuen posizioa kodetzeko modu, edo spatial embedding, desberdinak konparatu dira elkarren artean. Oinarritzat VisualBERT izeneko transformer multimodal bat hartu da, zeinak ez duen spatial embeddingik erabiltzen izatez, eta hainbat embedding inplementatu dira eta elkarren artean konparatu. Visual question answering (VQA) hartu da konparatzeko erabiliko den ataza bezala, zeinetan irudi bat eta honen gaineko galdera bat hartuta galderari erantzun behar zaion. Bertan ikusiko da ea spatial embedding desberdinek nolako eragina duten galderei erantzuterako garaian. VQA v2.0 datu-multzoa erabiliko da probak egiteko hasieran, atazari lotua dagoen datu-multzoa izanik. Ondoren, honen azpimultzo bat egingo da, galdera espazialek soilik osaturiko instantziak hartuz, ikusteko, espezifikoki arrazonamendu espazialean nolako eragina duen. Gainera, beste bi transformer multimodalekin konparatuko da VisualBERT, LxMERT eta ViLTekin, hauek integratzen dituztelako spatial embeddingak hasieratik, eta beraz, ondorioak ateratzen lagundu dezakeelako konparaketa honek. Esperimentazio eta konparaketaren ondoren, hainbat ondorio aterako dira: lehenik, ikusiko da, spatial embeddingek ez dutela diferentziarik suposatzen VQA atazan VisualBERT erabiltzerakoan. Gainera, honen arrazoia, ziurrenik, sareen aurre-entrenamendua dela argudiatuko da, informazio espaziala erabiltzen ikasteko fine-tuning fasea nahikoa ez dela ondorioztatuz. Horiek horrela, etorkizunerako hainbat ikerketa proposamen egingo dira, spatial embeddingak hobeto erabiltzen ikasteko helburuarekin. |
| publishDate |
2022 |
| dc.date.none.fl_str_mv |
2022 2022 2022 2022 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| dc.identifier.none.fl_str_mv |
http://hdl.handle.net/10810/58980 |
| url |
http://hdl.handle.net/10810/58980 |
| dc.language.none.fl_str_mv |
Euskera Español |
| language_invalid_str_mv |
Euskera Español |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess © 2022, el autor |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
© 2022, el autor |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Addi. Archivo Digital para la Docencia y la Investigación instname:Universidad del País Vasco |
| instname_str |
Universidad del País Vasco |
| reponame_str |
Addi. Archivo Digital para la Docencia y la Investigación |
| collection |
Addi. Archivo Digital para la Docencia y la Investigación |
| repository.name.fl_str_mv |
|
| repository.mail.fl_str_mv |
|
| _version_ |
1869425737945055232 |
| score |
15,300724 |