A Bitter-Sweet Symphony on Vision and Language
La visió i el llenguatge són àmpliament considerats com a pedres angulars de la intel·ligència. Tot i que el llenguatge i la visió tenen objectius diferents: el llenguatge té el propòsit de la comunicació, la transmissió d'informació i la visió té el propòsit de construir representacions mental...
| Author: | |
|---|---|
| Format: | doctoral thesis |
| Publication Date: | 2022 |
| Country: | España |
| Institution: | Universitat Autònoma de Barcelona |
| Repository: | Dipòsit Digital de Documents de la UAB |
| Language: | English |
| OAI Identifier: | oai:ddd.uab.cat:274991 |
| Online Access: | https://ddd.uab.cat/record/274991 |
| Access Level: | Open access |
| Keyword: | Visió i llenguatge Visión y lenguaje Vision and language Subtítols d'imatges Subtítulos de imagen Image captioning Text de l'escena pregunta visual resposta Escena texto visual pregunta respuesta Scene text visual question answering Ciències Experimentals |
| Summary: | La visió i el llenguatge són àmpliament considerats com a pedres angulars de la intel·ligència. Tot i que el llenguatge i la visió tenen objectius diferents: el llenguatge té el propòsit de la comunicació, la transmissió d'informació i la visió té el propòsit de construir representacions mentals al nostre voltant per navegar i interactuar amb els objectes, interactuen i depenen els uns dels altres en moltes tasques que fem sense esforç. . Aquesta dependència està estudiant activament en diverses tasques de Computer Vision, p. subtítols d'imatges, resposta visual a preguntes, recuperació d'oracions amb imatges, posada a terra de frases, només per nomenar-ne alguns. Totes aquestes tasques comparteixen la dificultat inherent d'alinear les dues modalitats, alhora que són robustes als llenguatges previs i diversos biaixos existents als conjunts de dades. L'objectiu final de la investigació de la visió i el llenguatge és poder injectar coneixement del món mentre s'eliminen els biaixos que vénen amb els conjunts de dades. En aquesta tesi, ens centrem principalment en dues tasques de visió i llenguatge, és a dir, subtítols d'imatge i resposta visual a preguntes de text d'escena (STVQA). En tots dos dominis, comencem definint una nova tasca que requereix la utilització del coneixement mundial i en ambdues tasques trobem que els models comunament emprats són propensos als biaixos que hi ha a les dades. Concretament, presentem noves tasques i descobrim diversos problemes que impedeixen l'exercici a cada nivell i proporcionem remeis o possibles solucions a cada capítol: i) Definim una nova tasca per anar més enllà del subtitulat d'imatges a la interpretació d'imatges que pot utilitzar entitats anomenades en forma de coneixement del món. ii) Estudiem el problema de l'al·lucinació d'objectes als sistemes clàssics de subtítols d'imatges i desenvolupem una solució independent de l'arquitectura. iii) Definim una subtasca de Visual Question Answering que requereix llegir el text de la imatge (STVQA), on destaquem les limitacions dels models actuals. iv) Proposem una arquitectura per a la tasca STVQA que pot apuntar a la resposta a la imatge i mostrar com combinar-la amb els models clàssics de VQA. v) Mostrem fins on ens pot portar el llenguatge a STVQA i descobrim un altre biaix més que fa que els models ignorin la imatge mentre realitzen la Resposta Visual a Preguntes. |
|---|