Exploring the role of Text in Visual Question Answering on Natural Scenes and Documents

Visual Question Answering (VQA) és la tasca on donada una imatge i una pregunta en llenguatge natural, l'objectiu és generar una resposta en llenguatge natural. En la intersecció entre la visió per computador i el processament del llenguatge natural, aquesta tasca es pot veure com una mesura de...

Descripción completa

Detalles Bibliográficos
Autor: Pérez Tito, Rubèn
Tipo de recurso: tesis doctoral
Fecha de publicación:2023
País:España
Institución:Universitat Autònoma de Barcelona
Repositorio:Dipòsit Digital de Documents de la UAB
Idioma:inglés
OAI Identifier:oai:ddd.uab.cat:293312
Acceso en línea:https://ddd.uab.cat/record/293312
Access Level:acceso abierto
Palabra clave:Visió i Llenguatge
Vision and Language
Visión y Lenguaje
Visió per Computador
Computer Vision
Visión por Computador
Resposta de preguntes imatges
Visual question answering
Respuesta de preguntas imagene
Tecnologies
Descripción
Sumario:Visual Question Answering (VQA) és la tasca on donada una imatge i una pregunta en llenguatge natural, l'objectiu és generar una resposta en llenguatge natural. En la intersecció entre la visió per computador i el processament del llenguatge natural, aquesta tasca es pot veure com una mesura de les capacitats de comprensió de les imatges, ja que requereix raonar sobre objectes, accions, colors, posicions, les relacions entre els diferents elements, així com emprar el sentit comú, coneixements globals, habilitats aritmètiques i comprensió del llenguatge natural. No obstant, tot i que el text present a les imatges conté informació semànticament important que és explícita i no disponible de cap altra forma, la majoria dels mètodes VQA són analfabets, ignorant en gran part el text de les imatges malgrat la seva potencial importància. En aquesta tesi, iniciem un viatge per aconseguir aportar capacitats de lectura als models de visió per computador aplicats a la tasca VQA, creant nous conjunts de dades i mètodes que puguin llegir, raonar i integrar el text amb altres indicis visuals en imatges d'escenes naturals i documents. Al Capítol 3, adrecem el problema de com combinar el text en escenes naturals amb la informació visual per entendre completament tots els matisos de les imatges. Per a això, definim una nova subtasca de VQA que requereix llegir el text de la imatge, destacant les limitacions dels mètodes actuals i, en conseqüència, proposem una nova arquitectura que pot raonar sobre ambdues modalitats. Al Capítol 5, canviem el domini de VQA amb capacitats de lectura i l'apliquem en imatges de documents escanejats, proporcionant una perspectiva final d'alt nivell al camp dedicat a intel·ligència sobre documents, els quals s'ha centrat principalment a digitalitzar el contingut d'aquests documents i extreure valors clau sense tenir en compte la finalitat per a la qual s'extreia la informació. Per a això, creem un conjunt de dades que requereix que els mètodes raonin sobre els elements únics que es poden trobar en documents, com ara text, taules, figures o gràfics disposats en complexos dissenys, per a aconseguir proporcionar respostes precises en llenguatge natural. No obstant això, vam observar que les característiques visuals explícites aporten una lleugera contribució al rendiment total, ja que la informació es troba principalment al mateix text i en la seva posició. En conseqüència, al Capítol 6, proposem aplicar VQA sobre imatges infogràfiques, buscant imatges de documents amb elements visualment més rics que requereixin explotar al màxim la informació visual per respondre les preguntes. En aquest capítol mostrem la diferència de rendiment de diferents mètodes quan s'utilitzen sobre imatges de documents escanejats o sobre imatges infogràfiques, i proposem un nou mètode que integra les característiques visuals en les primeres etapes, el qual permet que l'arquitectura del model exploti les característiques visuals durant l'operació d'autoatenció. En canvi, al Capítol 7, apliquem VQA a una gran col·lecció de documents d'una sola pàgina, on els mètodes han de trobar quins documents són rellevants per respondre la pregunta i proporcionar la resposta en si. Finalment, al Capítol 8, imitant els escenaris reals on els sistemes han de processar documents amb diverses pàgines, proposem utilitzar documents multipàgina per a VQA mostrant les limitacions dels mètodes ja existents. A més, proposem una arquitectura jeràrquica que pot processar documents llargs, respondre les preguntes plantejades i proporcionar l'índex de la pàgina on es troba la informació per respondre la pregunta com a mesura d'explicabilitat.