From Pixels to Patterns: Learning the Visual Grammar of Document Layouts

Comprendre el llenguatge visual i estructural dels documents és fonamental per avançar en el camp de la Intel·ligència Artificial Documental. Aquesta tesi parteix de la hipòtesi que l’estructura de pàgina, o layout, funciona com un llenguatge latent: una gramàtica visual que dicta com s’organitza i...

Descripción completa

Detalles Bibliográficos
Autor: Biswas, Sanket
Tipo de recurso: tesis doctoral
Estado:Versión publicada
Fecha de publicación:2025
País:España
Institución:CBUC, CESCA
Repositorio:TDR. Tesis Doctorales en Red
OAI Identifier:oai:www.tdx.cat:10803/695879
Acceso en línea:http://hdl.handle.net/10803/695879
Access Level:acceso abierto
Palabra clave:Visió per Computador
Computer Vision
Visión por Computador
Tecnologies
004
Descripción
Sumario:Comprendre el llenguatge visual i estructural dels documents és fonamental per avançar en el camp de la Intel·ligència Artificial Documental. Aquesta tesi parteix de la hipòtesi que l’estructura de pàgina, o layout, funciona com un llenguatge latent: una gramàtica visual que dicta com s’organitza i interpreta la informació en documents rics en contingut visual. En lloc de seguir els enfocaments tradicionals centrats exclusivament en l’extracció de text mitjançant OCR, aquest treball investiga com integrar la consciència del disseny de pàgina al llarg de tres eixos principals: Interpretació, Representació i Generació. En l’eix d’Interpretació, es proposen arquitectures de segmentació basades en transformers que permeten analitzar documents a nivell d’instància. El model SwinDocSegmenter ofereix una solució robusta per a documents amb estructures complexes, com ara formularis, llibres escanejats o articles científics. Per abordar contextos amb escassetat de dades etiquetades, es presenta l’extensió SemiDocSeg, que incorpora aprenentatge semi-supervisat basat en suports i coocurrència d’estructures per guiar el model. Això permet una generalització eficaç en entorns de baix recursos, com documents històrics o administratius específics. Pel que fa a l’eix de Representació, la tesi investiga com aprendre representacions estructurades dels documents sense dependència de supervisió explícita. SelfDocSeg introdueix un mètode auto-supervisat de tipus contrastiu i basat en visió que utilitza màscares estructurals i reconeixement de patrons visuals per capturar la semàntica del document. En paral·lel, Doc2GraphFormer proposa una representació basada en grafs que modela les relacions espacials i semàntiques entre elements del document. Aquest enfocament agnòstic a la tasca resulta útil per a múltiples aplicacions, des de classificació fins a recuperació d'informació. En l’eix de Generació, es desenvolupa una sèrie de marcs que utilitzen l’estructura de pàgina per condicionar la síntesi i el disseny de documents. DocSynth permet generar imatges de documents amb estructures predefinides. DocSynthv2 utilitza un model autoregressiu per generar documents com a seqüències de tokens de disseny i text, oferint funcionalitats com completat de documents o edició estructurada. Finalment, SketchGPT porta aquests principis al domini gràfic vectorial, aprenent a completar esbossos i reconèixer formes mitjançant una arquitectura inspirada en GPT, i tractant cada traç com una unitat seqüencial. Aquest conjunt de contribucions ofereix una nova visió on el disseny no és un soroll que cal eliminar, sinó una font rica d’informació estructural. Tractar el layout com a llenguatge permet crear sistemes d’IA documental més precisos, interpretables i creatius. Les metodologies proposades han estat validades tant en entorns experimentals com en aplicacions reals, com ara sistemes d’edició documental, cerca intel·ligent o refinament d’OCR. A més, la tesi introdueix nous bancs de proves i protocols d’avaluació per abordar tasques com el raonament multimodal, la generació estructurada o l’avaluació en escenaris de pocs exemples. Això impulsa un replantejament dels criteris d’avaluació habituals i subratlla la importància d’incloure la dimensió estructural en les anàlisis. En resum, aquest treball obre la porta a una nova generació de sistemes que no només llegeixen, sinó que entenen, raonen i generen documents amb consciència plena del seu disseny. Aprendre el llenguatge del layout és un pas essencial per aconseguir una comprensió més profunda i una interacció més rica entre humans i màquines en l’àmbit documental.