Document Image Enhancement and Recognition in Low Resource Scenarios

En aquesta tesi proposem diferents contribucions per tal de millorar i reconèixer imatges de documents manuscrits històrics, especialment aquells amb escriptures rares, com els documents xifrats. A la primera part es presenten alguns models efectius d'extrem a extrem per millorar imatges de doc...

Descripción completa

Detalles Bibliográficos
Autor: Souibgui, Mohamed Ali
Tipo de recurso: tesis doctoral
Fecha de publicación:2022
País:España
Institución:Universitat Autònoma de Barcelona
Repositorio:Dipòsit Digital de Documents de la UAB
Idioma:inglés
OAI Identifier:oai:ddd.uab.cat:275012
Acceso en línea:https://ddd.uab.cat/record/275012
Access Level:acceso abierto
Palabra clave:Anàlisi de documents històrics
Análisis de documentos históricos
Historical document analysis
Millora d'imatges
Mejora de imágenes
Document image enhancement
Reconeixement de text manuscrit
Reconocimiento de texto manuscrito
Handwritten text recognition
Ciències Socials
Descripción
Sumario:En aquesta tesi proposem diferents contribucions per tal de millorar i reconèixer imatges de documents manuscrits històrics, especialment aquells amb escriptures rares, com els documents xifrats. A la primera part es presenten alguns models efectius d'extrem a extrem per millorar imatges de documents utilitzant models d'aprenentatge profund. En primer lloc, s'exploren xarxes adversàries generatives (cGAN) per a diferents tasques (neteja de documents, binarització, desenfocament i eliminació de marques d'aigua). A continuació, millorem els resultats recuperant les imatges de documents degradats en un format llegible mitjançant la integració d'un reconeixedor de text al model cGAN. Posteriorment, presentem una nova arquitectura de codificador-decodificador basada en transformers per millorar les imatges de documents impresos i manuscrits, de manera integral. La segona part de la tesi aborda el reconeixement de text manuscrit (HTR) en escenaris de baixos recursos, és a dir, quan només hi ha disponibles poques dades etiquetades d'entrenament. Proposem mètodes nous per reconèixer documents xifrats amb alfabets rars. En primer lloc, es proposa un mètode basat en mètodes de poques dades (few-shot) per detectar objectes. Després, incorporem una estratègia d'aprenentatge progressiu que assigna automàticament pseudoetiquetes a un conjunt de dades sense etiquetar per reduir el treball humà d'anotar algunes pàgines mentre es manté el bon rendiment del model. En segon lloc, es proposa una tècnica de generació de dades basada en l'aprenentatge de programes bayesians (BPL) per superar la manca de dades en alfabets rars. En tercer lloc, proposem un autoencoder invariable a la degradació de text. Aquest darrer model autosupervisat està dissenyat per abordar dues tasques, el reconeixement de text i la millora de la imatge del document. El model proposat no presenta les limitacions dels mètodes anteriors basats en contrastive losses, mentre que alhora requereix \textit{substancialment} menys mostres de dades per convergir. A la tercera part de la tesi analitzem, des de la perspectiva de l'usuari, l'ús de sistemes HTR a escenaris de baixos recursos. Això contrasta amb la investigació habitual sobre HTR, que sovint se centra només en aspectes tècnics i poques vegades dedica esforços a implementar eines de programari per a acadèmics en Humanitats.