Document Image Enhancement and Recognition in Low Resource Scenarios
En aquesta tesi proposem diferents contribucions per tal de millorar i reconèixer imatges de documents manuscrits històrics, especialment aquells amb escriptures rares, com els documents xifrats. A la primera part es presenten alguns models efectius d'extrem a extrem per millorar imatges de doc...
| Autor: | |
|---|---|
| Tipo de recurso: | tesis doctoral |
| Fecha de publicación: | 2022 |
| País: | España |
| Institución: | Universitat Autònoma de Barcelona |
| Repositorio: | Dipòsit Digital de Documents de la UAB |
| Idioma: | inglés |
| OAI Identifier: | oai:ddd.uab.cat:275012 |
| Acceso en línea: | https://ddd.uab.cat/record/275012 |
| Access Level: | acceso abierto |
| Palabra clave: | Anàlisi de documents històrics Análisis de documentos históricos Historical document analysis Millora d'imatges Mejora de imágenes Document image enhancement Reconeixement de text manuscrit Reconocimiento de texto manuscrito Handwritten text recognition Ciències Socials |
| Sumario: | En aquesta tesi proposem diferents contribucions per tal de millorar i reconèixer imatges de documents manuscrits històrics, especialment aquells amb escriptures rares, com els documents xifrats. A la primera part es presenten alguns models efectius d'extrem a extrem per millorar imatges de documents utilitzant models d'aprenentatge profund. En primer lloc, s'exploren xarxes adversàries generatives (cGAN) per a diferents tasques (neteja de documents, binarització, desenfocament i eliminació de marques d'aigua). A continuació, millorem els resultats recuperant les imatges de documents degradats en un format llegible mitjançant la integració d'un reconeixedor de text al model cGAN. Posteriorment, presentem una nova arquitectura de codificador-decodificador basada en transformers per millorar les imatges de documents impresos i manuscrits, de manera integral. La segona part de la tesi aborda el reconeixement de text manuscrit (HTR) en escenaris de baixos recursos, és a dir, quan només hi ha disponibles poques dades etiquetades d'entrenament. Proposem mètodes nous per reconèixer documents xifrats amb alfabets rars. En primer lloc, es proposa un mètode basat en mètodes de poques dades (few-shot) per detectar objectes. Després, incorporem una estratègia d'aprenentatge progressiu que assigna automàticament pseudoetiquetes a un conjunt de dades sense etiquetar per reduir el treball humà d'anotar algunes pàgines mentre es manté el bon rendiment del model. En segon lloc, es proposa una tècnica de generació de dades basada en l'aprenentatge de programes bayesians (BPL) per superar la manca de dades en alfabets rars. En tercer lloc, proposem un autoencoder invariable a la degradació de text. Aquest darrer model autosupervisat està dissenyat per abordar dues tasques, el reconeixement de text i la millora de la imatge del document. El model proposat no presenta les limitacions dels mètodes anteriors basats en contrastive losses, mentre que alhora requereix \textit{substancialment} menys mostres de dades per convergir. A la tercera part de la tesi analitzem, des de la perspectiva de l'usuari, l'ús de sistemes HTR a escenaris de baixos recursos. Això contrasta amb la investigació habitual sobre HTR, que sovint se centra només en aspectes tècnics i poques vegades dedica esforços a implementar eines de programari per a acadèmics en Humanitats. |
|---|