Following The Pattern: Scene Text Spotting Guided by Regular Expressions

El reconeixement de text en escena (STR per les seves sigles en anglès) és un subcamp de la visió per computador que s'encarrega de localitzar i reconèixer text en imatges naturals. Degut a la gran quantitat d'informació semàntica que el text pot proporcionar a tasques de més alt nivell, h...

Descripción completa

Detalles Bibliográficos
Autor: Garcia Bordils, Sergi
Tipo de recurso: tesis doctoral
Estado:Versión publicada
Fecha de publicación:2024
País:España
Institución:CBUC, CESCA
Repositorio:TDR. Tesis Doctorales en Red
OAI Identifier:oai:www.tdx.cat:10803/692870
Acceso en línea:http://hdl.handle.net/10803/692870
Access Level:acceso abierto
Palabra clave:Text en escena
Scene-Tex
Texto en escena
CNN
Expressions regulars
Regular expressions
Expresiones regulares
Tecnologies
004
Descripción
Sumario:El reconeixement de text en escena (STR per les seves sigles en anglès) és un subcamp de la visió per computador que s'encarrega de localitzar i reconèixer text en imatges naturals. Degut a la gran quantitat d'informació semàntica que el text pot proporcionar a tasques de més alt nivell, ha atret una gran quantitat de recerca, el qual s'ha traduït en grans salts de rendiment. Gran part de l'èxit aconseguit és gràcies als avenços del deep learning (aprenentatge profund), que ha permès ampliar les capacitats dels models d'STR. Tot i això, aquests models enfoquen aquesta tasca des d'un punt de vista totalment genèric, on tot el text es tracta de la mateixa manera i ignorant el context semàntic. En aquesta tesi identifiquem i estudiem dues principals mancances que són fruit d'aquest comportament genèric. La primera és la dependència en el vocabulari après per la part del reconeixement de la xarxa, la qual cosa pot degradar els resultats en paraules o construccions morfològiques que mai s'han vist. La segona té a veure amb la granularitat de la detecció, que definim com els límits que s'estableixen per separar el text en instàncies individuals. La majoria de models estableixen aquest límit a nivell de paraula. Si el nostre objectiu és trobar expressions de text que contenen espais o es troben en diverses línies, un model genèric les separarà en diferents instàncies. Primer, estudiem el fenomen de dependència en el vocabulari creant l'Out-of-Vocabulary (fora de vocabulari) challenge, una nova plataforma d'avaluació de models que pot distingir entre el rendiment en paraules que els models han vist abans i les que no. Fent servir aquesta plataforma, es va organitzar una competició on els participants van haver d'entrenar els seus models tenint en compte que s'avaluarien en fent servir aquesta distinció. L'avaluació del resultat dels participants ens va permetre mesurar l'impacte de memoritzar les paraules del conjunt d'entrenament. Més endavant, introduïm la tasca de Structured Scene-Text Spotting (extracció de text estructurat en escena), una nova tasca on els models han de localitzar el text de la imatge que segueix una regex (expressió regular) concreta. També introduïm un nou conjunt de dades d'avaluació, l’Structured Scene-Text Spotting Test, que conté diverses classes de text que segueixen expressions regulars. Aquest text no pertany a cap vocabulari en concret, pot contenir espais i estar dividit en diferents línies, cosa que ens permet avaluar les dues principals mancances dels models genèrics d’STR. Com a alternativa a aquests models, proposem fer servir aquesta regex directament dins de la xarxa, on es guia el procés de localització cap al text que estem buscant, mentre que la resta és ignorat. Demostrem que els dos models que proposem, l’STEP i l’STEPup, obtenen millors resultats que les xarxes genèriques.