Following The Pattern: Scene Text Spotting Guided by Regular Expressions
El reconeixement de text en escena (STR per les seves sigles en anglès) és un subcamp de la visió per computador que s'encarrega de localitzar i reconèixer text en imatges naturals. Degut a la gran quantitat d'informació semàntica que el text pot proporcionar a tasques de més alt nivell, h...
| Autor: | |
|---|---|
| Tipo de recurso: | tesis doctoral |
| Estado: | Versión publicada |
| Fecha de publicación: | 2024 |
| País: | España |
| Institución: | CBUC, CESCA |
| Repositorio: | TDR. Tesis Doctorales en Red |
| OAI Identifier: | oai:www.tdx.cat:10803/692870 |
| Acceso en línea: | http://hdl.handle.net/10803/692870 |
| Access Level: | acceso abierto |
| Palabra clave: | Text en escena Scene-Tex Texto en escena CNN Expressions regulars Regular expressions Expresiones regulares Tecnologies 004 |
| Sumario: | El reconeixement de text en escena (STR per les seves sigles en anglès) és un subcamp de la visió per computador que s'encarrega de localitzar i reconèixer text en imatges naturals. Degut a la gran quantitat d'informació semàntica que el text pot proporcionar a tasques de més alt nivell, ha atret una gran quantitat de recerca, el qual s'ha traduït en grans salts de rendiment. Gran part de l'èxit aconseguit és gràcies als avenços del deep learning (aprenentatge profund), que ha permès ampliar les capacitats dels models d'STR. Tot i això, aquests models enfoquen aquesta tasca des d'un punt de vista totalment genèric, on tot el text es tracta de la mateixa manera i ignorant el context semàntic. En aquesta tesi identifiquem i estudiem dues principals mancances que són fruit d'aquest comportament genèric. La primera és la dependència en el vocabulari après per la part del reconeixement de la xarxa, la qual cosa pot degradar els resultats en paraules o construccions morfològiques que mai s'han vist. La segona té a veure amb la granularitat de la detecció, que definim com els límits que s'estableixen per separar el text en instàncies individuals. La majoria de models estableixen aquest límit a nivell de paraula. Si el nostre objectiu és trobar expressions de text que contenen espais o es troben en diverses línies, un model genèric les separarà en diferents instàncies. Primer, estudiem el fenomen de dependència en el vocabulari creant l'Out-of-Vocabulary (fora de vocabulari) challenge, una nova plataforma d'avaluació de models que pot distingir entre el rendiment en paraules que els models han vist abans i les que no. Fent servir aquesta plataforma, es va organitzar una competició on els participants van haver d'entrenar els seus models tenint en compte que s'avaluarien en fent servir aquesta distinció. L'avaluació del resultat dels participants ens va permetre mesurar l'impacte de memoritzar les paraules del conjunt d'entrenament. Més endavant, introduïm la tasca de Structured Scene-Text Spotting (extracció de text estructurat en escena), una nova tasca on els models han de localitzar el text de la imatge que segueix una regex (expressió regular) concreta. També introduïm un nou conjunt de dades d'avaluació, l’Structured Scene-Text Spotting Test, que conté diverses classes de text que segueixen expressions regulars. Aquest text no pertany a cap vocabulari en concret, pot contenir espais i estar dividit en diferents línies, cosa que ens permet avaluar les dues principals mancances dels models genèrics d’STR. Com a alternativa a aquests models, proposem fer servir aquesta regex directament dins de la xarxa, on es guia el procés de localització cap al text que estem buscant, mentre que la resta és ignorat. Demostrem que els dos models que proposem, l’STEP i l’STEPup, obtenen millors resultats que les xarxes genèriques. |
|---|