Monocular Depth Estimation for Autonomous Driving

La informació geomètrica 3D és essencial per percebre l'entorn des d'un vehicle autònom (VA) o assistit. Per això, estan equipats amb sensors calibrats. Podem trobar sensors LiDAR que proporcionen aquesta informació 3D, encara que són relativament costosos. Depenent de les condicions opera...

Descripción completa

Detalles Bibliográficos
Autor: Gurram, Akhil|||0000-0002-2544-1510
Tipo de recurso: tesis doctoral
Fecha de publicación:2022
País:España
Institución:Universitat Autònoma de Barcelona
Repositorio:Dipòsit Digital de Documents de la UAB
Idioma:inglés
OAI Identifier:oai:ddd.uab.cat:265970
Acceso en línea:https://ddd.uab.cat/record/265970
Access Level:acceso abierto
Palabra clave:Aprenentatge màquina profund
Aprendizaje máquina profundo
Deep learning
Estimació monocular de profunditat
Estimación monocular de profundidad
Monocular depth estimation
Conducció autònoma
Conducción autónoma
Autonomous driving
Tecnologies
Descripción
Sumario:La informació geomètrica 3D és essencial per percebre l'entorn des d'un vehicle autònom (VA) o assistit. Per això, estan equipats amb sensors calibrats. Podem trobar sensors LiDAR que proporcionen aquesta informació 3D, encara que són relativament costosos. Depenent de les condicions operatives del VA, els sistemes estereoscòpics també poden ser suficients per obtenir informació 3D, i són sistemes més barats i fàcils d'instal·lar. Tot i així, assegurar un correcte manteniment i calibratge d'aquest tipus de sensors no és trivial. En conseqüència, hi ha un interès creixent a fer una estimació monocular de la profunditat (EMP) per obtenir informació 3D. L'EMP permet que l'aparença visual i el 3D es corresponguin a nivell de píxel sense un calibratge addicional. Un conjunt de càmeres individuals amb capacitat d'EMP seria una solució barata per a la percepció des d'un VA, relativament fàcil d'integrar i mantenir. Els millors models EMP es basen en xarxes neuronals convolucionals entrenades de manera supervisada. En conseqüència, l'objectiu general d'aquesta tesi doctoral és estudiar mètodes per millorar la precisió d'aquests models en diferents circumstàncies pràctiques que trobem en l'entrenament. Més concretament, aquesta tesi aborda les diferents qüestions que es descriuen a continuació. A l'inici d'aquesta tesi, una línia de treball prometedora per entrenar models d'EMP consistia a utilitzar la supervisió semàntica basada en imatges i la supervisió de profunditat basada en LiDAR. Se suposava que les mateixes dades d'entrenament tenien tots dos tipus de supervisió associada, és a dir, meta-informació de profunditat i semàntica. No obstant això, a la pràctica, era més comú trobar conjunts de dades amb només supervisió de profunditat o només semàntica. Per tant, el nostre primer treball va ser investigar si podíem entrenar models d'EMP aprofitant informació de profunditat i semàntica provinent de conjunts de dades diferents i heterogenis. Demostrem que això és possible, i superem els resultats d'avantguarda a l'EMP d'aquell moment. Per això, vam proposar un nou protocol d'entrenament per als models EMP. Aquesta investigació també va deixar clar que la supervisió basada en LiDAR és la que dóna lloc a models més precisos d'EMP. Tot i això, seria més barat i escalable si poguéssim entrenar aquests models a partir de seqüències monoculars. Això és molt més complex ja que requereix utilitzar els principis que permeten inferir estructura a partir del moviment (SfM en anglès), generant així auto-supervisió. No obstant això, molts problemes pràctics disminueixen la utilitat d'aquest tipus d'auto-supervisió. Per alleujar aquests problemes entrenem models d'EMP mitjançant la supervisió d'imatges virtuals amb informació de profunditat associada i auto-supervisió via SfM de seqüències monoculars reals. Anomenem la nostra proposta com MonoDEVSNet <https://github.com/HMRC-AEL/MonoDEVSNet>. MonoDEVSNet va superar la precisió d'altres models d'avantguarda també entrenats en seqüències monoculars i, fins i tot, estèreo. Finalment, atès que l'EMP s'aplica per obtenir 3D que serà utilitzat en tasques posteriors de percepció, també abordem la qüestió de si les mètriques estàndard per a l'avaluació de models EMP són realment un bon indicador per a aquestes tasques futures. Utilitzant la detecció d'objectes en núvols de punts 3D com a exemple de percepció, arribem a la conclusió que, de fet, les mètriques d'avaluació d'EMP donen lloc a una classificació de mètodes que reflecteix relativament els resultats esperables en detecció 3D d'objectes.