Advancing Vision-based End-to-End Autonomous Driving
En conducció autònoma, una intel·ligència artificial (IA) processa l'entorn per conduir el vehicle a la destinació desitjada. Actualment, hi ha diferents paradigmes que aborden el desenvolupament de conductors dotats d'IA. D'una banda, trobem sistemes modulars, que divideixen la tasca...
| Autor: | |
|---|---|
| Tipo de recurso: | tesis doctoral |
| Estado: | Versión publicada |
| Fecha de publicación: | 2023 |
| País: | España |
| Institución: | CBUC, CESCA |
| Repositorio: | TDR. Tesis Doctorales en Red |
| OAI Identifier: | oai:www.tdx.cat:10803/690948 |
| Acceso en línea: | http://hdl.handle.net/10803/690948 |
| Access Level: | acceso abierto |
| Palabra clave: | Conducció autònoma Autonomous driving Conducción autónoma Tecnologies 004 |
| Sumario: | En conducció autònoma, una intel·ligència artificial (IA) processa l'entorn per conduir el vehicle a la destinació desitjada. Actualment, hi ha diferents paradigmes que aborden el desenvolupament de conductors dotats d'IA. D'una banda, trobem sistemes modulars, que divideixen la tasca de conducció en sub-tasques com ara la percepció i la planificació i control de maniobres. D'altra banda, trobem enfocaments de conducció extrema-a-extrem que intenten aprendre un mapeig directe de les dades en cru dels sensors d'entrada als senyals que controlen la maniobra del vehicle. Aquests darrers enfocaments estan relativament menys estudiats, però estan guanyant popularitat ja que són menys exigents en termes d'etiquetatge manual de dades. Per tant, en aquesta tesi, el nostre objectiu és investigar la conducció autònoma basada en models d'extrem-a-extrem. Estudiem tres aspectes. En primer lloc, ens centrem en les dades sensorials d’entrada. Considerem afegir informació de profunditat com a complement a la informació d'aparença (imatge RGB), per tenir en compte així la capacitat de l'ésser humà d'estimar la distància als obstacles. Al món real, aquests mapes de profunditat es poden obtenir d'un sensor LiDAR o d'un model d'estimació de profunditat monocular, de formar que, en cap cas, no cal etiquetatge manual de dades. En segon lloc, basant-nos en la hipòtesi que l'espai latent dels models extrem-a-extrem codifica informació rellevant per a la conducció, fem servir aquest espai latent com a coneixement previ per entrenar un model de conducció basat en affordances. Aquest model pot conduir correctament, el seu entrenament requereix menys dades etiquetades manualment que els sistemes modulars i millora la interpretabilitat de les maniobres executades. En tercer lloc, presentem un nou model de conducció extrem-a-extrem basat en visió, anomenat CIL++, que s'entrena mitjançant imitació. CIL ++ utilitza un camp de visió horitzontal i un mecanisme d'auto-atenció, que l'ajuden a comprendre millor l'escena i imitar millor els conductors humans. Així, usant dades d'entrenament sense etiquetatge manual, CIL++ condueix gairebé al nivell d'un expert, com demostra a les proves CARLA NoCrash, rivalitzant amb models de l'estat de l'art que sí que requereixen grans quantitats de dades etiquetades manualment per al seu entrenament. |
|---|