Advancing Vision-based End-to-End Autonomous Driving

En conducció autònoma, una intel·ligència artificial (IA) processa l'entorn per conduir el vehicle a la destinació desitjada. Actualment, hi ha diferents paradigmes que aborden el desenvolupament de conductors dotats d'IA. D'una banda, trobem sistemes modulars, que divideixen la tasca...

Descripción completa

Detalles Bibliográficos
Autor: Xiao, Yi
Tipo de recurso: tesis doctoral
Estado:Versión publicada
Fecha de publicación:2023
País:España
Institución:CBUC, CESCA
Repositorio:TDR. Tesis Doctorales en Red
OAI Identifier:oai:www.tdx.cat:10803/690948
Acceso en línea:http://hdl.handle.net/10803/690948
Access Level:acceso abierto
Palabra clave:Conducció autònoma
Autonomous driving
Conducción autónoma
Tecnologies
004
Descripción
Sumario:En conducció autònoma, una intel·ligència artificial (IA) processa l'entorn per conduir el vehicle a la destinació desitjada. Actualment, hi ha diferents paradigmes que aborden el desenvolupament de conductors dotats d'IA. D'una banda, trobem sistemes modulars, que divideixen la tasca de conducció en sub-tasques com ara la percepció i la planificació i control de maniobres. D'altra banda, trobem enfocaments de conducció extrema-a-extrem que intenten aprendre un mapeig directe de les dades en cru dels sensors d'entrada als senyals que controlen la maniobra del vehicle. Aquests darrers enfocaments estan relativament menys estudiats, però estan guanyant popularitat ja que són menys exigents en termes d'etiquetatge manual de dades. Per tant, en aquesta tesi, el nostre objectiu és investigar la conducció autònoma basada en models d'extrem-a-extrem. Estudiem tres aspectes. En primer lloc, ens centrem en les dades sensorials d’entrada. Considerem afegir informació de profunditat com a complement a la informació d'aparença (imatge RGB), per tenir en compte així la capacitat de l'ésser humà d'estimar la distància als obstacles. Al món real, aquests mapes de profunditat es poden obtenir d'un sensor LiDAR o d'un model d'estimació de profunditat monocular, de formar que, en cap cas, no cal etiquetatge manual de dades. En segon lloc, basant-nos en la hipòtesi que l'espai latent dels models extrem-a-extrem codifica informació rellevant per a la conducció, fem servir aquest espai latent com a coneixement previ per entrenar un model de conducció basat en affordances. Aquest model pot conduir correctament, el seu entrenament requereix menys dades etiquetades manualment que els sistemes modulars i millora la interpretabilitat de les maniobres executades. En tercer lloc, presentem un nou model de conducció extrem-a-extrem basat en visió, anomenat CIL++, que s'entrena mitjançant imitació. CIL ++ utilitza un camp de visió horitzontal i un mecanisme d'auto-atenció, que l'ajuden a comprendre millor l'escena i imitar millor els conductors humans. Així, usant dades d'entrenament sense etiquetatge manual, CIL++ condueix gairebé al nivell d'un expert, com demostra a les proves CARLA NoCrash, rivalitzant amb models de l'estat de l'art que sí que requereixen grans quantitats de dades etiquetades manualment per al seu entrenament.