Advancing Egocentric Action Recognition for Perceptually-enabled Task Guidance

This project aims to create a task guidance assistant using the HoloLens headset that will guide the user through augmented reality. The primary focus of this thesis lies in the integration of an action recognition framework for egocentric videos, crucial for task prediction within the system. Devel...

Descripción completa

Detalles Bibliográficos
Autor: Manzano Rodríguez, Ana
Tipo de recurso: tesis de maestría
Fecha de publicación:2023
País:España
Institución:Universitat Politècnica de Catalunya (UPC)
Repositorio:UPCommons. Portal del coneixement obert de la UPC
Idioma:inglés
OAI Identifier:oai:upcommons.upc.edu:2117/420290
Acceso en línea:https://hdl.handle.net/2117/420290
Access Level:acceso abierto
Palabra clave:Computer vision
Augmented reality
action recognition
computer vision
reconeixement d'accions
Visió per ordinador
Realitat augmentada
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial
id ES_bcfe5309eec1627dbedbc72b7d603a3f
oai_identifier_str oai:upcommons.upc.edu:2117/420290
network_acronym_str ES
network_name_str España
repository_id_str
spelling Advancing Egocentric Action Recognition for Perceptually-enabled Task GuidanceManzano Rodríguez, AnaComputer visionAugmented realityaction recognitioncomputer visionreconeixement d'accionscomputer visionVisió per ordinadorRealitat augmentadaÀrees temàtiques de la UPC::Informàtica::Intel·ligència artificialThis project aims to create a task guidance assistant using the HoloLens headset that will guide the user through augmented reality. The primary focus of this thesis lies in the integration of an action recognition framework for egocentric videos, crucial for task prediction within the system. Development starts in a kitchen environment, with the intention of using transfer learning for military scenarios in the future. Epic-Kitchens serves as an initial reference dataset, subsequently followed by the creation of a customized dataset. Various state-of-the-art action recognition models are considered, with Omnivore being the final choice. Initial results show 14.23% Top 5 action recognition accuracy within the created dataset. Through classifier modifications and application of diverse post-processing video techniques, this accuracy is significantly improved, culminating in an impressive 83.76%.Este proyecto tiene como objetivo crear un asistente de guía de tareas utilizando la cámara egocéntrica que icorporan las HoloLens y que guiará al usuario a través de la realidad aumentada. El objetivo principal de esta tesis es la integración de un marco de reconocimiento de acciones, crucial para la predicción de tareas dentro del sistema. El desarrollo comienza en un entorno de cocina, con la intención de utilizar el aprendizaje por transferencia para escenarios militares en el futuro. Epic-Kitchens sirve como conjunto de datos de referencia inicial, posteriormente se crea un dataset personalizado. Se tienen en cuenta varios modelos de reconocimiento de acciones, siendo Omnivore la elección final. Los resultados iniciales muestran una precisión del 14,23% en el reconocimiento de las 5 acciones más probables dentro del conjunto de datos creado. Mediante modificaciones del clasificador y la aplicación de diferentes técnicas de postprocesado de vídeo, esta precisi ?on se mejora significativamente, culminando en un impresionante 83,76%.Aquest projecte pretén crear un assistent d'orientació de tasques utilitzant la càmera egocèntrica que incorporen les HoloLens que guiarà l’usuari a través de la realitat augmentada. L'objectiu principal d’aquesta tesi rau en la integració d'un marc de reconeixement d'accions crucial per a la predicció de tasques dins del sistema. El desenvolupament comença en un entorn de cuina, amb la intenció d’utilitzar l’aprenentatge de transferència per a escenaris militars en el futur. Epic-Kitchens serveix com a conjunt de dades de referència inicial, posteriorment seguit de la creació d'un conjunt de dades personalitzat. Es consideren diversos models de reconeixement d’acció d'última generació, sent Omnivore l’opció final. Els resultats inicials mostren un 14,23% de precisió de reconeixement de les 5 accions més probables dins del conjunt de dades creat. Mitjançant modificacions del classificador i l’aplicació de diverses tècniques de post processament de vídeo, aquesta precisió es millora significativament, culminant amb un impressionant 83,76%.Universitat Politècnica de CatalunyaMorros Rubió, Josep RamonZolotas, MarkErdogmus, Deniz20232023-10-2520242024-12-11master thesishttp://purl.org/coar/resource_type/c_bdccNAhttp://purl.org/coar/version/c_be7fb7dd8ff6fe43info:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/2117/420290reponame:UPCommons. Portal del coneixement obert de la UPCinstname:Universitat Politècnica de Catalunya (UPC)Inglésengopen accesshttp://purl.org/coar/access_right/c_abf2info:eu-repo/semantics/openAccessoai:upcommons.upc.edu:2117/4202902026-05-27T15:37:01Z
dc.title.none.fl_str_mv Advancing Egocentric Action Recognition for Perceptually-enabled Task Guidance
title Advancing Egocentric Action Recognition for Perceptually-enabled Task Guidance
spellingShingle Advancing Egocentric Action Recognition for Perceptually-enabled Task Guidance
Manzano Rodríguez, Ana
Computer vision
Augmented reality
action recognition
computer vision
reconeixement d'accions
computer vision
Visió per ordinador
Realitat augmentada
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial
title_short Advancing Egocentric Action Recognition for Perceptually-enabled Task Guidance
title_full Advancing Egocentric Action Recognition for Perceptually-enabled Task Guidance
title_fullStr Advancing Egocentric Action Recognition for Perceptually-enabled Task Guidance
title_full_unstemmed Advancing Egocentric Action Recognition for Perceptually-enabled Task Guidance
title_sort Advancing Egocentric Action Recognition for Perceptually-enabled Task Guidance
dc.creator.none.fl_str_mv Manzano Rodríguez, Ana
author Manzano Rodríguez, Ana
author_facet Manzano Rodríguez, Ana
author_role author
dc.contributor.none.fl_str_mv Morros Rubió, Josep Ramon
Zolotas, Mark
Erdogmus, Deniz
dc.subject.none.fl_str_mv Computer vision
Augmented reality
action recognition
computer vision
reconeixement d'accions
computer vision
Visió per ordinador
Realitat augmentada
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial
topic Computer vision
Augmented reality
action recognition
computer vision
reconeixement d'accions
computer vision
Visió per ordinador
Realitat augmentada
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial
description This project aims to create a task guidance assistant using the HoloLens headset that will guide the user through augmented reality. The primary focus of this thesis lies in the integration of an action recognition framework for egocentric videos, crucial for task prediction within the system. Development starts in a kitchen environment, with the intention of using transfer learning for military scenarios in the future. Epic-Kitchens serves as an initial reference dataset, subsequently followed by the creation of a customized dataset. Various state-of-the-art action recognition models are considered, with Omnivore being the final choice. Initial results show 14.23% Top 5 action recognition accuracy within the created dataset. Through classifier modifications and application of diverse post-processing video techniques, this accuracy is significantly improved, culminating in an impressive 83.76%.
publishDate 2023
dc.date.none.fl_str_mv 2023
2023-10-25
2024
2024-12-11
dc.type.none.fl_str_mv master thesis
http://purl.org/coar/resource_type/c_bdcc
NA
http://purl.org/coar/version/c_be7fb7dd8ff6fe43
dc.type.openaire.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.none.fl_str_mv https://hdl.handle.net/2117/420290
url https://hdl.handle.net/2117/420290
dc.language.none.fl_str_mv Inglés
eng
language_invalid_str_mv Inglés
language eng
dc.rights.none.fl_str_mv open access
http://purl.org/coar/access_right/c_abf2
dc.rights.openaire.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv open access
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universitat Politècnica de Catalunya
publisher.none.fl_str_mv Universitat Politècnica de Catalunya
dc.source.none.fl_str_mv reponame:UPCommons. Portal del coneixement obert de la UPC
instname:Universitat Politècnica de Catalunya (UPC)
instname_str Universitat Politècnica de Catalunya (UPC)
reponame_str UPCommons. Portal del coneixement obert de la UPC
collection UPCommons. Portal del coneixement obert de la UPC
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_ 1869418162307465216
score 15.81155