Fault Tolerance Based on Bit-Level Redundancy for Neural Network Models
[ES] Las redes neuronales se emplean ampliamente en entornos críticos como la sanidad, los vehículos autónomos o la videovigilancia. Para garantizar la seguridad de los sistemas que dependen de su funcionamiento, es esencial validar y garantizar su comportamiento correcto en presencia de fallos. Est...
| Author: | |
|---|---|
| Format: | doctoral thesis |
| Publication Date: | 2026 |
| Country: | España |
| Institution: | Universitat Politècnica de València (UPV) |
| Repository: | RiuNet. Repositorio Institucional de la Universitat Politécnica de Valéncia |
| Language: | English |
| OAI Identifier: | oai:dnet:riunet______::362df58a3968eeba0a2ffb8e1be4ea12 |
| Online Access: | https://riunet.upv.es/handle/10251/233643 |
| Access Level: | Open access |
| Keyword: | Fault tolerance Neural Networks GPU Convolution 08.- Fomentar el crecimiento económico sostenido, inclusivo y sostenible, el empleo pleno y productivo, y el trabajo decente para todos 09.- Desarrollar infraestructuras resilientes, promover la industrialización inclusiva y sostenible, y fomentar la innovación |
| Summary: | [ES] Las redes neuronales se emplean ampliamente en entornos críticos como la sanidad, los vehículos autónomos o la videovigilancia. Para garantizar la seguridad de los sistemas que dependen de su funcionamiento, es esencial validar y garantizar su comportamiento correcto en presencia de fallos. Esta tesis investiga, en primer lugar, la redundancia a nivel de bit presente en modelos de última generación, en concreto modelos convolucionales, organizando los pesos en grupos estructurados y determinando las posiciones de bit invariantes dentro de dichos grupos. A partir de este análisis, se desarrollan dos mecanismos de protección ligeros y agnósticos al modelo. Estos mecanismos explotan dicha redundancia (sin requerir reentrenar al modelo ni duplicar la arquitectura): Fixed Protection (FP), que protege bits consecutivos, y Variable Protection (VP), que amplía la cobertura a bits invariantes no consecutivos. Se han llevado a cabo experimentos extensivos de inyección de fallos, consistentes en cambios aleatorios de bits en los pesos, con el fin de cuantificar la sensibilidad del modelo y su impacto en la precisión de la inferencia. Los modelos sin protección presentan, por lo general, una degradación de precisión comprendida entre 1.3% y más del 3%. Con FP y VP, sin embargo, el impacto de los bit flips se mitiga de forma sustancial, hasta valores entre el 0.0001% y el 0.4%, lo que supone una mejora de varios órdenes de magnitud. Ambos mecanismos están diseñados para ser computacionalmente eficientes y portables, y pueden aplicarse tanto a modelos convolucionales como no convolucionales. Por último, implementamos nuestros mecanismos en GPUs y en un acelerador basado en FPGA, validando el uso de los mecanismos de protección en entornos de ejecución reales. La implementación en GPU aprovecha NVIDIA CUTLASS y PyTorch, mientras que la implementación en FPGA incorpora módulos dedicados de enmascaramiento en un acelerador en flujo sin alterar la tubería de cómputo principal. En conjunto, los resultados muestran que aprovechar la redundancia a nivel de bit constituye un enfoque eficaz, eficiente y general para aumentar la tolerancia a fallos de las redes neuronales modernas. |
|---|