Phishingutils: estudio sobre herramientas de detección de phishing en URLs

Los ciberataques son cada vez más frecuentes, complejos y pueden tener mayor potencial de causar daños graves en sociedades completas. El phishing es uno de ellos, y constituye una de las más grandes vulnerabilidades actuales, siendo objeto de numerosas investigaciones sobre su prevención. La mayorí...

Descripción completa

Detalles Bibliográficos
Autor: Agudelo Bernal, Sergio
Tipo de recurso: tesis de maestría
Fecha de publicación:2024
País:España
Institución:Universidad de Valladolid
Repositorio:UVaDOC. Repositorio Documental de la Universidad de Valladolid
OAI Identifier:oai:uvadoc.uva.es:10324/71506
Acceso en línea:https://uvadoc.uva.es/handle/10324/71506
Access Level:acceso abierto
Palabra clave:Framework
Machine Learning
Página web
Phishing
Descripción
Sumario:Los ciberataques son cada vez más frecuentes, complejos y pueden tener mayor potencial de causar daños graves en sociedades completas. El phishing es uno de ellos, y constituye una de las más grandes vulnerabilidades actuales, siendo objeto de numerosas investigaciones sobre su prevención. La mayoría de ataques ocurren por medio de páginas web, y la identificación de phishing por medio de URLs ha demostrado ser una de las técnicas más efectivas, utilizando técnicas de clasificación de Machine Learning. Debido a que es requerido realizar la tarea de recopilar un gran volumen de muestras para desarrollar una detección fiable, se evidencia la necesidad de crear herramientas que realicen este proceso automáticamente, además de hacer disponibles conjuntos de datos masivos para investigaciones futuras. Para contribuir con dicha necesidad, se ha creado en este proyecto una biblioteca de Python, que permite gestionar automáticamente el proceso de recopilación y consolidación de conjuntos de datos, a partir de solo algunas configuraciones por parte del usuario. Para demostrar el funcionamiento de esta biblioteca, se realizó una revisión literaria de 30 artículos relacionados y publicados en los últimos 5 años, para obtener el estado del arte de atributos y parámetros para la detección de URLs phishing. Como resultados, se cuenta con la versión publicable de la biblioteca desarrollada, un conjunto de datos de 2.500.000 muestras, aproximadamente 20 veces el tamaño de la más grandes fuentes de datos existentes actualmente, también como la documentación de la revisión literaria realizada, propuesta como referencia para investigaciones futuras. Se aplicaron modelos de clasificación al conjunto de datos construido, resultando en valores de precisión de más de 99 %.