Detecció de bots en xarxes socials per mètodes supervisats

Aquest projecte neix de la vulnerabilitat de l'opinió pública a través de les xarxes socials, on la presència de bots, principals responsables de la propagació de noticies falses i promotors de la desinformació, actuen amb certa impunitat aprofitant la falta de protocols i directrius de control...

ver descrição completa

Detalhes bibliográficos
Autor: Consuegra Navarrina, Josep
Formato: tesis de maestría
Fecha de publicación:2020
País:España
Recursos:Universitat Oberta de Catalunya (UOC)
Repositorio:O2, repositorio institucional de la UOC
OAI Identifier:oai:openaccess.uoc.edu:10609/124346
Acesso em linha:http://hdl.handle.net/10609/124346
Access Level:acceso abierto
Palavra-chave:social networks
misinformation
graphs
redes sociales
desinformación
gráficos
xarxes socials
desinformació
gràfics
Social networks -- TFM
Xarxes socials -- TFM
Redes sociales -- TFM
id ES_badaac2dda1d2ffbae0ecb55c38acce2
oai_identifier_str oai:openaccess.uoc.edu:10609/124346
network_acronym_str ES
network_name_str España
repository_id_str
dc.title.none.fl_str_mv Detecció de bots en xarxes socials per mètodes supervisats
title Detecció de bots en xarxes socials per mètodes supervisats
spellingShingle Detecció de bots en xarxes socials per mètodes supervisats
Consuegra Navarrina, Josep
social networks
misinformation
graphs
redes sociales
desinformación
gráficos
xarxes socials
desinformació
gràfics
Social networks -- TFM
Xarxes socials -- TFM
Redes sociales -- TFM
title_short Detecció de bots en xarxes socials per mètodes supervisats
title_full Detecció de bots en xarxes socials per mètodes supervisats
title_fullStr Detecció de bots en xarxes socials per mètodes supervisats
title_full_unstemmed Detecció de bots en xarxes socials per mètodes supervisats
title_sort Detecció de bots en xarxes socials per mètodes supervisats
dc.creator.none.fl_str_mv Consuegra Navarrina, Josep
author Consuegra Navarrina, Josep
author_facet Consuegra Navarrina, Josep
author_role author
dc.contributor.none.fl_str_mv Solé-Ribalta, Albert
Vicens Bennasar, Julian Antonio
dc.subject.none.fl_str_mv social networks
misinformation
graphs
redes sociales
desinformación
gráficos
xarxes socials
desinformació
gràfics
Social networks -- TFM
Xarxes socials -- TFM
Redes sociales -- TFM
topic social networks
misinformation
graphs
redes sociales
desinformación
gráficos
xarxes socials
desinformació
gràfics
Social networks -- TFM
Xarxes socials -- TFM
Redes sociales -- TFM
description Aquest projecte neix de la vulnerabilitat de l'opinió pública a través de les xarxes socials, on la presència de bots, principals responsables de la propagació de noticies falses i promotors de la desinformació, actuen amb certa impunitat aprofitant la falta de protocols i directrius de control. L'objectiu de l'estudi és, principalment, la implementació d'un mètode de catalogació binari d'usuaris de Twitter, per etiquetar-los com a humans o bots, a partir d'un conjunt d'aproximadament sis-cents cinquanta mil tweets obtinguts entre el 24 d'Abril i el 5 de Maig, i d'un conjunt de dades d'entrenament obtingut a través de l'API Botometer. Per tal fi, s'empren mètodes de classificació supervisats a partir de l'activitat d'aquests usuaris (sense contemplar el contingut dels missatges), obtenint una comparativa dels models estudiats en les qual els classificador MLP i Random Forest semblen genera els millors resultats. De cara a complementar l'estudi, es classifiquen tots els usuaris del data set inicial de projecte i es genera un graf per tal de visualitzar els resultats, en el qual tots usuari existeix com un node, i totes les interaccions entre usuaris es representen amb una aresta. Addicionalment, s'aplica un algoritme de detecció de comunitats, i es visualitza el graf d'usuaris obtingut a l'aplicació Gephi, observant una polarització dels usuaris i una distribució homogènia de bots en tota la xarxa d'interaccions, en la qual cap comunitat n'està aïllada.
publishDate 2020
dc.date.none.fl_str_mv 2020
2020
2020
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.none.fl_str_mv http://hdl.handle.net/10609/124346
url http://hdl.handle.net/10609/124346
dc.language.none.fl_str_mv Catalán
language_invalid_str_mv Catalán
dc.rights.none.fl_str_mv CC BY-NC-ND
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC BY-NC-ND
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universitat Oberta de Catalunya (UOC)
publisher.none.fl_str_mv Universitat Oberta de Catalunya (UOC)
dc.source.none.fl_str_mv reponame:O2, repositorio institucional de la UOC
instname:Universitat Oberta de Catalunya (UOC)
instname_str Universitat Oberta de Catalunya (UOC)
reponame_str O2, repositorio institucional de la UOC
collection O2, repositorio institucional de la UOC
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_ 1869417973989507072
spelling Detecció de bots en xarxes socials per mètodes supervisatsConsuegra Navarrina, Josepsocial networksmisinformationgraphsredes socialesdesinformacióngráficosxarxes socialsdesinformaciógràficsSocial networks -- TFMXarxes socials -- TFMRedes sociales -- TFMAquest projecte neix de la vulnerabilitat de l'opinió pública a través de les xarxes socials, on la presència de bots, principals responsables de la propagació de noticies falses i promotors de la desinformació, actuen amb certa impunitat aprofitant la falta de protocols i directrius de control. L'objectiu de l'estudi és, principalment, la implementació d'un mètode de catalogació binari d'usuaris de Twitter, per etiquetar-los com a humans o bots, a partir d'un conjunt d'aproximadament sis-cents cinquanta mil tweets obtinguts entre el 24 d'Abril i el 5 de Maig, i d'un conjunt de dades d'entrenament obtingut a través de l'API Botometer. Per tal fi, s'empren mètodes de classificació supervisats a partir de l'activitat d'aquests usuaris (sense contemplar el contingut dels missatges), obtenint una comparativa dels models estudiats en les qual els classificador MLP i Random Forest semblen genera els millors resultats. De cara a complementar l'estudi, es classifiquen tots els usuaris del data set inicial de projecte i es genera un graf per tal de visualitzar els resultats, en el qual tots usuari existeix com un node, i totes les interaccions entre usuaris es representen amb una aresta. Addicionalment, s'aplica un algoritme de detecció de comunitats, i es visualitza el graf d'usuaris obtingut a l'aplicació Gephi, observant una polarització dels usuaris i una distribució homogènia de bots en tota la xarxa d'interaccions, en la qual cap comunitat n'està aïllada.This project is born as a result of the public opinion vulnerability in regard to social networks, where bot presence, main responsible of fake news propagation and misinformation spread, act with impunity by taking advantage of non-existing or inefficient bot detection (and control) protocols. The goal of this project is, mainly, to implement a binary classification algorithm for Twitter users, in charge of detecting whether a user is behaving as a bot or not. The algorithm is based on a user activity dataset consisting of 650k tweets downloaded through the Twitter API between April 24th and May 5th, as well as a training dataset obtained by using Botometer API. Only supervised methods are considered for the implementation, based on the users' activity in Twitter (without considering the contents of the tweet's body), which are afterwards compared, showing that MLP and Random Forest classifiers seem to perform better in this scenario. For visualization purposes, all users from the original dataset are then classified as a human or a bot, and are added into a graph, where each node represents a user and each edge represents an interaction. Additionally, a community detection algorithm is applied, and the graph is visualized through Gephi tool, showing that there is a polarization of users, and that bots seem to be equally distributed among all communities, meaning they are inherent to the network.Este proyecto nace de la vulnerabilidad de la opinión pública a través de las redes sociales, donde la presencia de botes, principales responsables de la propagación de noticias falsas y promotores de la desinformación, actúan con cierta impunidad aprovechando la falta de protocolos y directrices de control. El objetivo del estudio es, principalmente, la implementación de un método de catalogación binario de usuarios de Twitter, para etiquetarlos como humanos o bots, a partir de un conjunto de aproximadamente seiscientos cincuenta mil tweets obtenidos entre el 24 de Abril y el 5 de Mayo, y de un conjunto de datos de entrenamiento obtenido a través de la API Botometer. Para tal fin, se emplean métodos de clasificación supervisados a partir de la actividad de estos usuarios (sin contemplar el contenido de los mensajes), obteniendo una comparativa de los modelos estudiados en las que los clasificador MLP y Random Forest parecen genera los mejores resultados . De cara a complementar el estudio, se clasifican todos los usuarios del fecha siete inicial de proyecto y se genera un grafo para visualizar los resultados, en el que todos usuario existe como un nodo, y todas las interacciones entre usuarios se representan con una arista. Adicionalmente, se aplica un algoritmo de detección de comunidades, y se visualiza el grafo de usuarios obtenido en la aplicación Gephi, observando una polarización de los usuarios y una distribución homogénea de botes en toda la red de interacciones, en la que ningún comunidad está aislada.Universitat Oberta de Catalunya (UOC)Solé-Ribalta, AlbertVicens Bennasar, Julian Antonio202020202020info:eu-repo/semantics/masterThesisapplication/pdfapplication/pdfapplication/pdfhttp://hdl.handle.net/10609/124346reponame:O2, repositorio institucional de la UOCinstname:Universitat Oberta de Catalunya (UOC)CatalánCC BY-NC-NDhttp://creativecommons.org/licenses/by-nc-nd/3.0/es/info:eu-repo/semantics/openAccessoai:openaccess.uoc.edu:10609/1243462026-05-28T12:42:01Z
score 15.300724