¡Analizando Twitter antes de que desaparezca!

Hemos aprovechado el hype que siempre despierta Elon para hablar un poquito sobre la explotación de datos analizando Twitter.

Como recordaréis, antes de estas decisiones empresariales de los últimos días… de sujétame el cubata, hubo un fuerte litigio entre los antiguos dueños de la plataforma y Musk sobre el número de usuarios reales y bots que la conformaban.

Para cualquiera de los que usamos esta red, no es un secreto, que en la era de las fake news existen cientos de bots hinchando egos e intentando influir en nuestra opinión.

Pero, ¿Cómo podemos hacer un análisis simple de los bots que siguen a una cuenta?

Para ello, lo primero que debemos hacer es extraer los datos. En este caso se ha hecho con RStudio mediante la conexión a la API de Twitter.

Para suscribirse y obtener las claves (tokens) podéis encontrar enlaces de cómo hacerlo, como este.

Recolección de los datos

Una vez te haces con las credenciales para autentificarte, puedes hacer consultas a través por ejemplo de RStudio:

# Cargo las librerías
library(twitteR)
library(ROAuth)
library(httr)
library(rtweet)
library(plyr)
library(dplyr)

# Cargar las credenciales
consumer_key <-"xxx"
consumer_secret <-"xxx"
access_token <-"xxx"
access_secret <-"xxx"

# Me autorizo
options(httr_oauth_cache=TRUE)
setup_twitter_oauth(consumer_key = consumer_key, consumer_secret = consumer_secret,
access_token = access_token, access_secret = access_secret)

# Sacar información de un usuariousuario<- getUser('@datolaes')

# Conseguir información de sus seguidores
usuario_seguidores <- usuario$getFollowers(retryOnRateLimit=100)

# Necesitamos convertirlo en un dataframe:
usuario_seguidores2 <- twListToDF(usuario_seguidores)

# Lo exporto en un csv:
write_as_csv(usuario_seguidores2, "C:/Users/usuario/Documents/Datos RStudio/usuario_seguidores.csv", prepend_ids = TRUE, na = "", fileEncoding = "UTF-8"

Tienes disponible el código y otras librerías en:

https://github.com/VictorCorral/Twitter

Visualización e interpretación de los datos

Vale, pues ya tenemos los datos guardados en un csv. Ahora ya podemos visualizarlo o analizarnos donde nos plazca.

Para entender las dimensiones y métricas extraídas podéis consultar este diccionario.

En este caso hemos analizado la cuenta de Twitter de Datola, que tiene unos 450 seguidores.

A partir de aquí podemos empezar con simples análisis exploratorios en Power BI por ejemplo.

Análisis de los datos

La cuenta se creó en diciembre de 2020, y podemos ver que la mayoría de los seguidores crearon sus cuentas en 2010:

Gráfico con fecha creación cuentas de seguidores


En ocasiones, tener muchos seguidores con la creación de su cuenta en una fecha muy concreta puede indicarnos que son bots.

Además, también podemos ver el origen de nuestros seguidores:

Mapa de seguidores de Datola

Ubicaciones en países de los que en principio no esperaríamos tener tráfico o reconocidos por albergar granjas de bots podría hacernos desconfiar.

Hay un gran porcentaje de cuentas con localización geográfica en el perfil, lo cual es una buena señal de que las cuentas puedan ser reales:

Cuentas con localización geográfica

Y otros con ubicaciones tan pintorescas cómo «Estou vivindo no ceo» y «Depends» (estos estaría por apostar que son gallegos).

Además, podemos comprobar qué porcentaje de seguidores de la cuenta tienen un perfil verificado por Twitter:

Vamos, que las grandes estrellas que nos siguen no están queriendo pagar los 8$ a Elon.

Un número de seguidores muy elevado que tengan sin configurar la imagen de perfil (representados por el cuadro azul) nos indicaría que pueden ser bots o que la calidad de esos followers no es muy buena:

Seguidores sin imagen de perfil

La Comunidad sólo tiene 11 «huevos» (como popularmente se les conoce a los perfiles sin imagen), por lo que la calidad de los seguidores parece buena.

También puede ser un indicador de baja calidad que los seguidores, a su vez, sean seguidos por muy pocas cuentas. Este gráfico muestra la frecuencia (en función del área de los rectángulos) del número de seguidores que tienen nuestros contactos de Twitter. Es decir, áreas grandes de 1, 2, 3… seguidores es malo.

Seguidores de Datola con pocos seguidores

No es el caso de Datola, donde la mayoría de seguidores son bastante influencers (tienen muchos contactos):

Top seguidores de Datola que tienen más seguidores

Conclusiones

Se puede complicar mucho más el análisis, estudiando por ejemplo si los seguidores se han ganado repentinamente en unas determinadas fechas o hay grupos de followers con algún patrón común. 

Cada vez es más fácil comprar seguidores en internet y más complicado detectar los bots, porque estos se asemejan más y más a perfiles reales, sobre todo si estás dispuesto a pagar un precio mayor por ellos.

Pero a priori, parece que la comunidad de Twitter de Datola goza de muy buena salud, aunque siempre se puede profundizar mucho más. A analizar se aprende analizando.

Elon, si me lees, espero que este artículo te sea de ayuda. A todos los demás, también.

Víctor Corral
Víctor Corral

Me pasé de la consultoría de negocio a la tienda física y luego de la tienda física a la consultoría online de datos, pero siempre hice lo mismo: analizar la información para adoptar las mejores estrategias. Al menos decisiones más razonadas, el mundo es un lugar demasiado complejo para predecirlo todo.

Deja un comentario