Validando datos con la Ley de Benford

¿Alguna vez te ha picado la curiosidad sobre una temática viendo una serie? Así es como yo descubrí lo que era la Ley de Benford.

Inquietud por la ley de benford

Introducción

Estaba viendo Ozark, una serie sobre un asesor financiero, Marty Byrde (Jason Bateman), que acaba enredado en turbios negocios de blanqueo de capitales para la mafia. El caso es que -alerta spoiler- en un episodio el prota usa la Ley de Benford para descubrir que unas cuentas están falseadas. Pero…

¿Qué es la Ley Benford?

Poco después, me topé por casualidad un interesante hilo de twitter que lo explicaba muy bien:

La Ley de Benford viene a decir que (discúlpenme los estadísticos si meto la pata) si cogemos un conjunto grande de números y extraemos la primera cifra de la izquierda de cada uno de ellos y vemos la frecuencia con la que se repite, veremos una distribución más o menos como la siguiente:

  • 1 en el 30% de las veces
  • 2 en el 18% de las veces
  • 3 en el 13% de las veces
  • 4 en el 10% de las veces
  • 5 en el 8% de las veces
  • 6 en el 7% de las veces
  • 7 en el 6% de las veces
  • 8 en el 5% de las veces
  • 9 en el 5% de las veces

Esto se cumplirá siempre que el conjunto de datos sea lo suficientemente grande y que los números que tomemos hagan alusión a algo que contemos de manera correlativa, es decir, empezando a contar por el 1, siguiendo por el 2, luego el 3… Pueden ser los números de las casas de una calle, la cantidad de libros vendidos o la longitud de los ríos.

Si lo piensas, tiene sentido ya que siempre empezamos a contar en el 1, es normal que este se repita más que el 2, y así sucesivamente.

Y, ¿cómo podemos aplicar esta Ley al mundo real?

Aplicación a tus informes

Imaginémonos que tenemos un informe con el importe de las transacciones de nuestra tienda de camisetas. ¿Serán los datos reales o alguien los habrá maquillado? ¿Seguirá la Ley de Benford?

Nos descargamos los datos y extraemos la primera cifra de cada importe de transacción:

Captura de excel con datos de id de transacción y ingresos

Calculamos la frecuencia con la que se repiten cada uno de los números con respecto al total:

Aplicando la ley de Benford a los datos de ventas de Google merchandising store

¡Wow! Se parecen bastante ambas distribuciones.

¡Puedes probarlo tú mismo! Yo he utilizado los datos de las transacciones de abril de la tienda de merchandising de Google. Pero puedes probarlo con cualquier otro conjunto de datos.

Ah! Que dices que los datos no siempre son tan fáciles de descargar como de Google Analytics. Pues…

Un poco de código para extraer los datos

Vamos a incluir unas líneas de código para los iniciados en la programación como yo. En la página Automate the Boring Stuff with Python y en el libro del mismo nombre puedes encontrar cómo extraer los datos de forma rápida de un pdf usando python.

Código para extraer datos de un pdf

Dejo aquí un enlace al código que he utilizado yo para extraer los datos de las cuentas de Abengoa de 2018. El resultado ha sido este:

Aplicando la ley de Benford a las cuentas de Abengoa 2018

Para la poca cantidad de datos, bastante ajustada, ¿no?

A estas alturas me imagino que os gustaría ver algún caso en el que la Ley no se cumpla. Vamos allá.

Casos de aplicación en el mundo real

Dejaré aquí enlaces a un par de sonados escándalos financieros donde la Ley de Benford podría haber predicho el fraude.

El primero es el caso Enron. Todos los que hemos estudiado algo relacionado con la economía hemos oído hablar de él. Se trata de una gigantesca empresa energética que maquilló inmensas pérdidas hasta que todo se descubrió allá por 2001. Si quieres saber más, puedes escuchar este podcast. Parece que la distribución no se ceñía mucho a la curva de Benford.

El segundo caso es también conocido. Es el caso Madoff. Bernard Madoff era una de las figuras más relevantes de Wall Street a finales del siglo pasado y fue uno de los impulsores de NASDAQ. Su empresa de inversiones lograba rentabilidades que no daba nadie en el sector. Finalmente, se descubrió que la fórmula para lograr esos réditos se basaba en un sistema piramidal o esquema Ponzi. Si quieres saber más, también puedes escuchar este podcast. Encontraréis ejemplos en la red en la que los rendimientos que ofrecía Madoff tampoco siguen la distribución de Benford.

Como veis en las series también aprendemos cosas interesantes alrededor del dato que después podemos comentar con nuestros compañeros compartiendo conocimiento y cañas :).

¿Qué opináis? ¿Se os ocurre algún caso de uso?

Víctor Corral
Víctor Corral

Me pasé de la consultoría de negocio a la tienda física y luego de la tienda física a la consultoría online de datos, pero siempre hice lo mismo: analizar la información para adoptar las mejores estrategias. Al menos decisiones más razonadas, el mundo es un lugar demasiado complejo para predecirlo todo.

Deja un comentario