Cómo preparar un dataset de calidad para entrenar un modelo de lead scoring

El rendimiento de un modelo de lead scoring depende mucho menos del algoritmo elegido de lo que suele pensarse. En la práctica, la calidad del dataset -cómo se define el objetivo, cómo se limpian los datos, cómo se construyen las variables y cómo se validan- es lo que marca la diferencia entre un modelo útil y uno que nunca llega a aportar valor real al negocio.

Además, involucrar a marketing y ventas en esta fase es crítico. El objetivo debe reflejar con fidelidad qué es un lead valioso para el negocio, no solo lo que es fácil de medir.En este artículo plantearemos un enfoque técnico, estructurado y aplicado para construir un dataset sólido, reproducible y alineado con el proceso comercial, pensado para proyectos reales de lead scoring.

Definir correctamente el objetivo del modelo

Todo empieza por una pregunta aparentemente sencilla: ¿qué queremos predecir?

En lead scoring, el objetivo puede adoptar distintas formas:

  • Probabilidad de que un lead se convierta en oportunidad.
  • Probabilidad de compra dentro de una ventana temporal concreta.
  • Probabilidad de completar una acción clave (solicitar una demo, registrarse en un evento, etc.).

Esta definición condiciona absolutamente todo lo demás:

  • Qué datos deben recopilarse.
  • Cómo se construyen las etiquetas (labels).
  • Qué métricas tendrán sentido para evaluar el modelo.

Un error frecuente en esta fase es definir un objetivo demasiado técnico o demasiado genérico. Un modelo muy preciso desde el punto de vista estadístico, pero mal alineado con el ciclo comercial, suele ser inútil en producción.

Además, involucrar a marketing y ventas en esta fase es crítico. El objetivo debe reflejar con fidelidad qué es un lead valioso para el negocio, no solo lo que es fácil de medir.

Recopilar y unificar las fuentes de datos

Una vez definido el objetivo, el siguiente paso es consolidar los datos necesarios desde todas las fuentes disponibles. En proyectos reales de lead scoring, la “materia prima en bruto” suele venir de múltiples sistemas:

  • CRM
  • Plataformas de automatización de marketing
  • Herramientas analíticas
  • Bases firmográficas
  • Sistemas transaccionales

Cada tipo de dato aporta una pieza distinta del puzzle:

  • Datos demográficos y firmográficos. Aportan contexto sobre el lead y su empresa: sector, tamaño, país, rol profesional o facturación estimada.
  • Datos de comportamiento. Permiten medir intención: visitas a páginas clave, descargas de contenido, aperturas de emails o asistencia a webinars.
  • Histórico comercial. Compras, renovaciones, tickets de soporte o interacciones con el equipo de ventas añaden una visión longitudinal del lead.

Unificar toda esta información requiere de identificadores consistentes (email o ID único), un pipeline de ingesta que estandarice formatos y valide integridad, y, en muchos casos, un data warehouse y herramientas de orquestación para garantizar reproducibilidad y trazabilidad.

Limpieza y preparación del dataset

En la práctica, esta es una de las fases más laboriosas… y más determinantes en la calidad final del modelo. Estas son las principales acciones que componen el proceso.

Eliminación de duplicados

Especialmente en los CRM, un mismo lead puede aparecer varias veces con pequeñas variaciones. Técnicas de normalización y fuzzy matching son útiles cuando las reglas simples no bastan.

Gestión de valores faltantes

Aquí no hay una única receta:

  • En variables numéricas, pueden usarse imputaciones estadísticas.
  • En variables categóricas, suele crearse una categoría “Unknown”.
  • En variables críticas, a veces es mejor descartar registros incompletos.

Además, conviene analizar por qué faltan esos datos: la ausencia en sí misma puede ser una señal relevante.

Estandarización y validación

Normalizar formatos, validar rangos y asegurar consistencia de tipos evita sesgos difíciles de detectar más adelante. Una buena práctica adicional es auditar la calidad del dataset mediante indicadores como:

  • Completitud
  • Unicidad
  • Actualidad
  • Precisión

Detectar problemas aquí ahorra muchos dolores de cabeza en la fase de modelado.

Diseñar un buen conjunto de características

El feature engineering suele marcar la diferencia en modelos de lead scoring. Más allá de las variables originales, es habitual construir características derivadas que capturen mejor el comportamiento del lead:

  • Días desde la última interacción.
  • Número de visitas a páginas de precio.
  • Volumen de emails abiertos en un periodo.
  • Participación en contenidos de alto valor.

También es habitual enriquecer el dataset con fuentes externas (por ejemplo, bases firmográficas) y aplicar técnicas de selección de variables para reducir ruido y redundancias.

Construir y validar la variable objetivo

La etiqueta (label) es el corazón del dataset: es lo que el modelo aprende a predecir. Cada empresa define de forma distinta qué es un lead cualificado:

  • Un SQL marcado por ventas.
  • Un cliente activado.
  • Un lead que completa una acción dentro de una ventana temporal concreta.

A partir del histórico, suelen generarse etiquetas binarias, cuidando especialmente el no introducir información futura y evitar fugas de información que inflen artificialmente el rendimiento.

También es clave evaluar posibles sesgos. Por ejemplo, leads contactados con más frecuencia pueden mostrar tasas de conversión artificialmente elevadas.

Separar correctamente el dataset

La partición en conjuntos de entrenamiento, validación y test debe reflejar el uso real del modelo. En contextos temporales, lo más recomendable es:

  • Dividir por fechas.
  • Entrenar siempre con datos anteriores a los usados para evaluar.

Esto evita resultados engañosos y simula mejor el comportamiento en producción.

Validaciones finales antes del entrenamiento

Antes de entrenar el modelo conviene revisar:

  • Balance de clases (en lead scoring, los datasets suele estar muy desbalanceado).
  • Necesidad de técnicas de muestreo.
  • Multicolinealidades y valores atípicos.
  • Tamaño final del dataset tras las limpiezas.

Estas comprobaciones ayudan a detectar problemas estructurales antes de que afecten al modelo.

¿Cómo aplicar todo esto en la práctica?

Imaginemos una empresa B2B que comercializa un software SaaS y utiliza su ecosistema digital como principal canal de generación de demanda: campañas de marketing, contenidos especializados y acciones de email para atraer y nutrir leads.

En este contexto, emplearemos el modelo de lead scoring para ayudarnos a predecir qué contactos tienen mayor probabilidad de solicitar una demo del producto en los próximos 30 días, permitiendo así priorizar la acción comercial.

Para construir el dataset:

  • Se unifican datos del CRM, comportamiento web y campañas de email.
  • Se limpian duplicados, se construyen variables de recencia y frecuencia, y se etiqueta como positivo todo lead que haya solicitado demo dentro del periodo definido.

El resultado es un dataset coherente con el proceso comercial real, que permite entrenar un modelo enfocado a calidad y probabilidad de conversión, y evita tomar decisiones basadas únicamente en el volumen de leads generados.

Buenas prácticas para mantener la calidad en el tiempo

Es importante que tengamos presente que un dataset no es algo estático. Para mantener su calidad, lo más recomendable es:

  • Documentar cada paso del pipeline.
  • Versionar datos y modelos.
  • Monitorizar el data drift en producción.

Y, por supuesto, recordar las implicaciones de privacidad y cumplimiento normativo cuando se trabaja con datos personales.

En conclusión…

La construcción de un dataset de calidad para lead scoring es un proceso multidisciplinar que combina conocimiento de negocio, ingeniería de datos y validación rigurosa.

En la práctica, la preparación de los datos suele tener más impacto que el algoritmo final. Invertir tiempo en definir bien el objetivo, diseñar las características adecuadas y validar el dataset permite desplegar modelos más robustos, interpretables y preparados para escalar.

Porque en lead scoring, como en muchos proyectos de IA, los modelos aprenden de los datos… pero los resultados dependen de cómo los prepares.

David Barajas
David Barajas

Fundador y CEO de Esgalla, con una trayectoria consolidada en el mundo del marketing digital. Me dedico a ayudar a empresas de diversos sectores a optimizar su inversión en marketing, aunando tecnología y estrategia. Actualmente, mi misión es impulsar la integración de tecnología avanzada y analítica para ofrecer a nuestros clientes soluciones aún más efectivas en la captación de leads y el uso de los datos.

Deja un comentario