Analytics Data Feed – Exportación de datos en Adobe

Hoy en día las soluciones de reporting que ofrecen las propias herramientas de analítica digital, en la mayoría de los casos, suelen ser suficientes para comprender el comportamiento que tienen los usuarios en tu web y ver la evolución de las principales métricas.

Además, siempre podremos apoyarnos de herramientas de reporting externas si necesitamos más opciones de visualización o cruzar datos de analítica digital con otras fuentes externas. ¿Pero qué pasa si necesitamos ir más allá?

En el siguiente artículo os hablamos de las distintas soluciones de exportación de datos que proporciona Adobe Analytics, en concreto profundizaremos en Analytics Data Feed de Adobe.

¿Cuándo es necesario exportar datos?

Adobe Analytics proporciona 3 soluciones para elaborar nuestros análisis:

  • Analytics Workspace
  • Report Builder
  • Data Warehouse

Sin embargo, lo que tienen en común estas 3 opciones es que son datos preprocesados. Quizás, llegue el momento en que necesites profundizar más en tus análisis, exportando y llegando a un nivel de granularidad menor. Para ello, Adobe nos proporciona la herramienta de Analytics Data Feed que nos permite la descarga de datos sin procesar.

Cuando nos descargamos un Data Feed de datos estamos bajando hits de datos, es decir, cada unidad mínima de información que le llega a los servidores de la herramienta de analítica con cada interacción del usuario.

Beneficios de trabajar con una exportación

Además de las dimensiones estándar que genera de caja la implementación por defecto de la herramienta, en un feed de datos disponemos de todas las evar y prop que hayamos definido en nuestro etiquetado, lo que nos aporta un nivel de análisis ilimitado.

Además, el enfoque del análisis es bastante distinto, ya que pasamos de cruzar dimensiones/métricas de datos procesados, a analizar cada uno de los eventos individuales del usuario. De cada interacción/evento disponemos de un montón de información para contextualizarlo. Mucha de esta información es desconocida para cualquier analista, ya que no es información que aparezca en la interfaz de reporting de la herramienta.

En resumen, no te preocupes si te asustas en la descarga de tu primer Data Feed, tanta cantidad de filas y columnas abruman. Sobre todo, usa esa primera vez para pararte a analizar cada columna y decidir cuales serán útiles para ti.

Cómo usar un Data Feed

Cuando comencé en el mundillo de la analítica digital, ni me imaginaba, que tipo de situación podía darse en mi trabajo para necesitar descargar los datos de la herramienta de analítica digital. Para ser sinceros, ni siquiera sabía que esto era posible.

En otras palabras, en mis inicios me parecían suficientes los informes predefinidos que trae la propia herramienta.

Lo habitual, es que te surja esta necesidad en un entorno con una analítica digital muy madura y con un presupuesto de marketing alto, dónde es imprescindible sacarle el máximo partido a los datos optimizando los presupuestos.

Los consumidores de este tipo de información suelen ser los equipos de Data Science, usándolos cómo una fuente más de información en sus análisis avanzados y algoritmos de aprendizaje.

Ejemplo de aplicación real

En primer lugar, pensemos en un tipo de negocio que no es 100% digital, dónde el entorno digital sirve para captar la atención de tus potenciales clientes pero disponemos de un entorno NO digital para el cierre de la venta, por ejemplo a través de un call center o una tienda física.

Además, en este escenario sabemos que la empresa invierte mucho en marketing digital para captar a sus clientes. En la herramienta de analítica podemos analizar la conversión en la primera etapa del funnel pero… ¿Qué pasa si quieres construir un modelo de atribución avanzado que te permita analizar desde la captación del cliente potencial hasta la venta final?

En segundo lugar, sabemos que descargando los datos de navegación de tus clientes potenciales podrás conocer que rutas siguen los usuarios que acaban en venta y potenciar aquellos canales digitales que atraen a clientes potenciales de mayor calidad.

Después de eso, ¡descubres que los clientes potenciales que captas a través del Paid Media son de muy mala calidad!

Tu analítica digital te dice que el canal de Social Media tiene muy buena conversión en captación, pero sólo conoces cómo se comportan en la venta cuando integras todas tus fuentes de datos, digitales y no digitales.

Además, podrás enriquecer tus modelos de atribución con información de otras fuentes. Por ejemplo, podrías incorporar información meteorológica para determinar si el tiempo que hace en una región influye en el comportamiento de compra de tu potencial cliente.

Por último, la construcción de modelos predictivos o de propensión también es una aplicación real muy interesante para nuestros Data Feeds.

Pasos para configurar un Data Feed

Configurar fuente de datos y FTP

En primer lugar debemos configurar el data feed desde el menú de administración de nuestro Adobe Analytics. Menú Administración > Fuente de Datos.

Al acceder verás la lista de todas las fuentes configuradas y podrás editar o crear nuevas fuentes de datos, en el proceso de configuración de una nueva fuente seleccionarás el Report Suite al que corresponde la descarga y qué datos quieres descargar de toda la lista disponible.

Puedes ver la lista completa en el siguiente link –> Data Feed Content – Referencia de todas las columnas

Data Feed de Adobe Analytics
Interfaz de administración del Data Feed

Característica de un nuevo Data Feed

Nombre de fuente: columna requerida. Muestra el nombre de la fuente.
ID de fuente: muestra el ID de fuente, un identificador único.
Grupo de informes: grupo de informes desde el que la fuente hace referencia a los datos.
ID del grupo de informes: el identificador único del grupo de informes.
Columnas de datos: qué columnas de datos están activas para la fuente. En la mayoría de los casos, hay demasiadas columnas para mostrar en este formato.
Intervalo: indicador de si la fuente es por hora o por día.
Tipo de destino: el tipo de destino de la fuente. Por ejemplo: FTP, Amazon S3 o Azure. En este artículo hablamos de la descarga por FTP pero el destino de los datos puede ser otro servicio de almacenamiento en la nube.
Host de destino: ubicación en la que se coloca el archivo. Por ejemplo: ftp.example.com.
Propietario: cuenta de usuario que creó la fuente.
Estado: el estado de la fuente.
Activa: la fuente se está ejecutando.
Aprobación pendiente: en algunas circunstancias, una fuente requiere la aprobación de Adobe para poder empezar a generar trabajos.
Eliminada: se elimina la fuente.
Completada: la fuente ha finalizado el procesamiento. Una fuente completada puede editarse, pausarse y cancelarse.
Pendiente: la fuente se crea pero aún no está activa. Las fuentes permanecen en este estado durante un corto periodo de transición.
Inactiva: equivalente a un estado “pausado” o “en espera”. Cuando se reactiva la fuente, se reanuda la entrega de trabajos desde el momento en que se detuvo.
Última modificación: fecha en la que se modificó la fuente por última vez. La fecha y la hora se muestran en la zona horaria del grupo de informes con horario GMT.
Fecha de inicio: la fecha del primer trabajo de esta fuente. La fecha y la hora se muestran en la zona horaria del grupo de informes con horario GMT.
Fecha de finalización: la fecha del último trabajo de esta fuente. Las fuentes de datos en curso no tienen una fecha de finalización.

A la hora de crear uno nuevo debemos introducir dos tipos de información, la información del Feed y la información del Destino del Data Feed.

Nuevo Data Feed
Nuevo Data Feed

Campos de información del Data Feed

Nombre: nombre de la fuente de datos. Debe ser único dentro del grupo de informes seleccionado y puede tener hasta 255 caracteres de longitud.
Grupo de informes: grupo de informes en el que se basa la fuente de datos. Si se crean varias fuentes de datos para el mismo grupo de informes, deben tener definiciones de columnas diferentes.
Enviar un mensaje de correo electrónico cuando se complete: la dirección de correo electrónico que se notificará cuando una fuente termine de procesarse. La dirección de correo electrónico debe tener el formato correcto.
Intervalo: los Data Feed por hora contienen datos de una sola hora. Los diarios contienen datos de un día completo, basándose en el huso horario del grupo de informes.
Retrasar procesamiento: tiempo de espera antes de procesar una exportación. Un retraso puede resultar útil para ofrecer a las implementaciones móviles la oportunidad de que los dispositivos sin conexión se conecten y envíen datos. Además es útil cuando necesitas dar un margen de procesamiento de los fichero en el servidor de descarga propio de la empresa. En la mayoría de los casos, no es necesario un retraso. Una fuente se puede retrasar hasta 120 minutos.
Fechas de inicio y finalización: la fecha de inicio indica la primera fecha en la que quieres iniciar la exportación. Para comenzar inmediatamente y comenzar a exportar el histórico se debe indicar una fecha en el pasado. Las fuentes continúan procesando hasta que llegan a la fecha de finalización.
Fuente continua: esta casilla elimina la fecha de finalización, lo que permite que una fuente se ejecute indefinidamente.

Campos del destino del Data Feed

Los campos son variables dependiendo del tipo de destino elegido:

  • FTP/SFTP: El archivo se descarga en una ubicación de Adobe o de FTP alojado por el cliente. Se necesita un host FTP, un nombre de usuario y una contraseña/ Clave pública en el caso de ser SFTP.
  • Amazon S3
  • Azure Blob
¡Importante! El proceso de exportación de Adobe no elimina ficheros. Se debe implementar un proceso propio para controlar el espacio en disco del destino. Si no disponemos de espacio el proceso de descarga fallará.

Estructura de los ficheros descargados

En cada exportación se descargan varios ficheros en formato comprimido. El fichero principal que contendrá los hits de datos es hit_data.tsv. Este es el fichero que ocupará mayor espacio y el que contendrá los datos de valor para nosotros.

Al descomprimir el fichero encontrarás 3 tipos de ficheros:

Estructura de ficheros de exportación Data Feed
Estructura de ficheros en una exportación Data Feed en Adobe Analytics

Archivo de manifiesto: un archivo de texto (.txt) con información sobre el contenido de la exportación, nombre del archivo, tamaño, hash MD5 y cantidad de filas procesados

Datos de hit: el archivo que contiene todos los datos del hit configurados en el Data Feed.

Datos de búsqueda: un TAR que contiene una serie de archivos que contienen datos complementarios, son tablas maestras que contextualizan los valores de ciertas columnas del hit_data. Por ejemplo, un valor de “497” en la columna de datos de visitas browser indica que la visita procede de «Microsoft Internet Explorer 8» si se mira en browser.tsv.

  • column_headers.tsv (personalizado para esta fuente de datos)
  • browser.tsv
  • browser_type.tsv
  • color_depth.tsv
  • connection_type.tsv
  • country.tsv
  • javascript_version.tsv
  • languages.tsv
  • operating_systems.tsv
  • plugins.tsv
  • resolution.tsv
  • referrer_type.tsv
  • search_engines.tsv
  • event_lookup.tsv (personalizado para esta fuente de datos)

Sin embargo, hay alguna tabla de búsqueda que contiene un volumen muy alto de registros. Mi recomendación es que analices la necesidad real de volcar esta información a tu sistema ya que implicará un movimiento muy alto de datos cada vez que debas actualizar tu almacén de datos.

Limitaciones y aspectos a tener en cuenta

  • Controla el espacio de tu destino y el tamaño de los ficheros. Una fila de datos tiene un tamaño medio aproximado de 500 B (comprimido) o de 2 KB (sin comprimir). Si se multiplica esta cifra por el número de llamadas al servidor, se puede obtener un cálculo aproximado del tamaño del archivo del Data Feed. Además, una vez tengas la exportación automatizada, puedes obtener un número más preciso dividiendo el número de filas en hit_data.tsv por el tamaño total del archivo.
  • Ten cuidado con el tipo de datos. La definición de los tipos destino en tu almacén debe ser válido para almacenar los tipos que nos descargamos en el Data Feed, esto depende mucho del tipo de almacén que uses para guardar, por ello te recomiendo que pierdas el tiempo necesario en realizar este análisis. Además Adobe recomiendo aumentar en un % el tamaño de todas las columnas para evitar errores futuros.
  • Cuidado con los picos de tráfico. Black Friday, rebajas, campañas especiales en general… Os dejo un guía de Adobe para programar picos de tráfico.
  • ¿Descarga de visitas duplicadas? Sí, es posible. Si automatizas el proceso, Adobe recomienda controlar a través de la combinación de los campos hitid_high y hitid_low para identificar una visita de forma exclusiva.

Algunos enlaces de interés

Aquí os dejo algunos enlaces que me han resultado útiles en mi proceso de aprendizaje:

Fátima Andrade
Fátima Andrade

LLevo más de 8 años trabajando en negocios digitales, analizando y estableciendo estrategias para aumentar el retorno de la inversión en Marketing. Actualmente mi día a día se basa en segmentar clientes y orquestar los canales de comunicación dentro de una visión 360 omnicanal del cliente.

Necesitas compartirlo y lo sabes!

Deja un comentario