Qué es el umbral de datos en GA4 y cómo eliminarlo
Seguramente te ha pasado ya: has sacado unos datos por la API de GA4 bien sea en sheets bien sea con el Query Explorer o bien sea con Looker Studio y te encuentras con que el dato no es el mismo en la interfaz que extraído vía API.
Y además ves que en el informe de exploración arriba a la derecha te aparece un icono como el que ves en la captura de pantalla.
¿Qué es el umbral de datos?
Es la forma que tiene google de llamar a la ocultación de datos. Así cuando google aplica un umbral de datos te los está ocultando, eso es todo.
No confundir nunca con el sampleo o sampling de los datos.
Google aplica este umbral para proteger la identidad de los usuarios y aparece cuando el número de usuarios es menor a un nivel determinado por ellos.
En el ejemplo que que veso, es una cantidad muy pequeña de usuarios que han visitado esa url, así que para que no se pueda identificar al usuario oculta parte de los datos.
Este umbral lo puedes encontrar en:
- Toda la interfaz de GA4: informes estándar, de exploración, personalizados….
- Todos los datos que se exportan a BigQuery
¿Por qué ocurre esto?
Porque está activado Google Signals. Google Analytics recopila información sobre las visitas y la asocia con la información de Google de las cuentas de los usuarios registrados que han dado su consentimiento a esta asociación con el fin de personalizar los anuncios.
Para que quede más claro: unifica usuarios que navegan logueados con gmail, con Google Signals proporciona los informes demográficos (sexo y edad de los usuarios) y permite crear audiencias que luego se pueden exportar a Google Ads para hacer campañas de remarketing.
¿Cómo evitar el umbral de datos?
Si has leído hasta aquí, tu primera respuesta sería: desactivar Google Signals.
La buena noticia es que no hace falta desactivarlo para que no se aplique el umbral, simplemente debes elegir otro modelo de identificación de usuarios.
Google Analytics 4 ha puesto a disposición varias formas de identificar al usuario, tal y como se explica en este otro post.
Ve a la configuración de GA4 y haz clic en Identidad para los informes o Reporting Identity (si tienes la interfaz en inglés)
Seguramente tendrás seleccionado el mezclado o blended y como indica en su propia definición lo que hace este modelo es combinar el User ID (si lo tenemos implementado en nuestra web), los datos de Google Signals, el ID de dispositivo (lo que ya hacía Universal Analytics, identificación por cookie) y datos modelados.
Como este modelo sí se hace servir de Google Signals, aplicará el umbral de datos cuando los datos de informe impliquen a pocos usuarios.
El otro modelo que ves es el observado o observed que combina el User ID o ID de usuario, Google Signals i el ID de dispositivo.
Obviamente, si seleccionas este tendrás el mismo problema que con el blended ya que también utiliza Google Signals.
Pero verás que abajo de la caja de opciones, a la derecha, sin llamar mucho la atención hay un “Mostrar todo”.
Al hacer clic sobre “Mostrar todo” aparece un nuevo tipo de identificación de usuarios basado en el dispositivo y que por su definición no usa Google Signals.
Digamos que este es el modelo más sencillo o más simple de identificar a los usuarios, que es el que ya usaba Universal Analytics por el id de la cookie. Este modelo no unifica usuarios como los dos anteriores. La identificación de usuarios será menos precisa.
Si activas este tipo de identificación de usuarios ya no se aplicará el umbral de datos y seguirás conservando activo Google Signals para los informes demográficos y para las audiencias, pero no se usara la para la identificación de usuarios. o los informes demográficos y las audiencias. También es probable que aumenten algunas métricas, como los usuarios, ya que como no agrupa usuarios tendrás más.
Si este es el modelo que quieres haz clic en Guardar
Los cambios son retroactivos y no se pierden cuando cambiamos de modelo de identificación de usuarios, simplemente se procesan de forma distinta, es decir, en cualquier momento podemos venir de nuevo a la configuración y cambiar el tipo de identificación a cualquiera de las dos primeras.
A modo de resumen
El umbral no es sampleo de datos. El umbral es ocultación de datos para que no se pueda identificar al usuario y ocurre en los siguientes casos:
- Está activado Google Signals
- Está activada la identificación de usuarios del tipo: combinado u observado
- El informe contiene filas con cantidades pequeñas de usuarios, sesiones o eventos.
Puedes activar un tipo de identificación de usuarios y desactivarlo cuando necesites.