Cuando nos disponemos a realizar un análisis de oportunidades de mejora de un negocio digital, el resultado de una campaña de marketing o el resultado de un test AB generalmente, aunque a menudo sin ser conscientes, solemos aplicar el método estadístico frecuentista.
Lo que al final el analista está buscando es el archiconocido valor “p”. Que no es nada más que la probabilidad de encontrar un valor igual o más extremos si las hipótesis planteadas fueran ciertas.
Se desarrolla según los procesos y conceptos clásicos de planteamiento de un problema, búsqueda de probabilidades y contrastes de hipótesis. Asumiendo que el contexto y el resto de variables externas al estudio se van a mantener constantes y no van a provocar cambios en las variables estudiadas.
Por ejemplo, si estamos analizando el comportamiento de los usuarios hacia la compra de una entrada para un acontecimiento deportivo en Barcelona, según el país o mercado de procedencia del potencial cliente, definimos el análisis alrededor de:
En paralelo definimos unas variables secundarias, que solemos considerar “ fijas”, como por ejemplo:
Sin embargo, estamos asumiendo que otro tipo de variables, normalmente relacionadas con contexto socio-económico del país siguen estables y no afectarán a ninguna de las variables ni métricas anteriores.
Algo que caracteriza también al método frecuentista es que no hay lugar para la subjetividad.
La opinión del investigador no interfiere en la definición de la probabilidad de que ocurra cada hipótesis según, por ejemplo, su experiencia en análisis realizados anteriormente en contextos similares.
Entonces, es justo aquí cuando toman protagonismo los detractores de la estadística frecuentista, que defienden que esta probabilidad (el valor “p”) muy menudo es malinterpretado, ya sea por la asunción de que las variables siempre permanecerán fijas o ya sea por otros aspectos como el tamaño de la muestra.
El valor de “p”, la probabilidad, en realidad puede ser el mismo si afecta en gran valor para una muestra pequeña, que si afecta en poco valor para una muestra grande.
Entonces uno de los “problemas” de este método es la gran dependencia del tamaño de la muestra.
Y es este es el momento perfecto del post para introducir la diferencia con el “opuesto” método estadístico, el bayesiano.
Por contra de las características del método anterior, en éste hablamos de :
La parte positiva del análisis en contexto digital y no clínico por ejemplo, es que se puede ampliar el valor de la muestra si se considera que así se obtendrá una probabilidad más significativa o un valor de confianza concurrente.
En un estudio clínico ampliar la muestra supone en ocasiones someter a más “pacientes” a situaciones que les pueden afectar a la salud, entonces estaríamos poniendo en riesgo la significancia clínica vs a la significancia estadística. Es decir quizás ampliando la muestra conseguimos llegar a ese ansiado p< 0,05 pero estamos poniendo en riesgo a más pacientes.
Analizar datos digitales nos permite iterar estudios sin ese “peligro”.
Este post no pretende posicionarse en favor de un método u otro, simplemente exponer las diferencias para que el analista decida qué aplicar en función del contexto de estudio y/o sus posibles consecuencias.
Autores como Sackett defienden que muestras demasiado pequeñas pueden no probar nada, igual que muestras demasiado grandes pueden servir también para no probar nada. Es decir, una muestra no es ni grande ni pequeña, sino suficiente o insuficiente para demostrar la existencia (o no) de un efecto que se considere clínicamente o económicamente importante.
Así que debemos elegir el método que mejor nos funcione pensando siempre en aspectos prácticos como por ejemplo: el tiempo que le tendré que dedicar para obtener del resultado o el impacto del estudio y la posterior aplicación práctica.
En el caso del evento deportivo, podría ser la personalización de productos o procesos de compra en función del país.
Por ejemplo, si quiero saber si mis potenciales clientes van a comprar si aplico una promoción con descuento, no parece muy práctico repetir el estudio 10 veces y tener en cuenta variables socioeconómicas, sino trabajar con datos de histórico simplemente.
Hasta aquí una breve introducción sobre la diferencia entre los dos principales métodos estadísticos, el Frecuentista y Bayesiano. Como consultoría analítica web somos conscientes de que este post da para introducir más casos y ejemplos de conceptos estadísticos y así lo haremos en siguientes entregas.