Estadística Frecuentista y Bayesiana según el objeto de estudio ¡Seamos prácticos!
Cuando nos disponemos a realizar un análisis de oportunidades de mejora de un negocio digital, el resultado de una campaña de marketing o el resultado de un test AB generalmente, aunque a menudo sin ser conscientes, solemos aplicar el método estadístico frecuentista.
Lo que al final el analista está buscando es el archiconocido valor “p”. Que no es nada más que la probabilidad de encontrar un valor igual o más extremos si las hipótesis planteadas fueran ciertas.
Diferenciando la estadística Frecuentista y Bayesiana
¿Qué caracteriza a la estadística Frecuentista?
Se desarrolla según los procesos y conceptos clásicos de planteamiento de un problema, búsqueda de probabilidades y contrastes de hipótesis. Asumiendo que el contexto y el resto de variables externas al estudio se van a mantener constantes y no van a provocar cambios en las variables estudiadas.
Por ejemplo, si estamos analizando el comportamiento de los usuarios hacia la compra de una entrada para un acontecimiento deportivo en Barcelona, según el país o mercado de procedencia del potencial cliente, definimos el análisis alrededor de:
- La variable principal de “País/mercado”
- Relacionamos la variable principal con métricas como “valor medio de compra”, “share de compras sobre el total”, “frecuencia de compra”, «unidades por compra”, «ratio de conversión”, «ratio de interés en el producto” y suma y sigue.
En paralelo definimos unas variables secundarias, que solemos considerar “ fijas”, como por ejemplo:
- Periodos vacacionales según país
- Vuelos directos a Barcelona (sí o no)
- Restricciones de movilidad por covid
Sin embargo, estamos asumiendo que otro tipo de variables, normalmente relacionadas con contexto socio-económico del país siguen estables y no afectarán a ninguna de las variables ni métricas anteriores.
Algo que caracteriza también al método frecuentista es que no hay lugar para la subjetividad.
La opinión del investigador no interfiere en la definición de la probabilidad de que ocurra cada hipótesis según, por ejemplo, su experiencia en análisis realizados anteriormente en contextos similares.
Entonces, es justo aquí cuando toman protagonismo los detractores de la estadística frecuentista, que defienden que esta probabilidad (el valor “p”) muy menudo es malinterpretado, ya sea por la asunción de que las variables siempre permanecerán fijas o ya sea por otros aspectos como el tamaño de la muestra.
El valor de “p”, la probabilidad, en realidad puede ser el mismo si afecta en gran valor para una muestra pequeña, que si afecta en poco valor para una muestra grande.
Entonces uno de los “problemas” de este método es la gran dependencia del tamaño de la muestra.
Y es este es el momento perfecto del post para introducir la diferencia con el “opuesto” método estadístico, el bayesiano.
¿Qué caracteriza a la estadística Bayesiana?
Por contra de las características del método anterior, en éste hablamos de :
- Muestra: defiende que muestras más grandes servirán para proporcionar más información del método de estudio.
- No a la dicotomía : defiende que simplemente aceptar o rechazar una hipótesis sin grises de por medio no siempre aporta un resultado fiel a la realidad.
- Influencias de variables externas: otro tipo de variables externas al estudio, como anteriormente comentábamos en el caso del evento deportivo de “ contexto socio-económico” puede afectar y mucho a las variables del estudio.
- Variables de confianza: los resultados de un análisis no solo pueden interpretarse por el valor de la P, sino que es necesario fijar intervalos de confianza que nos dan información de la precisión del resultado y de los valores posibles que puede tener el objeto observado como el comportamiento de compra por país.
Estadística Frecuentista y Bayesiana: algunas conclusiones
La parte positiva del análisis en contexto digital y no clínico por ejemplo, es que se puede ampliar el valor de la muestra si se considera que así se obtendrá una probabilidad más significativa o un valor de confianza concurrente.
En un estudio clínico ampliar la muestra supone en ocasiones someter a más “pacientes” a situaciones que les pueden afectar a la salud, entonces estaríamos poniendo en riesgo la significancia clínica vs a la significancia estadística. Es decir quizás ampliando la muestra conseguimos llegar a ese ansiado p< 0,05 pero estamos poniendo en riesgo a más pacientes.
Analizar datos digitales nos permite iterar estudios sin ese “peligro”.
Este post no pretende posicionarse en favor de un método u otro, simplemente exponer las diferencias para que el analista decida qué aplicar en función del contexto de estudio y/o sus posibles consecuencias.
Autores como Sackett defienden que muestras demasiado pequeñas pueden no probar nada, igual que muestras demasiado grandes pueden servir también para no probar nada. Es decir, una muestra no es ni grande ni pequeña, sino suficiente o insuficiente para demostrar la existencia (o no) de un efecto que se considere clínicamente o económicamente importante.
Así que debemos elegir el método que mejor nos funcione pensando siempre en aspectos prácticos como por ejemplo: el tiempo que le tendré que dedicar para obtener del resultado o el impacto del estudio y la posterior aplicación práctica.
En el caso del evento deportivo, podría ser la personalización de productos o procesos de compra en función del país.
Por ejemplo, si quiero saber si mis potenciales clientes van a comprar si aplico una promoción con descuento, no parece muy práctico repetir el estudio 10 veces y tener en cuenta variables socioeconómicas, sino trabajar con datos de histórico simplemente.
Hasta aquí una breve introducción sobre la diferencia entre los dos principales métodos estadísticos, el Frecuentista y Bayesiano. Como consultoría analítica web somos conscientes de que este post da para introducir más casos y ejemplos de conceptos estadísticos y así lo haremos en siguientes entregas.