En este artículo, aprenderemos cómo realizar una prueba de hipótesis de correlación entre dos variables utilizando RStudio. El objetivo es determinar si existe una relación significativa entre las variables seleccionadas.
Para este ejemplo, usaremos un conjunto de datos llamado data que contiene las siguientes variables:
Campaña: Variable categórica binaria que indica si un día específico pertenece a la campaña de Black Friday. Toma el valor de 1 si el día es parte de la campaña y 0 en caso contrario.
Compras: Variable numérica discreta que contiene la cantidad de compras realizadas por los usuarios en un día específico.
Ingresos: Variable numérica continua que contiene la cantidad de ingresos conseguidos en un día específico.
El número de filas de nuestros datos es de 30 días, es decir, un mes.
A continuación, analizaremos la correlación entre las variables Compras e Ingresos en relación con la variable Campaña. Queremos determinar si durante la campaña de Black Friday aumentan las ventas y los ingresos.
Primero, debemos definir nuestras hipótesis:
Antes de realizar la prueba estadística, es útil visualizar la relación entre las dos variables:
Este gráfico nos permite observar visualmente si parece existir una relación entre la campaña y las compras. La línea roja representa una regresión lineal, que es útil para identificar tendencias.
Observamos una correlación positiva entre las compras y los días pertenecientes a la campaña de Black Friday. Es decir, durante los días de Black Friday se observa un incremento en las ventas. Ahora analizaremos si ocurre lo mismo con los ingresos, ya que es posible que, aunque aumenten las ventas durante la campaña de Black Friday, los ingresos se mantengan estables debido a los descuentos aplicados.
Se observa una correlación positiva entre los ingresos y los días pertenecientes a la campaña de Black Friday. Aún así, ésta es menor que con las compras.
Existen diferentes métodos para calcular la correlación según las características de los datos:
En este gráfico, debemos fijarnos en los coeficientes que aparecen en las celdas superiores a la diagonal principal. Estos nos indican la fuerza y la dirección de la correlación entre los pares de variables. Nos centraremos en la correlación entre Campaña y las dos variables numéricas, ya que ya sabemos que entre Compras e Ingresos hay relación.
Los tres asteriscos (***) junto a los números indican que las correlaciones son estadísticamente significativas a un nivel alto, es decir, es muy poco probable que estas relaciones sean producto del azar. Este apartado consiste en una prueba de hipótesis de correlación.
Procederemos a realizar la prueba de correlación más detalladamente:
Este comando nos proporciona un p-value y un coeficiente de correlación (rho). El p-value nos indica si la correlación es estadísticamente significativa. Si este es inferior a 0.05, tendremos suficiente evidencia para rechazar la hipótesis nula y concluir que existe una correlación significativa entre las dos variables.
Obtenemos los siguientes resultados:
Con un p-value muy inferior a 0.05, tenemos suficiente evidencia para rechazar la hipótesis nula y concluir que existe una correlación entre las compras y los días de campaña Black Friday, con un coeficiente positivo de 0.7057.
Con un p-value menor a 0.05, tenemos suficiente evidencia para rechazar la hipótesis nula y concluir que existe una correlación entre los ingresos y los días de campaña Black Friday, con un coeficiente positivo de 0.6146.