Cómo realizar una prueba de correlación en RStudio

En este artículo, aprenderemos cómo realizar una prueba de hipótesis de correlación entre dos variables utilizando RStudio. El objetivo es determinar si existe una relación significativa entre las variables seleccionadas.

Los datos que usaremos

Para este ejemplo, usaremos un conjunto de datos llamado data que contiene las siguientes variables:

  1. Campaña: Variable categórica binaria que indica si un día específico pertenece a la campaña de Black Friday. Toma el valor de 1 si el día es parte de la campaña y 0 en caso contrario.

  2. Compras: Variable numérica discreta que contiene la cantidad de compras realizadas por los usuarios en un día específico. 

  3. Ingresos: Variable numérica continua que contiene la cantidad de ingresos conseguidos en un día específico. 

El número de filas de nuestros datos es de 30 días, es decir, un mes. 

A continuación, analizaremos la correlación entre las variables Compras e Ingresos en relación con la variable Campaña. Queremos determinar si durante la campaña de Black Friday aumentan las ventas y los ingresos.

Paso 1: Planteamiento de hipótesis

Primero, debemos definir nuestras hipótesis:

  • Hipótesis nula (H₀): No existe correlación entre las dos variables.
  • Hipótesis alternativa (H₁): Existe correlación entre las dos variables.

Paso 2: Visualización inicial de los datos

Antes de realizar la prueba estadística, es útil visualizar la relación entre las dos variables:

Captura de pantalla 2024-10-14 a las 9.33.59

Este gráfico nos permite observar visualmente si parece existir una relación entre la campaña y las compras. La línea roja representa una regresión lineal, que es útil para identificar tendencias.

Captura de pantalla 2024-10-14 a las 9.34.29

Observamos una correlación positiva entre las compras y los días pertenecientes a la campaña de Black Friday. Es decir, durante los días de Black Friday se observa un incremento en las ventas. Ahora analizaremos si ocurre lo mismo con los ingresos, ya que es posible que, aunque aumenten las ventas durante la campaña de Black Friday, los ingresos se mantengan estables debido a los descuentos aplicados.

Captura de pantalla 2024-10-14 a las 9.35.20

Se observa una correlación positiva entre los ingresos y los días pertenecientes a la campaña de Black Friday. Aún así, ésta es menor que con las compras.

Paso 3: Selección de método

Existen diferentes métodos para calcular la correlación según las características de los datos:

  • Pearson: El coeficiente de correlación de Pearson mide la relación lineal entre dos variables continuas y asume que ambas variables son normalmente distribuidas y cuantitativas. No es ideal cuando tienes una variable categórica (binaria) y una variable discreta, ya que Pearson está diseñado para variables continuas y lineales.
  • Spearman: El coeficiente de correlación de Spearman es una medida no paramétrica que evalúa la relación no necesariamente lineal entre dos variables. Funciona mejor cuando los datos no siguen una distribución normal o cuando las variables no son continuas. Dado que una de nuestras variables es binaria y otra es discreta, Spearman es más adecuado.

Paso 4: Obtención del coeficiente de correlación

Captura de pantalla 2024-10-14 a las 9.30.29

Captura de pantalla 2024-10-14 a las 9.30.36

En este gráfico, debemos fijarnos en los coeficientes que aparecen en las celdas superiores a la diagonal principal. Estos nos indican la fuerza y la dirección de la correlación entre los pares de variables. Nos centraremos en la correlación entre Campaña y las dos variables numéricas, ya que ya sabemos que entre Compras e Ingresos hay relación.

  • Compras y Campaña: La correlación es de 0.71, lo que sugiere una relación positiva bastante alta. Esto significa que en los días de Black Friday aumentan las compras
  • Ingresos y Campaña: La correlación es de 0.61, lo que indica una relación positiva moderada. Esto significa que en los días de Black Friday aumentan los ingresos, aunque con menos fuerza que las compras.

Los tres asteriscos (***) junto a los números indican que las correlaciones son estadísticamente significativas a un nivel alto, es decir, es muy poco probable que estas relaciones sean producto del azar. Este apartado consiste en una prueba de hipótesis de correlación.

Paso 5: Realización de la prueba de correlación

Procederemos a realizar la prueba de correlación más detalladamente:

Captura de pantalla 2024-10-14 a las 9.31.44

Este comando nos proporciona un p-value y un coeficiente de correlación (rho). El p-value nos indica si la correlación es estadísticamente significativa. Si este es inferior a 0.05, tendremos suficiente evidencia para rechazar la hipótesis nula y concluir que existe una correlación significativa entre las dos variables.

Obtenemos los siguientes resultados:

Captura de pantalla 2024-10-14 a las 9.31.50

Con un p-value muy inferior a 0.05, tenemos suficiente evidencia para rechazar la hipótesis nula y concluir que existe una correlación entre las compras y los días de campaña Black Friday, con un coeficiente positivo de 0.7057.

Captura de pantalla 2024-10-14 a las 9.31.56

Con un p-value menor a 0.05, tenemos suficiente evidencia para rechazar la hipótesis nula y concluir que existe una correlación entre los ingresos y los días de campaña Black Friday, con un coeficiente positivo de 0.6146.

 

ANTERIOR
SIGUIENTE

TIPS DE EXPERTOS

Suscríbete para impulsar tu negocio.

ÚLTIMOS ARTÍCULOS

Talkdesk revoluciona la atención al cliente con IA avanzada

En un mercado donde la experiencia del cliente (CX) marca la diferencia entre ganar y perder clientes, las expectativas han cambiado radicalmente: rapidez, coherencia, personalización y resolución efectiva son ya requisitos básicos. Pero la mayoría de las infraestructuras tradicionales de atención al cliente —estructuradas alrededor de call centers clásicos o sistemas fragmentados— no están diseñadas para responder a esta nueva realidad. Es aquí donde plataformas como Talkdesk irrumpen como un cambio de paradigma: no solo automatizan tareas, sino que coordina múltiples agentes inteligentes para resolver problemas complejos, mejorar la productividad y elevar la satisfacción de los clientes.

Insider: transforma tus datos en decisiones que impulsan resultados

En marketing digital llevamos años obsesionados con los datos.

Emplifi: la herramienta detrás de marcas que triunfan en social media

En los últimos años, la mayoría de empresas han entendido una cosa: las redes sociales ya no son un canal aislado dentro de la estrategia digital. Son un punto de contacto con clientes, una fuente de datos en tiempo real, un motor de reputación de marca… y, cada vez más, un impulsor directo de conversiones y revenue.

Automatización CRM en eCommerce: Aumenta Ventas y Fidelización

Un eCommerce no es solo una tienda online. Es un ecosistema vivo donde cada clic, cada carrito abandonado y cada compra cuenta. Y aunque la tecnología de tienda suele estar bien resuelta (Shopify, Prestashop, WooCommerce...), la relación con los clientes muchas veces no está tan clara.

Ahí es donde entra un CRM: no (sólo) para almacenar contactos, sino para entender.y activar relaciones realmente significativas que generen ingresos de forma recurrente.

data
Mallorca 184, 08036
Barcelona, Spain