Ajuste Lineal y Correlación

Teoría Ejercicios

Introducción al Ajuste Lineal

El ajuste lineal, también conocido como regresión lineal simple, es una técnica estadística que permite modelar la relación entre dos variables cuantitativas mediante una línea recta. Su objetivo es encontrar la ecuación de la recta que mejor se adapta a un conjunto de puntos en un diagrama de dispersión, minimizando los errores de predicción.

Diagrama de Dispersión

Antes de realizar un ajuste lineal, es fundamental visualizar los datos mediante un diagrama de dispersión (scatter plot). Este gráfico muestra cada par de valores (X, Y) como un punto en un plano cartesiano y permite:

Observar si existe alguna tendencia o patrón en los datos
Identificar posibles valores atípicos (outliers)
Determinar si la relación es aproximadamente lineal o presenta otro tipo de comportamiento (cuadrático, exponencial, etc.)

Solo cuando el diagrama de dispersión sugiere una tendencia aproximadamente lineal, tiene sentido aplicar el modelo de regresión lineal.

La Recta de Regresión

La recta de regresión se representa mediante la ecuación:

\(\hat{Y} = a + bX\)

Donde:

\(\hat{Y}\) = Valor estimado de la variable dependiente
\(a\) = Ordenada en el origen (punto de corte con el eje Y)
\(b\) = Pendiente de la recta (cambio en Y por cada unidad de cambio en X)
\(X\) = Valor de la variable independiente

Método de Mínimos Cuadrados

El método de mínimos cuadrados permite calcular los parámetros a y b de la recta que mejor se ajusta a los datos, minimizando la suma de los cuadrados de las diferencias entre los valores observados y los valores estimados.

Las fórmulas para calcular estos parámetros son:

\(b = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}}\)

\(a = \bar{y} - b\bar{x}\)

Donde:

\(\bar{x}\) y \(\bar{y}\) son las medias de las variables X e Y, respectivamente
\(S_{xy}\) es la covarianza muestral entre X e Y
\(S_{xx}\) es la varianza muestral de X

Es importante destacar que la recta de regresión siempre pasa por el punto \(\bar{x}, \bar{y})\), es decir, por el punto donde se cruzan las medias de ambas variables.

Coeficiente de Correlación Lineal

El coeficiente de correlación lineal de Pearson (r) mide la fuerza y dirección de la relación lineal entre dos variables cuantitativas. Se calcula mediante la fórmula:

\(r = \frac{S_{xy}}{\sqrt{S_{xx} \cdot S_{yy}}} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \cdot \sum_{i=1}^{n} (y_i - \bar{y})^2}}\)

Características del coeficiente de correlación:

Rango: Siempre está entre -1 y 1
Signo: Indica la dirección de la relación

r > 0: Relación directa (cuando X aumenta, Y tiende a aumentar)

r < 0: Relación inversa (cuando X aumenta, Y tiende a disminuir)

Valor absoluto: Indica la intensidad de la relación

Valor de	r		Interpretación
0 ≤	r	< 0.2	Correlación muy débil o nula
0.2 ≤	r	< 0.4	Correlación débil
0.4 ≤	r	< 0.6	Correlación moderada
0.6 ≤	r	< 0.8	Correlación fuerte
0.8 ≤	r	≤ 1	Correlación muy fuerte

|r| ≈ 1: Fuerte relación lineal

Adimensional: No depende de las unidades de medida de las variables

Valor de |r|

Coeficiente de Determinación

El coeficiente de determinación (r²) es el cuadrado del coeficiente de correlación y representa la proporción de la variabilidad de la variable dependiente Y que es explicada por la variable independiente X a través del modelo de regresión lineal.

\(r^2 = \frac{ \text{Variación explicada}}{ \text{Variación total}}\)

Características del coeficiente de determinación:

Rango: Varía entre 0 y 1 (o de 0% a 100%)
Interpretación:

r² = 0: El modelo no explica nada de la variabilidad de Y

r² = 1: El modelo explica toda la variabilidad de Y
r² = 0.75: El modelo explica el 75% de la variabilidad de Y

Es una medida de la bondad del ajuste lineal

Evaluando la Bondad del Ajuste

Para determinar si un ajuste lineal es adecuado para un conjunto de datos, debemos considerar varios aspectos:

Inspección visual: El diagrama de dispersión debe mostrar una tendencia aproximadamente lineal.
Coeficiente de determinación (r²): Valores cercanos a 1 indican un buen ajuste.
Análisis de residuos: Los residuos (diferencias entre valores observados y estimados) deben:

No mostrar patrones claros
Tener una distribución aproximadamente normal

Correlación vs. Causalidad

Un error común es interpretar una correlación fuerte como evidencia de causalidad. Es importante recordar que correlación no implica causalidad. Dos variables pueden estar fuertemente correlacionadas porque:

X causa Y
Y causa X
X e Y están influenciadas por una tercera variable Z (variable confusora)
La relación es coincidental (correlación espuria)

Para establecer relaciones causales, se requieren diseños experimentales adecuados y controles de variables, no solo análisis correlacionales.

Aplicaciones del Ajuste Lineal

El ajuste lineal tiene numerosas aplicaciones en diversas áreas:

Economía: Relación entre precio y demanda, inflación y desempleo, etc.
Biología: Relación entre altura y peso, concentración de un reactivo y respuesta biológica, etc.
Física: Relación entre temperatura y volumen, fuerza y deformación, etc.
Medicina: Relación entre dosis de medicamento y respuesta, edad y presión arterial, etc.
Marketing: Relación entre gastos en publicidad y ventas, precio y unidades vendidas, etc.

Ejemplo Práctico Completo

Consideremos la relación entre horas de estudio semanal (X) y calificación obtenida (Y) para un grupo de 7 estudiantes:

Paso 1: Visualizar los datos en un diagrama de dispersión.
Paso 2: Calcular los parámetros necesarios:

Media de X: \(\bar{x} = 20\)

Media de Y: \(\bar{y} = 81\)
Covarianza: \(S_{xy} = 1050\)
Varianza de X: \(S_{xx} = 700\)
Varianza de Y: \(S_{yy} = 1274\)

Paso 3: Calcular la pendiente y la ordenada en el origen:

Pendiente: \(b = \frac{S_{xy}}{S_{xx}} = \frac{1050}{700} = 1.5\)

Ordenada: \(a = \bar{y} - b\bar{x} = 81 - 1.5 \cdot 20 = 51\)

Paso 4: Escribir la ecuación de la recta de regresión:

\(\hat{Y} = 51 + 1.5X\)

Paso 5: Calcular el coeficiente de correlación:

\(r = \frac{S_{xy}}{\sqrt{S_{xx} \cdot S_{yy}}} = \frac{1050}{\sqrt{700 \cdot 1274}} = \frac{1050}{944.9} ≈ 0.98\)

Paso 6: Calcular el coeficiente de determinación:

\(r^2 = 0.98^2 ≈ 0.96\)

Interpretación de resultados:

La ecuación \(\hat{Y} = 51 + 1.5X\) indica que:

Por cada hora adicional de estudio, la calificación aumenta en promedio 1.5 puntos.

Un estudiante que no estudie (X = 0) obtendría una calificación estimada de 51 puntos.

El coeficiente de correlación r = 0.98 indica una relación lineal positiva muy fuerte entre horas de estudio y calificación.
El coeficiente de determinación r² = 0.96 indica que el 96% de la variabilidad en las calificaciones puede explicarse por las horas de estudio según este modelo.
Si un estudiante estudia 22 horas, podemos estimar su calificación:

\(\hat{Y} = 51 + 1.5 \cdot 22 = 51 + 33 = 84\) puntos.

Este modelo tiene un ajuste muy bueno (r² cercano a 1), pero debemos recordar que la relación entre estudio y calificación no es puramente lineal en la realidad y pueden influir muchos otros factores (calidad del estudio, conocimientos previos, etc.).