Medidas de dispersión

Teoría Ejercicios

Introducción a las Medidas de Dispersión (o Desviación)

Las medidas de desviación, también conocidas como medidas de dispersión o variabilidad, son cruciales en estadística porque cuantifican qué tan esparcidos o concentrados están los datos de un conjunto alrededor de una medida de tendencia central (generalmente la media aritmética). Mientras que las medidas de centralización nos ofrecen un valor "típico" o central del conjunto, las medidas de desviación nos informan sobre la homogeneidad o heterogeneidad de los datos. Comprender la dispersión es fundamental para evaluar la representatividad de la media, comparar diferentes conjuntos de datos y realizar inferencias estadísticas más robustas.

Si los valores de un conjunto de datos están muy agrupados cerca de la media, la dispersión será baja, indicando una alta homogeneidad. Por el contrario, si los valores están muy separados de la media, la dispersión será alta, reflejando una mayor heterogeneidad. Las medidas de desviación más comunes son el rango, la desviación absoluta media, la varianza, la desviación estándar y el coeficiente de variación.

Rango (o Amplitud Total)

El rango es la medida de dispersión más sencilla de calcular. Se define como la diferencia entre el valor máximo (\(x_{max}\)) y el valor mínimo (\(x_{min}\)) en un conjunto de datos.

\(R = x_{max} - x_{min}\)

Ventajas: Es fácil de calcular e interpretar, proporcionando una idea rápida de la extensión total de los datos.
Desventajas: Solo considera los valores extremos, por lo que es muy sensible a ellos (outliers). Puede no ser representativo de la dispersión general de la mayoría de los datos si existen valores atípicos. No utiliza toda la información disponible en el conjunto de datos.

Ejemplo Para el conjunto {"{10, 12, 15, 18, 25}"}, el rango es \(25 - 10 = 15\). Si tuviéramos el conjunto {"{10, 12, 15, 18, 100}"}, el rango sería \(100 - 10 = 90\), mostrando su sensibilidad al valor extremo 100.

Desviación Absoluta Media (DAM)

La desviación absoluta media (DAM), también conocida como desviación media, mide el promedio de las desviaciones absolutas de cada dato con respecto a la media del conjunto. Al tomar el valor absoluto de las diferencias, se evita que las desviaciones positivas y negativas se cancelen entre sí.

Para un conjunto de N datos:

\(DAM = \frac{\sum_{i=1}^{N} |x_i - \bar{x}|}{N}\)

Donde \(x_i\) es cada valor del conjunto y \(\bar{x}\) es la media aritmética del conjunto.

Utiliza todos los datos en su cálculo.
Se expresa en las mismas unidades que los datos originales, lo que facilita su interpretación directa como una "distancia promedio" a la media.
Es menos sensible a los valores extremos que la desviación estándar, ya que no eleva las diferencias al cuadrado.
Aunque es intuitiva, el uso de valores absolutos puede presentar dificultades en algunos procedimientos matemáticos y de inferencia estadística más avanzados en comparación con la varianza y la desviación estándar.

Ejemplo Para el conjunto {"{3, 5, 6, 6, 10}"}, la media \(\bar{x} = (3+5+6+6+10)/5 = 30/5 = 6\).

\(DAM = \frac{|3-6| + |5-6| + |6-6| + |6-6| + |10-6|}{5} = \frac{|-3| + |-1| + |0| + |0| + |4|}{5} = \frac{3 + 1 + 0 + 0 + 4}{5} = \frac{8}{5} = 1.6\) Esto significa que, en promedio, los datos se desvían 1.6 unidades de la media.

Varianza (\(s^2\) para muestra, \(\sigma^2\) para población)

La varianza es una medida de dispersión que representa la media de las diferencias cuadráticas de cada dato con respecto a la media del conjunto. Al elevar las diferencias al cuadrado, se asegura que todas las desviaciones sean positivas y se da mayor peso a las desviaciones más grandes.

Para una población (N datos):

\(\sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}\)

(donde \(\mu\) es la media poblacional)

Para una muestra (n datos):

\(s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}\)

(donde \(\bar{x}\) es la media muestral)

El uso de \(n-1\) en el denominador para la varianza muestral (conocido como la corrección de Bessel) proporciona un estimador insesgado de la varianza poblacional. Esto se relaciona con los "grados de libertad".

Utiliza todos los datos en su cálculo.
Sus unidades están al cuadrado de las unidades originales de los datos (e.g., si los datos son metros, la varianza es metros cuadrados). Esto dificulta su interpretación directa en el contexto de los datos originales.
Una varianza de 0 indica que todos los valores del conjunto son idénticos. Valores mayores de varianza indican mayor dispersión.
Es muy sensible a los valores extremos debido a la elevación al cuadrado de las desviaciones.

Cálculo para datos agrupados (muestra):

\(s^2 = \frac{\sum_{i=1}^{k} (x_{mc_i} - \bar{x})^2 \cdot f_i}{n-1}\)

Donde \(x_{mc_i}\) es la marca de clase del intervalo i, \(f_i\) su frecuencia absoluta, y n el total de datos.

Desviación Estándar (s para muestra, \(\sigma\) para población)

La desviación estándar (o desviación típica) es, posiblemente, la medida de dispersión más importante y utilizada. Se define como la raíz cuadrada positiva de la varianza. Al tomar la raíz cuadrada, se revierte el efecto de la elevación al cuadrado en el cálculo de la varianza, por lo que la desviación estándar se expresa en las mismas unidades que los datos originales.

\(\sigma = \sqrt{\sigma^2} = \sqrt{ \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}}\)

(población)

\(s = \sqrt{s^2} = \sqrt{ \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}}\)

(muestra)

La desviación estándar mide el grado de dispersión o separación promedio de los datos con respecto a su media aritmética. Un valor pequeño de desviación estándar indica que los datos tienden a estar muy concentrados cerca de la media (poca dispersión), mientras que un valor grande indica que los datos están más extendidos o dispersos.

Propiedades de la Desviación Estándar:

Siempre es no negativa: \(s \ge 0\) o \(\sigma \ge 0\). Es cero si y solo si todos los datos del conjunto son iguales (no hay dispersión).
Unidades: Se expresa en las mismas unidades que los datos originales, lo que facilita enormemente su interpretación.
Sensibilidad a todos los datos: Cada valor del conjunto de datos afecta a la desviación estándar.
Sensibilidad a valores extremos (outliers): Al igual que la varianza (de la que deriva), la desviación estándar es sensible a los valores atípicos, ya que estos tienen un gran impacto en las sumas de cuadrados.
Invarianza ante cambios de origen: Si se suma o resta una constante a todos los valores del conjunto de datos, la desviación estándar no cambia. Esto es porque la dispersión relativa entre los datos permanece igual.

Si \(y_i = x_i + c\), entonces \(s_y = s_x\).

Afectada por cambios de escala: Si se multiplican todos los valores del conjunto de datos por una constante \(c\), la desviación estándar se multiplica por el valor absoluto de esa constante \(|c|\).

Si \(y_i = c \cdot x_i\), entonces \(s_y = |c| \cdot s_x\).

Importancia y Usos Comunes de la Desviación Estándar:

Estadística Descriptiva: Es fundamental para resumir la variabilidad de un conjunto de datos junto con la media.
Estadística Inferencial:

Error Estándar: La desviación estándar de una distribución muestral de un estadístico (como la media muestral) se denomina error estándar y es crucial para la inferencia.

Intervalos de Confianza: Se utiliza para construir intervalos de confianza para parámetros poblacionales (e.g., la media poblacional).
Pruebas de Hipótesis: Es un componente clave en muchas pruebas estadísticas (e.g., pruebas t, ANOVA) para determinar si las diferencias observadas son estadísticamente significativas.

Regla Empírica y Teorema de Chebyshev:

Para datos con una distribución aproximadamente normal (forma de campana), la Regla Empírica (ver más abajo) utiliza la desviación estándar para estimar los porcentajes de datos que caen dentro de ciertos rangos alrededor de la media.

El Teorema de Chebyshev, más general, proporciona un límite inferior para la proporción de datos que deben estar dentro de un número específico de desviaciones estándar de la media, independientemente de la forma de la distribución.

Control de Calidad: En procesos industriales, la desviación estándar se usa para establecer límites de control y monitorear la variabilidad de la producción (e.g., gráficos de control de Shewhart).
Finanzas y Riesgo: En finanzas, la desviación estándar de los rendimientos de un activo se utiliza como una medida de su volatilidad o riesgo.
Ciencias e Ingeniería: Para cuantificar la precisión y el error en las mediciones.

Coeficiente de Variación (CV)

El coeficiente de variación es una medida relativa de dispersión. Se calcula como el cociente entre la desviación estándar y el valor absoluto de la media aritmética, y usualmente se expresa como porcentaje.

\(CV = \frac{s}{|\bar{x}|} \cdot 100\%\)

(para muestra)

\(CV = \frac{\sigma}{|\mu|} \cdot 100\%\)

(para población)

El uso del valor absoluto de la media en el denominador es para asegurar que el CV sea siempre no negativo y para evitar problemas si la media es negativa, aunque su uso es más común y directo cuando la media es positiva.

Adimensionalidad: Es una medida adimensional (no tiene unidades), lo que permite comparar la dispersión de conjuntos de datos incluso si tienen diferentes unidades de medida (e.g., comparar la dispersión de pesos en kg con la dispersión de alturas en cm) o si sus medias son significativamente diferentes.
Interpretación: Un CV más alto indica mayor dispersión relativa con respecto a la media. Un CV más bajo indica menor dispersión relativa.
Limitaciones: No es útil o puede ser engañoso si la media es cercana a cero, ya que pequeñas variaciones en la media pueden causar grandes fluctuaciones en el CV. Generalmente no se usa si la media es cero o negativa.

Ejemplo de comparación Supongamos que medimos el peso de elefantes adultos y ratones adultos.

Elefantes: Media = 5000 kg, Desviación Estándar = 500 kg.
Ratones: Media = 0.02 kg (20g), Desviación Estándar = 0.005 kg (5g).

La desviación estándar de los elefantes (500 kg) es mucho mayor que la de los ratones (0.005 kg). Sin embargo, para comparar su variabilidad relativa:

\(CV_{elefantes} = \frac{500}{5000} \cdot 100\% = 10\%\) \(CV_{ratones} = \frac{0.005}{0.02} \cdot 100\% = 25\%\) Relativamente, el peso de los ratones es más variable (25%) que el peso de los elefantes (10%).

Interpretación y Uso de las Medidas de Desviación

Rango: Proporciona una visión rápida y simple de la dispersión total. Mejor usarlo como una primera aproximación o cuando los datos no tienen outliers significativos.
Desviación Absoluta Media: Ofrece una medida intuitiva de la dispersión promedio en las unidades originales, menos afectada por outliers que la desviación estándar. Buena para una comprensión directa de la variabilidad.
Varianza y Desviación Estándar: Son las medidas de dispersión más robustas y utilizadas en estadística inferencial debido a sus propiedades matemáticas. La desviación estándar es preferida para la interpretación por tener las mismas unidades que los datos. Son fundamentales para:

Intervalos de confianza.

Pruebas de hipótesis.
Análisis de regresión.
Modelado estadístico.

Regla Empírica (para distribuciones aproximadamente normales o simétricas en forma de campana):

Aproximadamente el 68% de los datos se encuentran dentro de \(\mu \pm 1\sigma\) (una desviación estándar de la media).

Aproximadamente el 95% de los datos se encuentran dentro de \(\mu \pm 2\sigma\) (dos desviaciones estándar de la media).
Aproximadamente el 99.7% de los datos se encuentran dentro de \(\mu \pm 3\sigma\) (tres desviaciones estándar de la media).

Teorema de Chebyshev (para cualquier distribución):

Este teorema es más general y se aplica a cualquier conjunto de datos, independientemente de la forma de su distribución. Afirma que para cualquier número real \(k > 1\), la proporción de datos que se encuentran a \(k\) desviaciones estándar de la media es al menos \(1 - \frac{1}{k^2}\).

Para \(k=2\): Al menos \(1 - \frac{1}{2^2} = 1 - \frac{1}{4} = \frac{3}{4}\) (o 75%) de los datos están dentro de \(\mu \pm 2\sigma\).

Para \(k=3\): Al menos \(1 - \frac{1}{3^2} = 1 - \frac{1}{9} = \frac{8}{9}\) (o aproximadamente 88.9%) de los datos están dentro de \(\mu \pm 3\sigma\).

Aunque la Regla Empírica da estimaciones más precisas para distribuciones normales, el Teorema de Chebyshev proporciona una cota inferior garantizada para cualquier distribución.

Coeficiente de Variación: Indispensable para comparar la variabilidad entre diferentes conjuntos de datos, especialmente si sus medias o unidades de medida son distintas.

¿Qué medida elegir? La elección depende del tipo de datos, la presencia de outliers, la forma de la distribución y el objetivo del análisis. Si hay outliers extremos, la DAM o el rango intercuartílico (no cubierto aquí) pueden ser preferibles al rango o la desviación estándar. Para inferencia, la desviación estándar es la más común.

Ejemplo Práctico Completo

Ejemplo práctico completo Consideremos las puntuaciones de dos grupos de estudiantes en un examen (máximo 100 puntos):

Grupo A: {"{70, 75, 80, 85, 90}"} Grupo B: {"{60, 70, 80, 90, 100}"} Cálculos para el Grupo A:

Media (\(\bar{x}_A\)): \( \frac{70+75+80+85+90}{5} = \frac{400}{5} = 80\)
Rango (\(R_A\)): \(90 - 70 = 20\)
Desviación Absoluta Media (\(DAM_A\)):

\(DAM_A = \frac{|70-80| + |75-80| + |80-80| + |85-80| + |90-80|}{5}\) \(DAM_A = \frac{10 + 5 + 0 + 5 + 10}{5} = \frac{30}{5} = 6\)

Varianza (\(s_A^2\), muestral):

\(s_A^2 = \frac{(70-80)^2 + (75-80)^2 + (80-80)^2 + (85-80)^2 + (90-80)^2}{5-1}\) \(s_A^2 = \frac{(-10)^2 + (-5)^2 + (0)^2 + (5)^2 + (10)^2}{4} = \frac{100 + 25 + 0 + 25 + 100}{4} = \frac{250}{4} = 62.5\)

Desviación Estándar (\(s_A\)): \(\sqrt{62.5} \approx 7.91\)
Coeficiente de Variación (\(CV_A\)): \( \frac{7.91}{80} \cdot 100\% \approx 9.89\%\)

Cálculos para el Grupo B:

Media (\(\bar{x}_B\)): \( \frac{60+70+80+90+100}{5} = \frac{400}{5} = 80\)
Rango (\(R_B\)): \(100 - 60 = 40\)
Desviación Absoluta Media (\(DAM_B\)):

\(DAM_B = \frac{|60-80| + |70-80| + |80-80| + |90-80| + |100-80|}{5}\) \(DAM_B = \frac{20 + 10 + 0 + 10 + 20}{5} = \frac{60}{5} = 12\)

Varianza (\(s_B^2\), muestral):

\(s_B^2 = \frac{(60-80)^2 + (70-80)^2 + (80-80)^2 + (90-80)^2 + (100-80)^2}{5-1}\) \(s_B^2 = \frac{(-20)^2 + (-10)^2 + (0)^2 + (10)^2 + (20)^2}{4} = \frac{400 + 100 + 0 + 100 + 400}{4} = \frac{1000}{4} = 250\)

Desviación Estándar (\(s_B\)): \(\sqrt{250} \approx 15.81\)
Coeficiente de Variación (\(CV_B\)): \( \frac{15.81}{80} \cdot 100\% \approx 19.76\%\)

Conclusión del ejemplo: Ambos grupos tienen la misma media (80). Sin embargo, el Grupo B presenta valores consistentemente mayores para todas las medidas de dispersión (Rango, DAM, Varianza, Desviación Estándar y CV). Esto indica que las puntuaciones del Grupo B están más dispersas o son más heterogéneas que las del Grupo A. Las puntuaciones del Grupo A son más homogéneas y se concentran más cerca de la media. La DAM del Grupo B (12) es el doble que la del Grupo A (6), y la desviación estándar del Grupo B (\(\approx 15.81\)) también es considerablemente mayor que la del Grupo A (\(\approx 7.91\)), lo que confirma una mayor variabilidad en el Grupo B.