Las medias de tendencia central o posición nos
indican donde se sitúa un dato dentro de una
distribución de datos. Las medidas de dispersión,
variabilidad o variación nos indican si esos datos
están próximos entre sí o sí
están dispersos, es decir, nos indican cuán
esparcidos se encuentran los datos. Estas medidas de
dispersión nos permiten apreciar la distancia que existe
entre los datos a un cierto valor central e identificar la
concentración de los mismos en un cierto sector de la
distribución, es decir, permiten estimar cuán
dispersas están dos o más distribuciones de
datos.
Estas medidas permiten evaluar la confiabilidad del
valor del dato central de un conjunto de datos, siendo la media
aritmética el dato central más utilizado. Cuando
existe una dispersión pequeña se dice que los datos
están dispersos o acumulados cercanamente respecto a un
valor central, en este caso el dato central es un valor muy
representativo. En el caso que la dispersión sea grande el
valor central no es muy confiable. Cuando una distribución
de datos tiene poca dispersión toma el nombre de
distribución homogénea y si su dispersión es
alta se llama heterogénea.
Desviación
media o desviación promedio
La desviación media o desviación promedio
es la media aritmética de los valores absolutos de las
desviaciones respecto a la media aritmética.
1.1) PROPIEDADES
Guarda las mismas dimensiones que las observaciones. La
suma de valores absolutos es relativamente sencilla de calcular,
pero esta simplicidad tiene un inconveniente: Desde el punto de
vista geométrico, la distancia que induce la
desviación media en el espacio de observaciones no es la
natural (no permite definir ángulos entre dos
conjuntos de observaciones). Esto hace que sea muy engorroso
trabajar con ella a la hora de hacer inferencia a la
población.
Cuando mayor sea el valor de la desviación media,
mayor es la dispersión de los datos. Sin embargo, no
proporciona una relación matemática precisa entre
su magnitud y la posición de un dato dentro de una
distribución.
La desviación media al tomar los valores
absolutos mide una observación sin mostrar si la misma
está por encima o por debajo de la media
aritmética.
1.2) MÉTODOS DE CÁLCULO
1.2.1) Para Datos No Agrupados
Se emplea la ecuación:
Ejemplo ilustrativo:
Calcular la desviación media de la
distribución: 3, 8, 8, 8, 9, 9, 9, 18
Solución:
Se calcula la media aritmética.
Se calcula la desviación media.
Empleando Excel se calcula de la siguiente
manera:
1.2.2) Para Datos Agrupados en Tablas de
Frecuencia
Se emplea la ecuación:
Ejemplo ilustrativo: Calcular la
desviación media en base a la siguiente tabla sobre las
calificaciones de un estudiante en 12 asignaturas evaluadas sobre
10.
Calificación | Cantidad de asignaturas | |
6 | 4 | |
7 | 2 | |
8 | 3 | |
9 | 2 | |
10 | 1 | |
Total | 12 |
Solución:
Se calcula la media aritmética.
1.2.3) Para Datos Agrupados en
Intervalos
Se emplea la ecuación:
Donde xm es la marca de clase.
Ejemplo ilustrativo: Calcular la
desviación media de un curso de 40 estudiantes en la
asignatura de Estadística en base a la siguiente
tabla:
Calificación | Cantidad de estudiantes | |
2-4 | 6 | |
4-6 | 8 | |
6-8 | 16 | |
8-10 | 10 | |
Total | 40 |
Solución:
Para calcular la media aritmética se
llena la siguiente tabla:
Intervalo | f | xm | f·xm | |
2-4 | 6 | 3 | 18 | |
4-6 | 8 | 5 | 40 | |
6-8 | 16 | 7 | 112 | |
8-10 | 10 | 9 | 90 | |
Total | 40 | 260 |
Calculando la media aritmética se
obtiene:
Varianza y
desviación estándar
La varianza es la media aritmética de los
cuadrados de las desviaciones respecto a la media
aritmética, es decir, es el promedio de las desviaciones
de la media elevadas al cuadrado. La desviación
estándar o desviación típica es la
raíz de la varianza.
La varianza y la desviación estándar
proporcionan una medida sobre el punto hasta el cual se dispersan
las observaciones alrededor de su media
aritmética.
2.1) PROPIEDADES
– La varianza y desviación estándar (o
cualquier otra medida de dispersión) indican el grado en
que están dispersos los datos en una distribución.
A mayor medida, mayor dispersión.
– La varianza es un número muy grande con
respecto a las observaciones, por lo que con frecuencia se vuelve
difícil para trabajar.
– Debido a que las desviaciones son elevadas al cuadrado
y la varianza siempre se expresa en términos de los datos
originales elevados al cuadrado, se obtiene unidades de medida de
los datos que no tiene sentido o interpretación
lógica. Por ejemplo, si se calcula la varianza de una
distribución de datos medidos en metros, segundos,
dólares, etc, se obtendrá una varianza mediada en
metros cuadrados, segundos cuadrados, dólares cuadrados,
respectivamente, unidades de medida que no tienen significado
lógico respecto a los datos originales.
– Para solucionar las complicaciones que se tiene con la
varianza, se halla la raíz cuadrada de la misma, es decir,
se calcula la desviación estándar, la cual es un
número pequeño expresado en unidades de los datos
originales y que tiene un significado lógico respeto a los
mismos.
A pesar de lo anterior, es difícil describir
exactamente qué es lo que mide la desviación
estándar. Sin embargo, hay un resultado útil, que
lleva el nombre del matemático ruso Pafnuty Lvovich
Chebyshev, y se aplica a todos los conjuntos de datos. Este
teorema de Chebyshev establece que para todo conjunto de datos,
por lo menos 1- 1/k2 de las observaciones están dentro de
k desviaciones estándar de la media, en donde k es
cualquier número mayor que 1. Este teorema se expresa de
la siguiente manera:
Así por ejemplo, si se forma una
distribución de datos con k =3 desviaciones
estándar por debajo de la media hasta 3 desviaciones
estándar por encima de la media, entonces por lo
menos
Interpretación: El 88,89% de todas las
observaciones estarán dentro ± 3 desviaciones de la
media.
2.2) MÉTODOS DE CÁLCULO
2.2.1) Para Datos No Agrupados
La varianza para una población se calcula
con:
Notas:
1) Para el cálculo de la varianza de una
muestra se divide por n-1 en lugar de N, debido a que se tiene
n-1 grados de libertad en la muestra. Otra razón por la
que se divide por n-1 es debido a que una muestra generalmente
está un poco menos dispersa que la población de la
cual se tomó. Al dividir para n-1 en lugar de N se cumple
con la tendencia y sentido lógico de que la varianza y
desviación estándar de la muestra deben tener un
valor más pequeño que la varianza y
desviación estándar de la
población.
2) En la realidad, salvo indicación
expresa, no se calcula la varianza y la desviación
estándar de la población, ya que para ahorrar
tiempo, esfuerzo, dinero, etc. es mejor trabajar con datos que
representan a la muestra.
Ejemplo ilustrativo N° 1
Considere que los siguientes datos corresponden al
sueldo de una población: $350, $400, $500, $700 y
$1000
1) Calcular la desviación
estándar.
2) ¿Cuál es el intervalo que está
dentro de k = 2 desviaciones estándar de la media?.
¿Qué porcentaje de las observaciones se encuentran
dentro de ese intervalo?
Solución:
1) Para la calcular la desviación estándar
se sigue los siguientes pasos:
a) Se calcula la media aritmética.
b) Se aplica la respectiva fórmula para calcular
la varianza
c) Se calcula la desviación
estándar.
Empleando Excel se calcula de la siguiente
manera:
2) Cálculo del intervalo de k = 2 desviaciones
estándar de la media.
Se transportan 2 desviaciones estándar (2 x $
237,4868) = $ 474,97 por encima y por debajo de la media
= $ 590
Por lo tanto se tiene un intervalo desde $ 590 – $474,97
= $ 115,03 hasta $ 590 + $474,97 = $ 1064,97
Aplicando el Teorema de Chebyshev
Interpretación: Se puede afirmar de que
por lo menos el 75% los sueldos están entre $ 115,03 y $
1064,97
Ejemplo ilustrativo N° 2: Dos empresas, A y
B, venden sobres de café instantáneo de 350 gramos.
Se seleccionaron al azar en los mercados cinco sobres de cada una
de las compañías y se pesaron cuidadosamente sus
contenidos. Los resultados fueron los siguientes.
A | B |
350,14 | 350,09 |
350,18 | 350,12 |
349,98 | 350,20 |
349,99 | 349,88 |
350,12 | 349,95 |
1) ¿Qué empresa proporciona más
café en sus sobres?
2) ¿Qué empresa llena sus sobres de manera
más consistente?
Solución:
a) Se calcula las medias aritméticas.
Interpretación: Como la media
aritmética de la empresa A es mayor que la de la empresa
B, por lo tanto la empresa A proporciona más café
en sus sobres.
b) Se calcula las desviaciones
estándar.
Interpretación: Como la
desviación estándar de la empresa A es menor a la
desviación estándar de la empresa B, por lo tanto
la empresa A es más consistente al llenar los sobres de
café.
Empleando Excel se calcula de la siguiente
manera:
2.2.2) Para Datos Agrupados en Tablas de
Frecuencia
La varianza para una población se calcula
con:
Ejemplo ilustrativo: Calcular la
desviación estándar de los siguientes datos
correspondientes a una muestra.
Calificaciones | f |
4 | 3 |
5 | 6 |
6 | 4 |
7 | 13 |
8 | 7 |
10 | 6 |
Total | 39 |
Solución:
a) Se llena la siguiente tabla:
Calificaciones | f | fx |
4 | 3 | 12 |
5 | 6 | 30 |
6 | 4 | 24 |
7 | 13 | 91 |
8 | 7 | 56 |
10 | 6 | 60 |
Total | 39 | 273 |
b) Se calcula la media aritmética.
2.2.3) Para Datos Agrupados en
Intervalos
La varianza para una población se calcula
con:
Ejemplo ilustrativo: Calcular la
desviación estándar de los siguientes datos
correspondientes a una muestra.
Intervalo | f |
60-65 | 5 |
65-70 | 20 |
70-75 | 40 |
80-85 | 27 |
85-90 | 8 |
Total | 100 |
Solución:
a) Se llena la siguiente tabla:
Intervalo | f | xm | f·xm |
60-65 | 5 | 62,5 | 312,5 |
65-70 | 20 | 67,5 | 1350 |
70-75 | 40 | 72,5 | 2900 |
80-85 | 27 | 82,5 | 2227,5 |
85-90 | 8 | 87,5 | 700 |
Total | 100 | 7490 |
b) Se calcula la media aritmética.
d) Se calcula la desviación
estándar.
Referencias
bibliográficas
SUÁREZ, Mario, (2011), Interaprendizaje de
Estadística Básica,
TAPIA , Fausto Ibarra, Ecuador.
Autor:
Mario Orlando Suárez Ibujes