Estadística
I
Cuadernillo de
apoyo
- Descripción
- Distribuciones
- Estimación de
parámetros - Prueba de hipótesis
- Prueba de bondad de ajuste
- Bibliografía
El presente trabajo de
investigación, fue elaborado por el grupo de
ingeniería industrial (2002-2007), el cual pretende
auxiliar a las futuras generaciones de estudiantes universitarios
de la materia de
estadística, aquí se encuentran los temas de
Distribuciones, Estimación de Parámetros, Prueba de
Hipótesis y Pruebas de
Bondad de Ajuste; creemos que está muy completo,
también se pueden auxiliar docentes como cuadernillo de
apoyo, contiene definiciones, formulas, tablas, ejemplos y
ejercicios fáciles de seguir; sin duda una herramienta muy
útil.
Distribución normal
(ó campana de Gauss-Laplace)
Una de las distribuciones
teóricas mejor estudiadas en los textos de
bioestadística y más utilizada en la
práctica es la distribución normal,
también llamada distribución
gaussiana. Su importancia se debe fundamentalmente a la
frecuencia con la que distintas variables
asociadas a fenómenos naturales y cotidianos siguen,
aproximadamente, esta distribución. Caracteres
morfológicos (como la talla o el peso), o
psicológicos (como el cociente intelectual) son ejemplos
de variables de
las que frecuentemente se asume que siguen una
distribución normal. No obstante, y aunque algunos
autores han señalado que el comportamiento
de muchos parámetros en el campo de la salud puede ser descrito
mediante una distribución normal, puede resultar incluso
poco frecuente encontrar variables que se ajusten a este tipo de
comportamiento.
El uso extendido de la
distribución normal en las aplicaciones
estadísticas puede explicarse, además, por otras
razones. Muchos de los procedimientos
estadísticos habitualmente utilizados asumen la normalidad
de los datos
observados. Aunque muchas de estas técnicas no son
demasiado sensibles a desviaciones de la normal y, en general,
esta hipótesis puede obviarse cuando se dispone de un
número suficiente de datos, resulta
recomendable contrastar siempre si se puede asumir o no una
distribución normal. La simple exploración
visual de los datos puede sugerir la forma de su
distribución. No obstante, existen otras medidas,
gráficos de normalidad y contrastes de hipótesis
que pueden ayudarnos a decidir, de un modo más riguroso,
si la muestra de la que
se dispone procede o no de una distribución normal.
Cuando los datos no sean normales, podremos o bien transformarlos
o emplear otros métodos estadísticos que no exijan
este tipo de restricciones (los llamados métodos no
paramétricos).
A continuación se
describirá la distribución normal, su
ecuación matemática y sus propiedades más
relevantes, proporcionando algún ejemplo sobre sus
aplicaciones a la inferencia estadística. En la
sección 1.1.3 se describirán los métodos
habituales para contrastar la hipótesis de
normalidad.
Propiedades de la
distribución normal:
La distribución normal
posee ciertas propiedades importantes que conviene
destacar:
- Tiene una única moda, que
coincide con su media y su mediana. - La curva normal es
asintótica al eje de abscisas. Por ello, cualquier
valor entre
-¥ y +¥ es teóricamente posible. El
área total bajo la curva es, por tanto, igual a
1. - Es
simétrica con respecto a su media µ.
Según esto, para este tipo de variables existe una
probabilidad de
un 50% de observar un dato mayor que la media, y un 50% de
observar un dato menor. - La distancia entre la
línea trazada en la media y el punto de inflexión
de la curva es igual a una desviación típica
(σ). Cuanto
mayor sea σ, mαs
aplanada será la curva de la densidad. - El área bajo la curva
comprendida entre los valores
situados aproximadamente a dos desviaciones estándar de
la media es igual a 0.95. En concreto,
existe un 95% de posibilidades de observar un valor
comprendido en el intervalo
(µ-1.96σ,
µ+1.96σ). - La forma de la campana de Gauss
depende de los parámetros µ y σ (Figura
2). La media indica la posición de la campana, de
modo que para diferentes valores de
µ la gráfica es desplazada a lo largo del eje
horizontal. Por otra parte, la desviación
estándar determina el
grado de apuntamiento de la curva. Cuanto mayor sea el
valor de σ, mαs
se dispersarán los datos en torno a la
media y la curva será más plana. Un valor
pequeño de este parámetro indica, por tanto, una
gran probabilidad de
obtener datos cercanos al valor medio de la
distribución.
Figura 2. Ejemplos |
Como se deduce de
este último apartado, no existe una única
distribución normal, sino una familia de
distribuciones con una forma común, diferenciadas por
los valores de
su media y su varianza. De entre todas ellas, la más
utilizada es la distribución normal
estándar, que corresponde a una distribución de
media 0 y varianza 1. Así, la expresión que
define su densidad se puede
obtener de la Ecuación 1, resultando:
Es importante
conocer que, a partir de cualquier variable X que siga una
distribución N (µ,σ), se puede obtener otra
característica Z con una distribución normal
estándar, sin más que efectuar la
transformación:
Esta propiedad
resulta especialmente interesante en la práctica, ya que
para una distribución N (0,1) existen tablas publicadas a
partir de las que se puede obtener de modo sencillo la
probabilidad de observar un dato menor o igual a un cierto valor
z, y que permitirán resolver preguntas de probabilidad
acerca del comportamiento de variables de las que se sabe o se
asume que siguen una distribución aproximadamente
normal.
Consideremos, por ejemplo, el
siguiente problema: supongamos que se sabe que el peso de los
sujetos de una determinada población sigue una
distribución aproximadamente normal, con una media de 80
Kg y una desviación estándar de 10 Kg.
¿Podremos saber cuál es la probabilidad de que una
persona,
elegida al azar, tenga un peso superior a 100 Kg?
Denotando por X a la variable que
representa el peso de los individuos en esa población,
ésta sigue una distribución . Si su
distribución fuese la de una normal estándar
podríamos utilizar la tabla para calcular la probabilidad
que nos interesa. Como éste no es el caso,
resultará entonces útil transformar esta
característica según la Ecuación 2, y
obtener la variable:
Para poder utilizar
dicha tabla. Así, la probabilidad que se desea
calcular será:
Como el
área total bajo la curva es igual a 1, se puede deducir
que:
Esta última
probabilidad puede ser fácilmente obtenida a partir de la
Tabla, resultando ser . Por
lo tanto, la probabilidad buscada de que una persona elegida
aleatoriamente de esa población tenga un peso mayor de 100
Kg., es de 1–0.9772=0.0228, es decir, aproximadamente de un
2.3%.
De modo
análogo, podemos obtener la probabilidad de que el peso de
un sujeto esté entre 60 y 100 Kg.:
De la Figura 2,
tomando a =-2 y b =2, podemos deducir que:
Por el ejemplo
previo, se sabe que . Para
la segunda probabilidad, sin embargo, encontramos el problema de
que las tablas estándar no proporcionan el valor de
para valores
negativos de la variable. Sin embargo, haciendo uso de la
simetría de la distribución normal, se tiene
que:
Finalmente, la probabilidad
buscada de que una persona elegida al azar tenga un peso entre 60
y 100 Kg., es de 0.9772-0.0228=0.9544, es decir, aproximadamente
de un 95%. Resulta interesante comprobar que se
obtendría la misma conclusión recurriendo a la
propiedad
() de la
distribución normal.
No obstante, es
fácil observar que este tipo de situaciones no corresponde
a lo que habitualmente nos encontramos en la
práctica. Generalmente no se dispone de
información acerca de la distribución
teórica de la población, sino que más bien
el problema se plantea a la inversa: a partir de una muestra
extraída al azar de la población que se desea
estudiar, se realizan una serie de mediciones y se desea
extrapolar los resultados obtenidos a la población de
origen. En un ejemplo similar al anterior, supongamos que
se dispone del peso de n =100 individuos de esa misma
población, obteniéndose una media muestral de
Kg., y una desviación estándar muestral
S=12 Kg., querríamos extraer alguna conclusión
acerca del valor medio real de ese peso en la población
original. La solución a este tipo de cuestiones se
basa en un resultado elemental de la teoría
estadística, el llamado teorema central del
límite. Dicho axioma viene a decirnos que las medias
de muestras aleatorias de cualquier variable siguen ellas mismas
una distribución normal con igual media que la de la
población y desviación estándar la de la
población dividida por .
En nuestro caso, podremos entonces
considerar la media muestral , con lo
cual, a partir de la propiedad (iii) se conoce que
aproximadamente un 95% de los posibles valores de caerían dentro del intervalo .
Puesto que los valores de µ y σ son desconocidos, podrνamos pensar en aproximarlos por sus
análogos muestrales, resultando .
Estaremos, por lo tanto, un 95%
seguros de que
el peso medio real en la población de origen oscila entre
75.6 Kg. y 80.3 Kg. Aunque la teoría
estadística subyacente es mucho más compleja, en
líneas generales éste es el modo de construir un
intervalo de confianza para la media de una
población.
- Teorema de la
combinación lineal de variaciones normales y
chi-cuadrada
Terorema de Chebshev, este teorema
da una estimación conservadora de la probabilidad de que
una variable aleatoria tome un valor dentro de k dentro de k
desviaciones estándar de su media para cualquier
número real k. Proporcionaremos solo la
demostración para caso continuo.
La probabilidad de que
cualquier variable aleatoria X tome un valor dentro de k
desviaciones estándar de la media es al menos
1-. Es decir
.
- Distribuciones
muestrales
En esta
sección estudiaremos las distribuciones más
importantes de variables aleatorias continuas unidimensionales.
El soporte de una variable aleatoria continua se define
como aquella región de donde su
densidad es no nula, . Para las
distribuciones que enunciaremos, podrá ser bien todo
, o bien un segmento de la forma.
- Distribuciones
normales
La distribución gaussiana,
recibe también el nombre de distribución normal, ya
que una gran mayoría de las variables aleatorias continuas
de la naturaleza siguen
esta distribución. Se dice que una variable aleatoria X
sigue una distribución normal de parámetros µ
y σ2, lo que representamos del modo:
Si su
función de densidad es:
Estos dos parámetros
µ y σ2coinciden además con la media
(esperanza) y la varianza respectivamente de la
distribución como se demostrará más
adelante:
La forma de la
función de densidad es la llamada campana de Gauss.
Figura: Campana de Gauss o |
Para el lector es
un ejercicio interesante comprobar que ésta alcanza un
único máximo (moda) en
µ, que es simétrica con respecto al mismo, y por
tanto:
Con lo cual en
µ coinciden la media, la mediana y la moda, y por
último, calcular sus puntos de
inflexión.
El soporte de la
distribución es todo , de modo que
la mayor parte de la masa de probabilidad (área
comprendida entre la curva y el eje de abcisas) se encuentra
concentrado alrededor de la media, y las ramas de la curva se
extienden asintóticamente a los ejes, de modo que
cualquier valor “muy alejado" de la media es posible (aunque
poco probable).
La forma de la
campana de Gauss depende de los parámetros µ
y σ:
- µ indica la
posición de la campana (parámetro de
centralización);
Figura: Distribuciones gaussianas con diferentes medias e |
- σ2 (o
equivalentemente, σ)
serα el
parámetro de dispersión. Cuanto menor sea,
mayor cantidad de masa de probabilidad habrá
concentrada alrededor de la media (grafo de f muy apuntado
cerca de µ) y cuanto mayor sea “más aplastado"
será.
Figura: Distribuciones gaussianas con igual media pero |
La función
característica de la distribución normal, se
comprueba más adelante que es:
Como consecuencia,
la distribución normal es reproductiva con respecto a los
parámetros µ, y σ2, ya que:
Como se ha
mencionado anteriormente, la ley de
probabilidad gaussiana la encontramos en la mayoría de los
fenómenos que observamos en la naturaleza, por
ello gran parte de lo que resta del curso lo vamos a dedicar a su
estudio y a el de las distribuciones asociadas a ella. Sin
embargo, a pesar de su utilidad, hay que
apuntar un hecho negativo para esta ley de
probabilidad:
La función
no posee primitiva conocida.
Las consecuencias
desde el punto de vista práctico son importantes, ya que
eso impide el que podamos escribir de modo sencillo la
función de distribución de la normal, y nos tenemos
que limitar a decir que:
Sin poder hacer
uso de ninguna expresión que la simplifique.
Afortunadamente esto no impide que para un valor de x fijo, F(x)
pueda ser calculado. De hecho puede ser calculado con tanta
precisión (decimales) como se quiera, pero para esto se
necesita usar técnicas de cálculo numérico y
ordenadores. Para la utilización en problemas
prácticos de la función de distribución F,
existen ciertas tablas donde se ofrecen (con varios decimales de
precisión) los valores F(x) para una serie limitada de
valores xi dados. Normalmente F se encuentra tabulada
para una distribución Z, normal de media 0 y varianza 1
que se denomina distribución normal tipificada:
En el caso de que tengamos una distribución
diferente, se
obtiene Z haciendo el siguiente cambio:
De manera general se
tiene:
- Proposición
(Cambio de
origen y escala)
Sean .
Entonces:
Este resultado puede ser utilizado
del siguiente modo: Si , y nos interesa calcular ,
1. Hacemos el cambio y
calculamos ;
2. Usamos la tabla, relativa a la
distribución para obtener
(de modo aproximado) ;
3. Como tenemos que
el valor obtenido en la tabla, FZ(z) es la probabilidad
buscada.
Supongamos que cierto
fenómeno pueda ser representado mediante una variable
aleatoria , y queremos
calcular la probabilidad de que X tome un valor entre 39 y 48, es
decir,
Comenzamos haciendo el cambio de variable
De modo que:
Vamos ahora a demostrar algunas de
las propiedades de la ley gaussiana que hemos mencionado
anteriormente.
Sea .
Entonces
Demostración
Por ser la normal una ley de
probabilidad se tiene que
Es decir, esa integral es constante. Con lo cual, derivando la
expresión anterior con respecto a µ se obtiene el
valor 0:
Luego .
Para demostrar la igualdad entre
la var[X] y σ2, basta con aplicar
la misma técnica, pero esta vez derivando con respecto a
σ2:
Luego
Para demostrar el resultado
relativo a la función característica, consideramos
en primer lugar la variable aleatoria tipificada de X,
Y calculamos
Como , deducimos
que
- Distribución
Chi-Cuadrada (X2)
Si consideramos
una v.a. , la v.a.
X=Z2 se distribuye según una ley de probabilidad
distribución x2 con un grado de libertad, lo
que se representa como:
Si tenemos n v.a.
independientes , la suma de
sus cuadrados respectivos es una distribución que
denominaremos ley de distribución x2con
n grados de libertad,
x2n.
La media y varianza de esta variable son
respectivamente:
Y su
función de densidad es:
Los percentiles de esta
distribución que aparecen con más frecuencia en la
práctica los podemos encontrar en la tabla.
Figura: Función de densidad |
Figura: Función de densidad |
En consecuencia,
si tenemos x1,…,xn, v.a.
independientes, donde cada , se
tiene
La ley de distribución
x2muestra su importancia cuando queremos
determinar la variabilidad (sin signo) de cantidades que se
distribuyen en torno a un valor
central siguiendo un mecanismo normal. Como ilustración
tenemos el siguiente ejemplo:
Un instrumento para medir el nivel
de glucemia en sangre, ofrece
resultados bastantes aproximados con la realidad, aunque existe
cierta cantidad de error que se
distribuye de modo normal con media 0 y desviación
típica .
Se realizan
mediciones de los niveles de glucemia dados por el instrumento en
un grupo de n=100
pacientes. Nos interesa medir la cantidad de error que se acumula
en las mediciones de todos los pacientes. Podemos plantear varias
estrategias para
medir los errores acumulados. Entre ellas destacamos las
siguientes:
1. Definimos el
error acumulado en las mediciones de todos los pacientes
como
¿Cuál es el valor esperado para
E1?
2. Definimos el
error acumulado como la suma de los cuadrados de todos los
errores (cantidades positivas):
¿Cuál es el valor esperado para
E2?
A la vista de los
resultados, cuál de las dos cantidades, E1 y
E2, le parece más conveniente utilizar en una
estimación del error cometido por un
instrumento.
Solución: Suponiendo que todas las mediciones son
independientes, se tiene que:
De este modo, el
valor esperado para E1 es 0, es decir, que los errores
ei van a tender a compensarse entre unos pacientes y
otros. Obsérvese que si µ no fuese conocido a
priori, podríamos utilizar E1, para obtener una
aproximación de µ
Sin embargo, el
resultado E1 no nos indica en qué medida hay
mayor o menor dispersión en los errores con respecto al 0.
En cuanto a E2 podemos afirmar lo
siguiente:
En este caso los
errores no se compensan entre sí, y si no fuese
conocido, podría ser “estimado" de modo aproximado
mediante
Sin embargo, no
obtenemos ninguna información con respecto a
µ.
En
conclusión, E1 podría ser utilizado para calcular
de modo aproximado µ, y E2 para calcular de modo aproximado
. Las dos cantidades tienen interés, y ninguna
lo tiene más que la otra, pues ambas formas de medir el
error nos aportan información.
El siguiente
resultado será de importancia más adelante. Nos
afirma que la media de distribuciones normales independientes es
normal pero con menor varianza y relaciona los grados de
libertad de
una v.a. con distribución x, con los de un
estadístico como la varianza:
- Teorema
(Cochran)
Sean v.a. independientes. Entonces
La
distribución -Student se
construye como un cociente entre una normal y la raíz de
una x2independientes. De modo preciso, llamamos
distribución t-Student con n grados de libertad,
tn a la de una v.a. T,
Donde ,
. Este tipo de distribuciones aparece cuando tenemos
n+1 v.a. independientes
y nos interesa la
distribución de
La función
de densidad de es
Figura: Función de densidad de una de |
La
distribución t de Student tiene propiedades parecidas a
N(0,1):
Es de media cero,
y simétrica con respecto a la misma;
Es algo más
dispersa que la normal, pero la varianza decrece hasta 1 cuando
el número de grados de libertad aumenta;
Figura: Comparación entre las funciones de densidad de t1 y |
Para un
número alto de grados de libertad se puede aproximar la
distribución de Student por la normal, es
decir,
Figura: Cuando aumentan los grados de libertad, la |
Para
calcular
En lugar de
considerar una primitiva de esa función y determinar la
integral definida, buscaremos el resultado aproximado en una
tabla de la distribución tn. Véase la
tabla, al final del libro.
Otra de las
distribuciones importantes asociadas a la normal es la que se
define como cociente de distribuciones
x2independientes. Sean e
v.a. independientes. Decimos entonces que la
variable
Sigue una distribución de probabilidad de Snedecor, con
(n,m) grados de libertad. Obsérvese que .
La forma
más habitual en que nos encontraremos esta
distribución será en el caso en que tengamos n+m
v.a. independientes
Y
así
De esta ley de
probabilidad lo que más nos interesa es su función
de distribución:
y para ello, como
en todas las distribuciones asociadas a la normal, disponemos de
una tabla donde encontrar aproximaciones a esas
cantidades.
Figura: Función de densidad de . |
Es claro que la
distribución de Snedecor no es simétrica, pues
sólo tienen densidad de probabilidad distinta de cero, los
punto de . Otra
propiedad interesante de la distribución de Snedecor
es:
Se puede demostrar
(teorema central del límite) que una
variable aleatoria discreta con distribución binomial,
se puede aproximar mediante una distribución
normal si n es suficientemente grande y p no está ni muy
próximo a 0 ni a 1. Como el valor esperado y la varianza
de X son respectivamente np y npq, la aproximación
consiste en decir que . El
convenio que se suele utilizar para poder realizar esta
aproximación es:
Aunque en realidad
esta no da resultados muy precisos a menos que realmente n sea un
valor muy grande o . Como
ilustración obsérvense las figuras
siguientes.
Figura: Comparación entre la función de |
Figura: La misma |
Durante cierta
epidemia de gripe, enferma el 30% de la población. En un
aula con 200 estudiantes de Medicina,
¿cuál es la probabilidad de que al menos 40
padezcan la enfermedad? Calcular la probabilidad de que haya 60
estudiantes con gripe.
Solución:
La variable aleatoria que contabiliza el número de alumnos
que padece la gripe es
Cuya media es
µ =n*p=60 y su varianza
es σ2=npq=42. Realizar
los cálculos con la ley binomial es muy engorroso, ya que
intervienen números combinatorios de gran tamaño, y
potencias muy elevadas. Por ello utilizamos la
aproximación normal de X, teniendo en cuenta que se
verifican las condiciones necesarias para que el error sea
aceptable:
Así
aproximando la variable aleatoria discreta binomial X, mediante
la variable aleatoria continua normal XN tenemos:
También es necesario calcular P[X]=60. Esta probabilidad
se calcula exactamente como:
Dada la dificultad
numérica para calcular esa cantidad, y como la
distribución binomial no está habitualmente
tabulada hasta valores tan altos, vamos a utilizar su
aproximación normal, XN. Pero hay que prestar
atención al hecho de que XN es una variable aleatoria
continua, y por tanto la probabilidad de cualquier punto es cero.
En particular,
Lo que ha de ser
interpretado como un error de aproximación. Hay
métodos más aproximados para calcular la
probabilidad buscada. Por ejemplo, podemos aproximar P[X]=60 por
el valor de la función de densidad de XN en ese punto (es
en el único sentido en que se puede entender la
función de densidad de la normal como una
aproximación de una probabilidad). Así:
Por último,
otra posibilidad es considerar un intervalo de longitud 1centrado
en el valor 60 del que deseamos hallar su probabilidad y
hacer:
Según un
estudio, la altura de los varones de cierta ciudad es una v.a. X,
que podemos considerar que se distribuye según una ley
gaussiana de valor esperado µ =175 cm. y desviación
típica σ=10 cm.
Dar un intervalo para el que tengamos asegurado que el 50% de los
habitantes de la ciudad estιn comprendidos en él.
Solución:
Tenemos que . Si
buscamos un intervalo donde estar seguros de que el
50% de los habitantes tengan sus alturas comprendidas en
él hay varias estrategias
posibles:
1. Podemos tomar
el percentil 50, ya que este valor deja por debajo suya a la
mitad, 0,5, de la masa de probabilidad. Este valor,
x0,5, se definiría como:
Donde
El valor z0,5 lo
podemos buscar en la tabla (distribución N(0,1) y se
obtiene:
Por tanto podemos
decir que la mitad de la población tiene una altura
inferior a X0,5=175 cm. Este resultado era de esperar,
ya que en la distribución es simétrica y
habrá una mitad de individuos con un peso inferior a la
media y otro con un peso superior. Esto puede escribirse
como:
El 50% de la
población tiene un peso comprendido en el intervalo
(-¥ ,175).
Figura: |
2. Análogamente podemos
considerar el percentil 50, y tomar como intervalo aquellos pesos
que lo superan. Por las mismas razones que en el problema
anterior, podremos decir:
El 50% de la población tiene un
peso comprendido en el intervalo [175,+¥ ).
3. Los anteriores intervalos, aún
dando un resultado correcto, no son satisfactorios en el sentido
de que son muy grandes, y no tienen en cuenta la simetría
de la distribución normal para tomar un intervalo cuyo
centro sea µ. Vamos a utilizar entonces otra técnica
que nos permita calcular el intervalo centrado en la media, y que
además será el más pequeño posible
que contenga al 50% de la población.
Para ello observamos que la mayor parte
de probabilidad está concentrada siempre alrededor de la
media en las leyes gaussianas.
Entonces podemos tomar un intervalo que contenga un 25% de
probabilidad del lado izquierdo más próximo a la
media, y un 25% del derecho.
Figura: |
Esto se puede describir como el
intervalo donde
x0,25 es el valor que deja por debajo de sí al
25% de la masa de probabilidad y x0,75 el que lo deja
por encima (o lo que es lo mismo, el que deja por debajo al 75%
de las observaciones). Del mismo modo que antes estos valores
pueden ser buscados en una tabla de la distribución
normal, tipificando en primera instancia para destipificar
después:
Donde
En una tabla encontramos el valor z0,75, y se
destipifica:
Análogamente se calcularía
Donde:
Por la simetría de la
distribución normal con respecto al origen, tenemos que
z0,25= – z0,75.Luego
En conclusión:
El 50% de la población tiene un
peso comprendido en el intervalo [168,25,181,75].
De entre los tres intervalos que se han
calculado el que tiene más interés es el
último, ya que es simétrico con respecto a la
media, y es el más pequeño de todos los posibles
(más preciso). Este ejemplo es en realidad una
introducción a unas técnicas de inferencia
estadística que trataremos posteriormente, conocidas con
el nombre de “estimación confidencial'' o
“cálculo de intervalos de confianza''.
Problemas
Ejercicio 1. Para estudiar la regulación
hormonal de una línea metabólica se inyectan ratas
albinas con un fármaco que inhibe la síntesis de
proteínas del organismo. En general, 4 de cada 20 ratas
mueren a causa del fármaco antes de que el experimento
haya concluido. Si se trata a 10 animales con el
fármaco, ¿cuál es la probabilidad de que al
menos 8 lleguen vivas al final del experimento?
Ejercicio 2. En una cierta población se ha
observado un número medio anual de muertes por
cáncer de pulmón de 12. Si el número de
muertes causadas por la enfermedad sigue una distribución
de Poisson, ¿cuál es la probabilidad de que durante
el año en curso?
1. ¿Haya exactamente 10 muertes por cáncer
de pulmón?
2. ¿15 o más personas mueran a causa de la
enfermedad?
3. ¿10 o menos personas mueran a causa de la
enfermedad?
Ejercicio 3. Dañando los cromosomas del
óvulo o del espermatozoide, pueden causarse mutaciones que
conducen a abortos, defectos de nacimiento, u otras deficiencias
genéticas. La probabilidad de que tal mutación se
produzca por radiación es del 10%. De las siguientes 150
mutaciones causadas por cromosomas
dañados, ¿cuántas se esperaría que se
debiesen a radiaciones? ¿Cuál es la probabilidad de
que solamente 10 se debiesen a radiaciones?
Ejercicio 4. Entre los diabéticos, el
nivel de glucosa en sangre X, en
ayunas, puede suponerse de distribución aproximadamente
normal, con media 106 mg/100 ml y desviación típica
8 mg/100 ml, es decir
1. Hallar
2. ¿Qué porcentaje de
diabéticos tienen niveles comprendidos entre 90 y
120?
3. Hallar .
4. Hallar .
5. Hallar el punto x caracterizado por la propiedad de
que el 25% de todos los diabéticos tiene un nivel de
glucosa en ayunas inferior o igual a x.
Ejercicio 5. Una prueba de laboratorio
para detectar heroína en sangre tiene un 92% de
precisión. Si se analizan 72 muestras en un mes,
¿cuál es la probabilidad de que:
1. ¿60 o menos estén correctamente
evaluadas?
2. ¿Menos de 60 estén correctamente
evaluadas?
3. ¿Exactamente 60 estén correctamente
evaluadas?
Ejercicio 6. El 10% de las personas tiene
algún tipo de alergia. Se seleccionan aleatoriamente 100
individuos y se les entrevista.
Hallar la probabilidad de que, al menos, 12 tengan algún
tipo de alergia. Hallar la probabilidad de que, como
máximo, 8 sean alérgicos a algo.
Ejercicio 7. La probabilidad de muerte
resultante del uso de píldoras anticonceptivas es de
3/100.000. De 1.000.000 de mujeres que utilizan este medio de
control de
natalidad:
1. ¿Cuántas muertes debidas a esta causa
se esperan?
2. ¿Cuál es la probabilidad de que haya,
como máximo, 25 de estas muertes?
3. ¿Cuál es la probabilidad de que el
número de muertes debidas a esta causa esté entre
25 y 35, inclusive?
Ejercicio 8. La probabilidad de presentar una
característica genética es de 1/20.
1. Tomando una muestra de 8 individuos, calcular la
probabilidad de que 3 individuos presenten la
característica.
2. Tomando una muestra de 80 personas,
¿cuál será la probabilidad de que aparezcan
más de 5 individuos con la
característica?
Ejercicio 9. Se supone que en una cierta
población humana el índice cefálico
i, (cociente entre el diámetro transversal y el
longitudinal expresado en tanto por ciento), se distribuye
según una Normal. El 58% de los habitantes son
dolicocéfalos (i £ 75), el 38% son
mesocéfalos (75 < i £ 80) y el 4% son
braquicéfalos (i > 80). Hállese la media y la
desviación típica del índice cefálico
en esa población.
Ejercicio 10. Se supone que la glucemia basal en
individuos sanos, Xs sigue una
distribución
Mientras que en los diabéticos
Xd, sigue una distribución
Si se conviene en clasificar como sanos al 2% de los
diabéticos:
1. ¿Por debajo de qué valor se considera
sano a un individuo? ¿Cuántos sanos serán
clasificados como diabéticos?
2. Se sabe que en la población en general el 10%
de los individuos son diabéticos ¿cuál es la
probabilidad de que un individuo elegido al azar y diagnosticado
como diabético, realmente lo sea?
Ejercicio 611. Supóngase que se van a
utilizar 20 ratas en un estudio de agentes coagulantes de la
sangre. Como primera experiencia, se dio un anticoagulante a 10
de ellos, pero por inadvertencia se pusieron todas sin marcas en el
mismo recinto. Se necesitaron 12 ratas para la segunda fase del
estudio y se les tomó al azar sin reemplazamiento.
¿Cuál es la probabilidad de que de las 12 elegidas
6 tengan la droga y 6 no
la tengan?
2. UNIDAD:
ESTIMACIÓN DE PARÁMETROS
El propósito de un estudio
estadístico suele ser, como hemos venido citando, extraer
conclusiones acerca de la naturaleza de una población. Al
ser la población grande y no poder ser estudiada en su
integridad en la mayoría de los casos, las conclusiones
obtenidas deben basarse en el examen de solamente una parte de
ésta, lo que nos lleva, en primer lugar a la
justificación, necesidad y definición de las
diferentes técnicas de muestreo.
Los primeros
términos obligados a los que debemos hacer referencia
serán los de
estadístico
y
estimador.
Dentro de este contexto, será
necesario asumir un estadístico o estimador como una
variable aleatoria con una determinada distribución, y que
será la pieza clave en las dos amplias categorías
de la inferencia estadística: la estimación y el
contraste de hipótesis.
El concepto de
estimador, como herramienta fundamental, lo caracterizamos
mediante una serie de propiedades que nos servirán para
elegir el “mejor" para un determinado parámetro de una
población, así como algunos métodos para la
obtención de ellos, tanto en la estimación puntual
como por intervalos.
¿Cómo deducir la ley de
probabilidad sobre determinado carácter de una
población cuando sólo conocemos una
muestra?
Este es un problema al que nos
enfrentamos cuando por ejemplo tratamos de estudiar la
relación entre el fumar y el cáncer de
pulmón e intentamos extender las conclusiones obtenidas
sobre una muestra al resto de individuos de la
población.
La tarea fundamental de la
estadística inferencial, es hacer inferencias acerca de la
población a partir de una muestra extraída de la
misma.
Técnicas de muestreo sobre
una población
La teoría del muestreo tiene por
objetivo, el
estudio de las relaciones existentes entre la distribución
de un carácter en dicha población y las
distribuciones de dicho carácter en todas sus
muestras.
Las ventajas de estudiar una
población a partir de sus muestras son
principalmente:
- Coste reducido:
Si los datos que buscamos los podemos
obtener a partir de una pequeña parte del total de la
población, los gastos de
recogida y tratamiento de los datos serán menores. Por
ejemplo, cuando se realizan encuestas
previas a un referéndum, es más barato preguntar a
4.000 personas su intención de voto, que a
30.000.000;
- Mayor rapidez:
Estamos acostumbrados a ver cómo
con los resultados del escrutinio de las primeras mesas
electorales, se obtiene una aproximación bastante buena
del resultado final de unas elecciones, muchas horas antes de que
el recuento final de votos haya finalizado;
- Más posibilidades:
Para hacer cierto tipo de estudios, por
ejemplo el de duración de cierto tipo de bombillas, no es
posible en la práctica destruirlas todas para conocer su
vida media, ya que no quedaría nada que vender. Es mejor
destruir sólo una pequeña parte de ellas y sacar
conclusiones sobre las demás.
De este modo se ve que al hacer
estadística inferencial debemos enfrentarnos con dos
problemas:
Elección de la muestra
(muestreo), que es a lo que nos dedicaremos en este
capítulo.
Extrapolación de las conclusiones
obtenidas sobre la muestra, al resto de la población
(inferencia).
El tipo de
muestreo más importante es el
muestreo
aleatorio, en el que todos
los elementos de la población tienen la misma probabilidad
de ser extraídos; Aunque dependiendo del problema y con el
objetivo de
reducir los costes o aumentar la precisión, otros tipos de
muestreo pueden ser considerados como veremos más
adelante:
muestreo
sistemático,
estratificado y
por
conglomerados.
Muestreo aleatorio
Consideremos una población
finita, de la que deseamos extraer una muestra. Cuando el
proceso de
extracción es tal que garantiza a cada uno de los
elementos de la población la misma oportunidad de ser
incluidos en dicha muestra, denominamos al proceso de
selección muestreo aleatorio.
El muestreo aleatorio se puede plantear
bajo dos puntos de vista:
-
Sin
reposición de los elementos;
Con
reposición.
Muestreo aleatorio sin
reposición
Consideremos una población E
formada por N elementos. Si observamos un elemento particular,
, en un muestreo aleatorio sin reposición se da
la siguiente circunstancia:
La probabilidad de que e sea elegido en
primer lugar es;
Si no ha sido elegido en primer lugar
(lo que ocurre con una probabilidad de ), la
probabilidad de que sea elegido en el segundo intento es
de.
En el (i+1)-ésimo intento, la
población consta de N-i elementos, con lo cual si e no ha
sido seleccionado previamente, la probabilidad de que lo sea en
este momento es de.
Si consideramos una muestra de
elementos, donde el orden en la elección de
los mismos tiene importancia, la probabilidad de elección
de una muestra
cualquiera es
Lo que corresponde en el sentido de la
definición de probabilidad de Laplace a un caso posible
entre las VN,n posibles n-uplas de N elementos de la
población.
Si el orden no interviene, la
probabilidad de que una muestra
Sea elegida es la suma de las
probabilidades de elegir una cualquiera de sus n-uplas, tantas
veces como permutaciones en el orden de sus elementos sea
posible, es decir
Muestreo aleatorio con
reposición
Sobre una población E de
tamaño N podemos realizar extracciones de n elementos,
pero de modo que cada vez el elemento extraído es repuesto
al total de la población. De esta forma un elemento puede
ser extraído varias veces. Si el orden en la
extracción de la muestra interviene, la probabilidad de
una cualquiera de ellas, formada por n elementos es:
Si el orden no interviene, la
probabilidad de una muestra cualquiera, será la suma de la
anterior, repitiéndola tantas veces como manera de
combinar sus elementos sea posible. Es decir,
- sea n1 el número de veces que se
repite cierto elemento e1 en la muestra; - sea n2 el número de veces que se
repite cierto elemento e2;
- sea nk el número de veces que se
repite cierto elemento ek,
De modo que . Entonces
la probabilidad de obtener la muestra:
Es
Es decir,
El muestreo aleatorio con
reposición es también denominado muestreo aleatorio
simple, que como hemos mencionado se caracteriza por
que
- Cada elemento de la población tiene la misma
probabilidad de ser elegido, y… - Las observaciones se realizan con reemplazamiento.
De este modo, cada observación es realizada sobre la
misma población (no disminuye con las extracciones
sucesivas).
Sea X una v.a. definida sobre la
población E, y f(x) su ley de probabilidad.
En una muestra aleatoria simple, cada
observación tiene la distribución de probabilidad
de la población:
Además todas las observaciones de la v.a. son
independientes, es decir
Las relaciones anteriores caracterizan a las muestras aleatorias
simples.
Tablas de números
aleatorios: Lotería Nacional
Un ejemplo de una tabla de
números aleatorios consiste en la lista de los
números de Lotería Nacional premiados a lo largo de
su historia, pues se
caracterizan por que cada dígito tiene la misma
probabilidad de ser elegido, y su elección es
independiente de las demás extracciones.
Un modo de hacerlo es el siguiente.
Supongamos que tenemos una lista de números aleatorios de
k=5 cifras (00000-99.999), una población de N=600
individuos, y deseamos extraer una muestra de n=6 de ellos. En
este caso ordenamos a toda la población (usando cualquier
criterio) de modo que a cada uno de sus elementos le corresponda
un número del 1 al 600. En segundo lugar nos dirigimos a
la tabla de números aleatorios, y comenzando en cualquier
punto extraemos un número t, y tomamos como primer
elemento de la muestra al elemento de la
población:
El proceso se repite tomando los
siguientes números de la tabla de números
aleatorios, hasta obtener la muestra de 10 individuos.
Las cantidades
Pueden ser consideradas como
observaciones de una v.a. U, que sigue una distribución
uniforme en el intervalo [0,1]
Método de Montecarlo
El método de Montecarlo es una
técnica para obtener muestras aleatorias simples de una
v.a. X, de la que conocemos su ley de probabilidad (a partir de
su función de distribución F). Con este
método, el modo de elegir aleatoriamente un valor de X
siguiendo usando su ley de probabilidad es:
1. Usando una tabla de números
aleatorios se toma un valor u de una v.a. .
2. Si X es continua tomar como
observación de X, la cantidad x=F-1(u). En el caso en que
X sea discreta se toma x como el percentil de X, es
decir el valor más pequeño que verifica que
. Este proceso se debe repetir n veces para obtener
una muestra de tamaño n.
Si queremos extraer n=10 muestras de una
distribución N(0,1) podemos recurrir a una tabla de
números aleatorios de k=5 cifras, en las que observamos
las cantidades (por ejemplo)
A partir de ellas podemos obtener una
muestra de usando una
tabla de la distribución normal:
Números | Muestra | Muestra |
ti | xi = | |
76.293 | 0'76 | 0'71 |
31.776 | 0'32(=1-0'68) | -0'47 |
50.803 | 0'51 | 0'03 |
71.153 | 0'71 | 0'55 |
20.271 | 0'20(=1-0'80) | -0'84 |
33.717 | 0'34(=1-0'66) | -0'41 |
17.979 | 0'18(=1-0'82) | -0'92 |
52.125 | 0'52 | 0'05 |
41.330 | 0'41(=1-0'59) | -0'23 |
95.141 | 0'95 | 1'65 |
Obsérvese
que como era de esperar, las observaciones xi tienden a agruparse
alrededor de la esperanza matemática de . Por
otra parte, esto no implica que el valor medio de la muestra sea
necesariamente . Sin embargo
como sabemos por el
teorema de Fisher
que
Su dispersión con respecto al
valor central es pequeña, lo que implica que probablemente
el valor medio estará
muy próximo a 0, como se puede calcular:
Obsérvese que si el problema
fuese el inverso, donde únicamente conociésemos las
observaciones xi y que el mecanismo que generó esos datos
hubiese sido una distribución normal de parámetros
desconocidos, con obtenida
hubiésemos tenido una buena aproximación del
“parámetro desconocido''µ. Sobre esta
cuestión volveremos más adelante al abordar el
problema de la estimación puntual de
parámetros.
Muestreo sistemático
Cuando los elementos de la
población están ordenados en fichas o en
una lista, una manera de muestrear consiste en
- Sea ;
- Elegir aleatoriamente un número m, entre 1 y
k; - Tomar como muestra los elementos de la
lista:
Esto es lo que se denomina muestreo
sistemático. Cuando el criterio de ordenación de
los elementos en la lista es tal que los elementos más
parecidos tienden a estar más cercanos, el muestreo
sistemático suele ser más preciso que el aleatorio
simple, ya que recorre la población de un modo más
uniforme. Por otro lado, es a menudo más fácil no
cometer errores con un muestreo sistemático que con este
último.
El método tal como se ha definido
anteriormente es sesgado si no es
entero, ya que los últimos elementos de la lista nunca
pueden ser escogidos. Un modo de evitar este problema consiste en
considerar la lista como si fuese circular (el elemento N+1
coincide con el primero) y:
- Sea k el entero más cercano a ;
- Se selecciona un número al azar m, entre 1 y
N; - Se toma como muestra los elementos de la lista que
consisten en ir saltando de k elementos en k, a partir de m,
teniendo en cuenta que la lista es circular.
Se puede comprobar que con este
método todos los elementos de la lista tienen la misma
probabilidad de selección.
Muestreo aleatorio estratificado
Un muestreo aleatorio estratificado es
aquel en el que se divide la población de N individuos, en
k subpoblaciones o estratos, atendiendo a criterios que puedan
ser importantes en el estudio, de tamaños respectivos
N1, …, Nk,
Y realizando en cada una de estas
subpoblaciones muestreos aleatorios simples de tamaño
ni i=1,…,k.
A continuación nos planteamos el
problema de cuantos elementos de muestra se han de elegir de cada
uno de los estratos. Para ello tenemos fundamentalmente dos
técnicas: la asignación proporcional y la
asignación óptima.
Supongamos que realizamos un estudio
sobre la población de estudiantes de una Universidad, en
el que a través de una muestra de 10 de ellos queremos
obtener información sobre el uso de barras de
labios.
En primera aproximación lo que
procede es hacer un muestreo aleatorio simple, pero en su lugar
podemos reflexionar sobre el hecho de que el comportamiento de la
población con respecto a este carácter no es
homogéneo, y atendiendo a él, podemos dividir a la
población en dos estratos:
- Estudiantes masculinos (60% del total);
- Estudiantes femeninos (40% restante).
De modo que se repartan
proporcionalmente ambos grupos el
número total de muestras, en función de sus
respectivos tamaños (6 varones y 4 mujeres). Esto es lo
que se denomina asignación proporcional.
Si observamos con más
atención, nos encontramos (salvo sorpresas de probabilidad
reducida) que el comportamiento de los varones con respecto al
carácter que se estudia es muy homogéneo y
diferenciado del grupo de las mujeres.
Por otra parte, con toda seguridad la
precisión sobre el carácter que estudiamos,
será muy alta en el grupo de los varones aunque en la
muestra haya muy pocos (pequeña varianza), mientras que en
el grupo de las mujeres habrá mayor dispersión.
Cuando las varianzas poblacionales son pequeñas, con pocos
elementos de una muestra se obtiene una información
más precisa del total de la población que cuando la
varianza es grande. Por tanto, si nuestros medios
sólo nos permiten tomar una muestra de 10 alumnos,
será más conveniente dividir la muestra en dos
estratos, y tomar mediante muestreo aleatorio simple cierto
número de individuos de cada estrato, de modo que se
elegirán más individuos en los grupos de mayor
variabilidad. Así probablemente obtendríamos
mejores resultados estudiando una muestra de
- 1 varón.
- 9 hembras.
Esto es lo que se denomina
asignación óptima.
Asignación proporcional
Sea n el número de individuos de
la población total que forman parte de alguna
muestra:
Cuando la asignación es
proporcional el tamaño de la muestra de cada estrato es
proporcional al tamaño del estrato correspondiente con
respecto a la población total:
Asignación óptima
Cuando se realiza un muestreo
estratificado, los tamaños muestrales en cada uno de los
estratos, ni, los elige quien hace el muestreo, y para ello puede
basarse en alguno de los siguientes criterios:
- Elegir los ni de tal modo que se minimice la varianza
del estimador, para un coste especificado, o bien, - habiendo fijado la varianza que podemos admitir
para el estimador, minimizar el coste en la obtención
de las muestras.
Así en un estrato dado, se tiende
a tomar una muestra más grande cuando:
- El estrato es más grande;
- El estrato posee mayor variabilidad interna
(varianza); - El muestreo es más barato en ese
estrato.
Para ajustar el tamaño de los
estratos cuando conocemos la dispersión interna de cada
uno de los mismos, tenemos el siguiente resultado:
[Asignación de Neyman] Sea E una
población con N elementos, dividida en k estratos, con
Ni elementos cada uno de
ellos,i=1,…,k
Sea n el número total de
elementos al realizar el muestreo, y que se dividen en cada
estrato como
Sea X la v.a. que representa el
carácter que intentamos estudiar. Sobre cada estrato puede
definirse entonces la v.a.
Como el valor medio de X obtenida en una
muestra de tamaño ni en el estrato
Ei. Sea Var[Xi] la varianza de dicha v.a.;
Entonces
Se minimiza cuando
Donde
Es la cuasi-varianza del estrato
Ei.
Muestreo por conglomerados
Si intentamos hacer un estudio sobre los
habitantes de una ciudad, el muestreo aleatorio simple puede
resultar muy costoso, ya que estudiar una muestra de
tamaño n implica enviar a los encuestadores a npuntos
distintos de la misma, de modo que en cada uno de ellos
sólo se realiza una entrevista. En
esta situación es más económico realizar el
denominado muestreo por conglomerados, que consiste en elegir
aleatoriamente ciertos barrios dentro de la ciudad, para
después elegir calles y edificios. Una vez elegido el
edificio, se entrevista a todos los vecinos.
Estimación Puntual
Máxima Verosimilitud
Sea X una v.a. con función de
probabilidad
Las muestras aleatorias simples de
tamaño n,
x1,x2,…,xn tienen por
distribución de probabilidad conjunta
Esta función que depende de n+1
cantidades podemos considerarla de dos maneras:
- Fijando , es una
función de la n cantidades xi. Esto es la
función de probabilidad o densidad. - Fijados los xi como consecuencia de los
resultados de elegir una muestra mediante un experimento
aleatorio, es únicamente función de
. A esta función de la
denominamos función de verosimilitud.
En este punto podemos plantearnos el que
dado una muestra sobre la que se ha observado los valores
xi, una posible estimación del parámetro
es aquella que maximiza la función de
verosimilitud.
Página siguiente |