Monografias.com > Estadística > Matemáticas
Descargar Imprimir Comentar Ver trabajos relacionados

Inferencia Estadística




Enviado por Cristina Fevola



    1. Introducción al
      muestreo
    2. Parámetros y
      estimadores
    3. Muestreo
      aleatorio
    4. Base de la inferencia
      estadística: muestreo aleatorio
      simple
    5. Introducción a las
      distribuciones de muestreo
    6. Base conceptual para
      muestrear distribuciones
    7. El teorema del límite
      central
    8. Relación entre el
      tamaño de la muestra y el error
      estándar
    9. Estimaciones
      puntuales
    10. Estimaciones de
      intervalo
    11. Cálculo de estimaciones
      de intervalo de la media a partir de muestras
      grandes
    12. Determinación
      del tamaño de la muestra
    13. Pruebas de
      hipótesis
    14. Introducción a la
      estadística no paramétrica
    15. Prueba de Kolmogorov.
      Smirnov

    Introducción
    al muestreo.

    Algunas veces es posible y práctico examinar a
    cada persona o
    elemento de la población que deseamos describir. A esto lo
    llamamos enumeración completa o censo. Utilizamos
    el muestreo cuando no es posible contar o medir todos los
    elementos de la población.

    Los estadísticos usan la palabra
    población para referirse no sólo a personas
    sino a todos los elementos que han sido elegidos para un estudio,
    y emplean la palabra muestra para describir una
    porción elegida de la población.

    Condiciones que debe reunir una muestra:

    • Homogeneidad: debe ser extraída de la misma
      población.
    • Independencia: las observaciones no deben estar
      mutuamente condicionadas entre sí.
    • Representatividad: la muestra debe ser el mejor
      reflejo posible del conjunto del cual proviene.


    Estadísticas y
    parámetros.

    Matemáticamente, podemos describir muestras y
    poblaciones al emplear mediciones como la media, la mediana, la
    oda y la desviación estándar. Cuando estos
    términos describen las características de una
    población, se llaman parámetros. Cuando
    describen las características de la muestra, se llaman
    estadísticos. Una estadística es una característica de
    una muestra y un parámetro es una característica de
    la población.

    Se emplean letras latinas minúsculas para denotar
    estadísticas de muestra y letras griegas o
    latinas mayúsculas para representar parámetros de
    población.

     

    Población

    Muestra

    Definición

    Colección de elementos
    considerados

    Parte o porción de la población
    seleccionada para su estudio

    Características

    Parámetros

    Estadísticas

    Símbolos

    Tamaño de la población:
    N

    Media de la población:

    Desviación estándar:

    Tamaño de la muestra: n

    Media de la muestra: x

    Desviación estándar: s

    Parámetros y
    estimadores.

    Una población queda caracterizada a través
    de ciertos valores
    denominados parámetros, que describen las
    principales propiedades del conjunto.

    Un parámetro es un valor fijo (no
    aleatorio) que caracteriza a una población en particular.
    En general, una parámetro es una cantidad desconocida y
    rara vez se puede determinar exactamente su valor, por la
    dificultad práctica de observar todas las unidades de una
    población. Por este motivo, tratamos de estimar el valor
    de los parámetros desconocidos a través del
    empleo de
    muestras. Las cantidades usadas para describir una muestra se
    denominan estimadores o estadísticos
    muestrales.

    Ahora bien, es razonable pensar que si tomamos
    diferentes muestras de la misma población y calculamos los
    diferentes estadísticos de cada una, esos valores van a
    diferir de muestra a muestra. Por lo tanto, un estadístico
    no es un valor fijo, sino que presenta las siguientes
    características:

    • Puede tener varios resultados posibles.
    • No se puede predecir de antemano su
      valor.

    Estas son las condiciones que definen a una variable
    aleatoria. Un estadístico, entonces, es una variable
    aleatoria, función de
    las observaciones muestrales.

    A los estadísticos muestrales se los designa con
    las letras latinas (x, s2), o letras griegas "con
    sombrero" ( ^,  ^2).

    Si un estadístico es una variable aleatoria,
    entonces es posible determinar su distribución de probabilidades y calcular
    sus principales propiedades.

    Muestreo
    aleatorio.

    Muestreo aleatorio simple.

    Selecciona muestras mediante métodos
    que permiten que cada posible muestra tenga igual probabilidad de
    ser seleccionada y que cada elemento de la población total
    tenga una oportunidad igual de ser incluido en la
    muestra.

    Una población infinita es aquella en la que es
    teóricamente imposible observar todos los elementos.
    Aunque muchas poblaciones parecen ser excesivamente grandes, no
    existe una población realmente infinita de objetos
    físicos. Con recursos y
    tiempo
    ilimitados, podríamos enumerar cualquier población
    finita. Como cuestión práctica, entonces,
    utilizamos el término población infinita
    cuando hablamos acerca de una población que no
    podría enumerarse en un intervalo razonable.

    Cómo hacer un muestreo
    aleatorio.

    La forma más fácil de seleccionar una
    muestra de manera aleatoria es mediante el uso de números
    aleatorios. Estos números pueden generarse ya sea con una
    computadora
    programada para resolver números o mediante una tabla de
    números aleatorios (tabla de dígitos
    aleatorios).

    Muestreo sistemático.

    En el muestreo sistemático, los elementos son
    seleccionados de la población dentro de un intervalo
    uniforme que se mide con respecto al tiempo, al orden o al
    espacio.

    El muestreo sistemático difiere del aleatorio
    simple en que cada elemento tiene igual probabilidad de ser
    seleccionado, pero cada muestra no tiene una posibilidad igual de
    ser seleccionada (Por ejemplo: tomar cada elemento de 10 en 10:
    el Nª 1, 11, 21…)

    En este tipo de muestreo, existe el problema de
    introducir un error en el proceso de
    muestreo.

    Aún cuando este tipo de muestreo puede ser
    inapropiado cuando los elementos entran en un patrón
    secuencial, este método
    puede requerir menos tiempo y algunas veces tiene como resultado
    un costo menor que
    el método aleatorio simple.

    Muestreo estratificado.

    Dividimos la población en grupos
    relativamente homogéneos, llamados estratos.
    Después, se utiliza uno de estos
    planteamientos:

    • Seleccionamos aleatoriamente de cada estrato un
      número específico de elementos correspondientes a
      la fracción de ese estrato en la población como
      un todo.
    • Extraemos un número igual de elementos de cada
      estrato y damos peso a los resultados de acuerdo con la
      porción del estrato con respecto a la población
      total.

    Con cualquiera de estos planteamientos, el muestreo
    estratificado garantiza que cada elemento de la población
    tenga posibilidad de ser seleccionado.

    Este método resulta apropiado cuando la
    población ya está dividida en grupos de diferentes
    tamaños y deseamos tomar en cuenta este hecho (por
    ejemplo: categorías profesionales de la
    población).

    La ventaja de las muestras estratificadas es que, cuando
    se diseñan adecuadamente, reflejan de manera más
    precisa las características de la población de la
    cual fueron elegidas.

    Muestreo de racimo.

    Dividimos la población en grupos, o racimos, y
    luego seleccionamos una muestra aleatoria de estos racimos.
    Suponemos que estos racimos individualmente son representativos
    de la población como un todo (Por ejemplo: las cuadras o
    barrios de un pueblo). Un procedimiento de
    racimo bien diseñado puede producir una muestra más
    precisa a un costo considerablemente menor que el de un muestreo
    aleatorio simple.

    Tanto en el muestreo estratificado como en el de racimo,
    la población se divide en grupos bien definidos. Usamos el
    muestreo estratificado cuando cada grupo tiene
    una pequeña variación dentro de sí mismo,
    pero hay una amplia variación dentro de los grupos. Usamos
    el muestreo de racimo en el caso opuesto, cuando hay una
    variación considerable dentro de cada grupo, pero los
    grupos son esencialmente similares entre sí.

    Base de la inferencia
    estadística: muestreo aleatorio simple.

    El muestreo sistemático, estratificado y el de
    racimo intentan aproximarse al muestreo aleatorio simple. Todos
    son métodos que han sido desarrollados por su
    precisión, economía o facilidad
    física.

    Los principios del
    muestreo aleatorio simple son la base de la inferencia
    estadística, el proceso de hacer inferencias acerca de
    poblaciones a partir de información contenida en
    muestras.

    SUGERENCIAS:

    • El uso de muestras en un estudio estadístico
      permite ahorrar mucho esfuerzo y dinero, y
      generalmente proporciona información muy precisa sobre
      las principales propiedades de la población.
    • Para seleccionar una muestra, usar técnicas
      que permitan garantizar que se cumplan las propiedades de
      homogeneidad, independencia y representatividad.
    • La técnica de muestreo utilizada depende de
      los objetivos
      del estudio, de las características de la
      población y de las disponibilidades de materiales.
    • Cada dato cuesta dinero, así que para elegir
      el tamaño de la muestra hay que compatibilizar la
      precisión requerida con la variabilidad de los datos y los
      recursos disponibles.

    Introducción a las distribuciones
    de muestreo.

    Si tomamos varias muestras de una población, las
    estadísticas que calcularíamos para cada muestra no
    necesariamente serían iguales, y lo más probable es
    que variaran de una muestra a otra.

    Una distribución de probabilidad de todas las
    medias posibles de las muestras es una distribución de las
    medias de las muestras. Los estadísticos la conocen como
    distribución de muestreo de la media.

    También podríamos tener una
    distribución de muestreo de una porción. Si
    trazamos una distribución de probabilidad de porciones
    posibles de un evento en todas las muestras, obtendríamos
    una distribución de las porciones de las muestras. A esto
    se lo conoce como distribución de la
    porción
    .

    Descripción de las distribuciones de
    muestreo.

    Cualquier distribución de probabilidad (y, por
    tanto, cualquier distribución de muestreo) puede ser
    descripta parcialmente por su media y su desviación
    estándar.

    Concepto de error
    estándar.

    En vez de decir "la desviación estándar de
    la distribución de las medias de la muestra" para
    describir una distribución de medias de la muestra, los
    estadísticos se refieren al error estándar de la
    media
    . De manera similar, la "desviación
    estándar de la distribución de las proporciones de
    la muestra" se abrevia como error estándar de la
    proporción
    . El término error estándar se
    utiliza porque da a entender un significado
    específico.

    La variabilidad en las estadísticas de muestras
    proviene de un error de muestreo debido al azar; es decir,
    hay diferencias entre cada muestra y la población, y entre
    las diversas muestras, debido únicamente a los elementos
    que decidimos escoger para las muestras.

    La desviación estándar de la
    distribución de las medias de las muestras mide el grado
    hasta el que esperamos que varíen las medias de las
    diferentes muestras debido a este error fortuito cometido en el
    proceso de muestreo. Por tanto, la desviación
    estándar de la distribución de una
    estadística de muestra se conoce como el error
    estándar de la estadística
    .

    El error estándar indica no sólo el
    tamaño del error de azar que se ha cometido, sino
    también la probable precisión que obtendremos si
    utilizamos una estadística de muestra para estimar un
    parámetro de población. Una distribución de
    medias de muestra que está menos extendida (y que tiene un
    error estándar pequeño) es un mejor estimador de la
    media de la población que una distribución de
    medias de muestra que está ampliamente dispersa y que
    tiene un error estándar más grande.

    Uso del error estándar.

    Siempre que usamos pruebas,
    tenemos que tratar con el error estándar.
    Específicamente, necesitamos cierta medición de la precisión del
    instrumento de prueba, generalmente representado por el error
    estándar.

    SUGERENCIA:

    El conocimiento
    de la distribución de muestreo permite a los
    estadísticos planear muestras de tal forma que los
    resultados sean significativos. Debido a que resulta caro recabar
    y analizar muestras grandes, los administradores siempre procuran
    obtener la muestra más pequeña que proporcione un
    resultado confiable.

    Base
    conceptual para muestrear distribuciones.

    En la terminología estadística, la
    distribución de muestreo que obtendríamos al tomar
    todas las muestras de un tamaño dado constituye una
    distribución teórica de muestreo. En casi
    todos los casos, los responsables de las decisiones sólo
    toman una muestra de la población, calculan
    estadísticas para esa muestra y de esas
    estadísticas infieren algo sobre los parámetros de
    toda la población.

    Muestreo de poblaciones normales.

    Si extraemos muestras de una población
    normalmente distribuida y calculamos sus medias, debido a que
    estamos promediando para obtener cada media de muestra, se
    promediarían hacia abajo valores muy grandes de la muestra
    y hacia arriba valores muy pequeños. El razonamiento
    consistiría en que nos estaríamos extendiendo menos
    entre las medias de muestra que entre los elementos individuales
    de la población original. Esto es lo mismo que afirmar que
    error estándar de la media, o la desviación
    estándar de la distribución de muestreo,
    sería menor que la desviación estándar de
    los elementos individuales en la población.

    El error estándar de la media obtenido para
    situaciones en las que la población es infinita
    es:

     x =  / n

    Para convertir cualquier variable aleatoria normal en
    una variable aleatoria normal estándar, debemos sustraer
    la media de la variable que se está estandarizando y
    dividir el resultado entre el error estándar (la
    desviación estándar de dicha variable). En este
    caso particular:

    Muestreo de poblaciones no normales.

    Cuando una población está distribuida
    normalmente, la distribución de muestreo de la media
    también es normal.

    Incluso en el caso en el que una población no
    está normalmente distribuida,  x, la
    media de la distribución de muestreo, sigue siendo igual a
    la media de la población,  . Es decir, la
    distribución de muestreo de la media se acerca a la
    normalidad, sin importar la forma de la distribución de la
    población.

    El teorema del
    límite central.

    • La media de la distribución de muestreo de la
      media será igual a la media de la
      población.
    • Al incrementarse el tamaño de la muestra, la
      distribución de muestreo de la media se acercará
      a la normalidad, sin importar la forma de la
      distribución de la población.

    Esta relación entre la forma de la
    distribución de la población y la forma de la
    distribución de muestreo se denomina teorema del
    límite central
    , que es tal vez el más
    importante de toda la inferencia estadística. Nos asegura
    que la distribución de muestreo de la media se aproxima a
    la normal al incrementarse el tamaño de la
    muestra.

    Hay situaciones teóricas en las que el teorema
    del límite central no se cumple, pero casi nunca se
    encuentran en la toma de
    decisiones práctica. Una muestra no tiene que ser muy
    grande para que la distribución de muestreo de la media se
    acerque a la normal. Los estadísticos utilizan la
    distribución normal como una aproximación a la
    distribución de muestreo siempre que el tamaño de
    la muestra sea al menos de 30, pero la distribución de
    muestreo de la media puede ser casi normal con muestras incluso
    de la mitad de ese tamaño.

    La importancia del teorema del límite central es
    que nos permite usar estadísticas de muestra para hacer
    inferencias con respecto a los parámetros de
    población sin saber nada sobre la forma de la
    distribución de frecuencias de esa población
    más que lo que podamos obtener de la muestra.

    SUGERENCIA:

    El teorema del límite central nos permite
    utilizar las propiedades de la distribución normal en
    muchos casos en los que los datos subyacentes no están
    normalmente distribuidos. El hecho de que la distribución
    de muestreo sea aproximadamente normal es la base de una amplia
    variedad de pruebas estadísticas diferentes.

    Relación
    entre el tamaño de la muestra y el error
    estándar.

    El error estándar es una medición de la
    dispersión de las medias de muestras alrededor de la media
    de la población. Si la dispersión disminuye (si
     x se hace más pequeña),
    entonces los valores
    tomados por la media de la muestra tienden a agruparse más
    cercanamente alrededor de  . Y a la inversa, si la
    dispersión se incrementa (si  x se
    agranda), los valores tomados por la media de la muestra tienden
    a agruparse menos cercanamente alrededor de  .

    Al disminuir el error estándar, el valor de
    cualquier media de muestra probablemente se acercará al
    valor de la media de la población. Los estadísticos
    describen este fenómeno diciendo: al disminuir el error
    estándar, se incrementa la precisión con que se
    puede usar la media de muestra para estimar la media de
    población.

    Debido al hecho de que  x
    varía inversamente con la raíz cuadrada de n, hay
    una utilidad
    decreciente en el muestreo.

    Es cierto que al muestrear más elementos
    disminuye el error estándar, pero este beneficio puede no
    valer el costo. El aumento de precisión puede no valer el
    costo del muestreo adicional.

    Sea X una variable aleatoria con distribución
    normal, con parámetros  ,  2.
    Si sacamos muestras de tamaño n, y calculamos la media
    aritmética, se demuestra que bajo ciertas condiciones, X
    también es una variable aleatoria con distribución
    normal, con parámetros  ,  2/n.
    Es decir:

    Si X – N ( ,  2), entonces
    X – N ( , 
    2/n)

    Las dos distribuciones tienen la misma media, pero la
    dispersión de la media aritmética es menor, tanto
    más pequeña cuando mayor sea el tamaño de la
    muestra.

    Como en un proceso de inferencia  es un
    parámetro desconocido, al extraer una muestra en
    particular y calcular x, no podemos determinar
    exactamente qué tan cerca estuvo esa estimación del
    valor verdadero del parámetro.

    De lo único que podemos estar seguros es que,
    al aumentar el tamaño de la muestra, la
    distribución de la media aritmética tiende a
    concentrarse más y más alrededor de la media
    poblacional y, por tanto, las estimaciones van a estar más
    próximas al valor del parámetro
    (desconocido).

    Lo más relevante de la media aritmética es
    que, aún cuando la variable en estudio no tenga
    distribución normal, o su distribución sea
    desconocida, si el número de elementos de la muestra es
    suficientemente grande, por aplicación del Teorema del
    Límite Central, la media aritmética igualmente va a
    tener aproximadamente distribución normal.

    Por último, es interesante remarcar la idea de
    que la media aritmética es conceptualmente una variable
    aleatoria hasta el instante previo a calcular efectivamente su
    valor. Después de efectuar ese cálculo,
    tenemos un valor fijo (no aleatorio), y por lo tanto, deja de
    tener sentido hablar de la "probabilidad de la media
    aritmética".

    El cálculo de probabilidades con la media
    aritmética tiene entonces validez en términos
    teóricos, es decir, representa "lo que se espera" que
    ocurra con dicha variable antes de tomar una muestra y calcular
    efectivamente su valor.

    El multiplicador de la población
    finita.

    Para calcular el error estándar de la media,
    utilizamos la ecuación:

     x = 
    / n

    esta ecuación está diseñada para
    situaciones en las que la población es infinita, o en las
    que tomamos muestras de una población infinita con
    reemplazo.

    La fórmula diseñada para encontrar el
    error estándar de la media cuando la población es
    finita y el muestreo se hace sin reemplazo es:

     x = 
    / n x  (N – n) / (N – 1)

    donde:

    N = tamaño de la población

    n = tamaño de la muestra

    Este nuevo factor que aparece en la ecuación y se
    multiplica al error estándar original se conoce como
    multiplicador de la población finita.

    Cuando muestreamos una pequeña fracción de
    la población entera (es decir, cuando el tamaño de
    la población N es muy grande en relación con el
    tamaño de la muestra n), el multiplicador de la
    población finita toma un valor cercano a 1.

    Los estadísticos se refieren a la fracción
    n/N como la fracción de muestreo, porque es la
    fracción de la población N contenida en la
    muestra.

    Cuando la fracción de muestreo es pequeña,
    el error estándar de la media para poblaciones finitas es
    tan cercano a la media para poblaciones infinitas, que bien
    podríamos utilizar la misma fórmula para ambas
    desviaciones.

    La regla generalmente aceptada es: si la fracción
    de muestreo es menor a 0,05, no se necesita usar el multiplicar
    para la población finita.

    Cuando utilizamos la ecuación para poblaciones
    infinitas,  es constante y, por tanto, la medida de la
    precisión de muestreo,  x, depende
    solamente del tamaño de la muestra n y no de la
    fracción de población muestreada. Es decir, para
    hacer  x más pequeña sólo
    es necesario agrandar n. En consecuencia, resulta que el
    tamaño absoluto de la muestra es el que determina la
    precisión del muestreo, no la fracción de la
    población muestreada.

    SUGERENCIAS:

    • Cuando desee calcular probabilidades con la media
      aritmética, no olvide que al calcular la variable
      estandarizada, debe dividir por el desvío o error
      estándar de la media. Los resultados serán
      inexactos si omite este punto.
    • Para verificar el funcionamiento de un proceso, medir
      el rendimiento de un método, etc. necesitamos conocer su
      valor medio. Si debemos estimar ese valor a través de la
      muestra, recuerde que la precisión de la
      estimación aumenta con el incremento del tamaño
      muestral. Evite realizar inferencias utilizando una sola
      observación.
    • La aplicación del Teorema del Límite
      Central hace de la media aritmética una herramienta
      útil, aún en aquellos casos en que la
      distribución de la variable en estudio no es conocida, o
      no es normal.
    • La disminución del error estándar no es
      directamente proporcional al tamaño de la muestra,
      así que es conveniente compatibilizar precisión
      con costos.

    Conceptos.

    • Censo: medición o examen
      de cada elemento de la población.
    • Distribución de muestreo de la media:
      una distribución de probabilidad de todas las medias
      posibles de muestras de un tamaño dado, n, de una
      población.
    • Distribución de muestreo de una
      estadística:
      para una población dada,
      distribución de probabilidad de todos los valores
      posibles que puede tomar una estadística, dado un
      tamaño de la muestra.
    • Error de muestreo: error o variación
      entre estadísticas de muestra debido al azar, es decir,
      diferencias entre cada muestra y la población, y entre
      varias muestras, que se deben únicamente a los elementos
      que elegimos para la muestra.
    • Error estándar: la desviación
      estándar de la distribución de muestreo de una
      estadística.
    • Error estándar de la media: la
      desviación estándar de la distribución de
      muestreo de la media, una medida del grado en que se espera que
      varíen las medias de las diferentes muestras de la media
      de la población, debido al error aleatorio en el proceso
      de muestreo.
    • Estadísticas: mediciones que describen
      las características de una muestra.
    • Estimador o estadístico: cantidad que
      caracteriza a una muestra, y que sirve para aproximar el valor
      de un parámetro desconocido. Variable aleatoria,
      función de las observaciones muestrales, a través
      de la cual tratamos de inferir el valor de un parámetro
      poblacional.
    • Estimación: valor particular de un
      estimador, que caracteriza a una muestra
      específica.
    • Estratos: grupos dentro de una
      población formados de tal manera que cada grupo es
      relativamente homogéneo, aunque existe una variabilidad
      más amplia entre los diferentes grupos.
    • Fracción de muestreo: la
      fracción o porción de la población
      contenida en una muestra.
    • Inferencia estadística: proceso de
      análisis que consiste en inferir las
      propiedades de una población en base a la
      caracterización de la muestra.
    • Muestra: subconjunto de la población
      seleccionado mediante algún criterio particular.
      Porción de elementos de una población elegidos
      para su examen o medición directa.
    • Muestreo no aleatorio: conformación de
      la muestra en base al conocimiento o experiencia del
      observador.
    • Muestreo aleatorio: conformación de la
      muestra usando métodos al azar.
    • Muestreo aleatorio simple: métodos de
      selección de muestras que permiten a cada
      muestra posible una probabilidad igual de ser elegida y a cada
      elemento de la población completa una oportunidad igual
      de ser incluido en la muestra.
    • Muestreo con reemplazo: procedimiento de
      muestreo en el que los elementos se regresan a la
      población después de ser elegidos, de tal forma
      que algunos elementos de la población pueden aparecer en
      la muestra más de una vez.
    • Muestreo de juicio: método para
      seleccionar una muestra de una población en el que se
      usa el
      conocimiento o la experiencia personal para
      identificar aquellos elementos de la población que deben
      incluirse en la muestra.
    • Muestreo de probabilidad o aleatorio:
      método para seleccionar una muestra de una
      población en el que todos los elementos de la
      población tienen igual oportunidad de ser elegidos en la
      muestra.
    • Muestreo estratificado: la población se
      divide en estratos, y luego se muestra en forma proporcional en
      cada estrato. Método de muestreo aleatorio en el que la
      población se divide en grupos homogéneos, o
      estratos, y los elementos dentro de cada estrato se seleccionan
      al azar de acuerdo con una de dos reglas: 1) un número
      específico de elementos se extrae de cada estrato
      correspondiente a la porción de ese estrato en la
      población; 2) igual número de elementos se
      extraen de cada estrato, y los resultados son valorados de
      acuerdo con la porción del estrato de la
      población total.
    • Muestreo de racimo (o por conglomerados): la
      población se divide en racimos y luego se elige
      aleatoriamente una muestra de racimos. Método de
      muestreo aleatorio en el que la población se divide en
      grupos o racimos de elementos y luego se selecciona una muestra
      aleatoria de estos racimos.
    • Muestreo sin reemplazo: procedimiento de
      muestreo en el que los elementos no se regresan a la
      población después de ser elegidos, de tal forma
      que ningún elemento de la población puede
      aparecer en la muestra más de una vez.
    • Muestreo sistemático: los elementos de
      la muestra son elegidos a intervalos fijos. Método de
      muestreo aleatorio usado en estadística en el que los
      elementos que se muestrearán se seleccionan de la
      población en un intervalo uniforme que se mide con
      respecto al tiempo, al orden o al espacio.
    • Multiplicador de la población finita:
      factor que se utiliza para corregir el error estándar de
      la media en el estudio de una población de tamaño
      finito, pequeño con respecto al tamaño de la
      muestra.
    • Parámetro: valor fijo que caracteriza a
      una población. Valores que describen las
      características de una población.
    • Población: conjunto de elementos que
      son objeto de un estudio estadístico.
    • Población finita: población que
      tiene un tamaño establecido o limitado.
    • Precisión: el grado de exactitud con el
      que la media de la muestra puede estimar la media de la
      población, según revela el error estándar
      de la media.
    • Racimos: grupos dentro de una población
      que son esencialmente similares entre sí, aunque los
      grupos mismos tengan amplia variación
      interna.
    • Teorema del límite central: resultado
      que asegura que la distribución de muestreo de la media
      se acerca a la normalidad cuando el tamaño de la muestra
      se incrementa, sin importar la forma de la distribución
      de la población de la que se selecciona la
      muestra.

    ESTIMACIÓN.

    El material sobre teoría
    de la probabilidad constituye la base de la inferencia
    estadística, rama de la estadística que tiene que
    ver con el uso de los conceptos de la probabilidad para tratar
    con la toma de decisiones en condiciones de incertidumbre. La
    inferencia estadística está basada en la
    estimación y en la prueba de hipótesis.

    Tipos de estimación.

    Podemos hacer dos tipos de estimaciones concernientes a
    una población:

    • Una estimación puntual: es sólo u
      número que se utiliza para estimar un parámetro
      de población desconocido. Una estimación puntual
      a menudo resulta insuficiente, debido a que sólo tiene
      dos opciones: es correcta o está equivocada. Una
      estimación puntual es mucho más útil si
      viene acompañada por una estimación del error que
      podría estar implicado.
    • Una estimación de intervalo: es un intervalo
      de valores que se utiliza para estimar un parámetro de
      población. Esta estimación indica el error de dos
      maneras: por la extensión del intervalo y por la
      probabilidad de obtener el verdadero parámetro de la
      población que se encuentra dentro del
      intervalo.

    Estimador y estimaciones.

    Un estimador es una estadística de muestra
    utilizada para estimar un parámetro de población.
    La media de la muestra puede ser un estimador de la media de la
    población, y la porción de la muestra se puede
    utilizar como estimador de la porción de la
    población. También podemos utilizar el alcance de
    la muestra como un estimador del alcance de la
    población.

    Cuando hemos observado un valor numérico
    específico de nuestro estimador, nos referimos a ese valor
    como una estimación. Una estimación es un valor
    específico observado de una estadística. Hacemos
    una estimación si tomamos una muestra y calculamos el
    valor que toma nuestro estimador en esa muestra.

    Criterios para seleccionar un buen
    estimador.

    1. Imparcialidad. Se refiere al hecho de que una
      media de muestra es un estimador no sesgado de una media de
      población, porque la media de distribución de
      muestreo de las medias de muestras tomadas de la misma
      población es igual a la media de la población
      misma. Podemos decir que una estadística es un estimador
      imparcial (o no sesgado) si, en promedio, tiende a tomar
      valores que están por encima del parámetro de la
      población y la misma extensión con la que tiende
      a asumir valores por debajo del parámetro de
      población que se está estimando.
    2. Eficiencia. Se refiere al tamaño del
      error estándar de la estadística. Si comparamos
      dos estadísticas de una muestra del mismo tamaño
      y tratamos de decidir cuál de ellas es un estimador
      más eficiente, escogeríamos la estadística
      que tuviera el menor error estándar o la menor
      desviación estándar de la distribución de
      muestreo. Tiene sentido pensar que un estimador con un error
      estándar menor (con menos desviación)
      tendrá una mayor oportunidad de producir una
      estimación más cercana al parámetro de
      población que se está considerando.
    3. Coherencia. Una estadística es un
      estimador coherente de un parámetro de población
      si al aumentar el tamaño de la muestra, se tiene casi la
      certeza de que el valor de la estadística se aproxima
      bastante al valor del parámetro de la población.
      Si un estimador es coherente, se vuelve más confiable si
      tenemos tamaños de muestras más
      grandes.
    4. Suficiencia. Un estimador es suficiente si
      utiliza una cantidad de la información contenida en la
      muestra que ningún otro estimador podría extraer
      información adicional de la muestra sobre el
      parámetro de la población.

    Una estadística de muestra dada no siempre es el
    mejor estimador de su parámetro de población
    correspondiente. Considere una población distribuida
    simétricamente, en la que los valores de la mediana y de
    la media coinciden. En este caso, la media de la muestra
    sería un estimador imparcial de la mediana de la
    población debido a que asumiría valores que en
    promedio serían iguales a la mediana de la
    población. También, la media de la muestra
    sería un estimador consistente de la mediana de la
    población, puesto que, conforme aumenta el tamaño
    de la muestra, el valor de la media de la muestra tenderá
    a acercarse bastante a la mediana de la población. Y la
    media de la muestra sería un estimador más
    eficiente de la mediana de la población que la mediana
    misma, ya que en muestras grandes, la media de la muestra tiene
    una desviación estándar menor que la mediana de la
    muestra.

    Al mismo tiempo, la mediana de la muestra de una
    distribución distribuida simétricamente
    sería un estimador imparcial y consistente de la media de
    la población, pero no el más eficiente estimador,
    porque en muestras grandes su error estándar es mayor que
    el de la media de la muestra.

    Estimaciones
    puntuales.

    La media de la muestra es el mejor estimador de la media
    de la población. Es imparcial, coherente, el estimador
    más eficiente y, siempre y cuando la muestra sea la
    suficientemente grande, su distribución de muestreo puede
    ser aproximada por la distribución normal.

    Si conocemos la distribución de muestreo de la
    media, podemos llegar a conclusiones con respecto a cualquier
    estimación que podamos hacer a partir de la
    información de muestreo.

    Estimación puntual de la varianza y de la
    desviación estándar de la
    población.

    El estimador utilizado con más frecuencia para
    hacer la estimación de la desviación
    estándar de la población, es la desviación
    estándar de la muestra:

    s2 =  (x –
    x)2 / (n – 1)

    Al utilizar un divisor n – 1, nos da un estimador
    imparcial de  2.

    Estimación puntual de la porción de la
    población.

    La porción de unidades de una población
    dada que posee una característica particular se representa
    mediante el símbolo p. Si conocemos la
    porción de unidades de una muestra que tiene la misma
    característica, podemos utilizar esa
    p como estimador de p. Se puede mostrar
    que p tiene todas las
    características deseables: es imparcial (no sesgado),
    coherente, eficiente y suficiente.

    SUGERENCIA:

    Incluso cuando estamos utilizando el mejor estimador de
    un parámetro de población, aceptamos que puede
    estar implicado algo de error. Afirmamos que la estimación
    puntual y la medida de la varianza proporcionan
    información útil para las decisiones.

    Estimaciones de
    intervalo.

    El propósito de tomar muestras es para conocer
    más acerca de una población. Podemos calcular esa
    información a partir de las muestras como estimaciones
    puntuales, o como estimaciones de intervalo. Una
    estimación de intervalo describe un intervalo de valores
    dentro del cual es posible que esté un parámetro de
    población.

    Si seleccionamos y representamos gráficamente un
    gran número de medias de muestras de una población,
    la distribución de tales medias se aproximará a la
    curva normal. Además, la media de las medias de muestra
    será la misma media de la población.

    Probabilidad de que el verdadero parámetro de
    la población esté dentro de la estimación de
    intervalo.

    En lo que concierne a cualquier intervalo particular,
    éste contiene a la media de la población o no la
    contiene, pues la media de la población es un
    parámetro fijo, y no varía.

    Cuando las organizaciones
    informan la precisión de encuestas de
    opinión como "estos resultados son precisos en más
    menos tres puntos", por lo general no establecen el nivel de
    confianza que están utilizando para hacer la
    estimación de intervalo. Una afirmación más
    completa tendría la forma. "existe un 95% de probabilidad
    de que la verdadera opinión de la población caiga
    dentro del intervalo comprendido entre ….. y
    …….."

    Estimaciones de intervalo e intervalos de
    confianza.

    La probabilidad que asociamos con una estimación
    de intervalo se conoce como nivel de confianza. Esta probabilidad
    indica qué tanta confianza tenemos de que la
    estimación de intervalo incluya al parámetro de
    población. Una probabilidad más alta indica
    más confianza.

    El intervalo de confianza es el alcance de la
    estimación que estamos haciendo. Expresaremos el intervalo
    de confianza en términos de errores estándar,
    más que con valores numéricos. Los límites de
    confianza son los límites superior e inferior del
    intervalo de confianza

    Relación entre el nivel de confianza e
    intervalo de confianza.

    Podría pensarse que deberíamos utilizar un
    nivel alto de confianza en todos los problemas
    sobre estimaciones. En la práctica, sin embargo, altos
    niveles de confianza producen intervalos de confianza grandes, y
    éstos no son precisos, dan estimaciones bastante
    imprecisas.

    Uso del muestreo y de la estimación de
    intervalos de confianza.

    A menudo resulta difícil o caro tomar más
    de una muestra de una población. Basados en solamente una
    muestra estimamos el parámetro de
    población.

    El intervalo de confianza quiere decir que si
    seleccionamos muchas muestras aleatorias del mismo tamaño
    y si calculamos un intervalo de confianza para cada una de las
    muestras, tendremos un porcentaje de confianza determino de que
    en todos los casos la media de la población caerá
    dentro del intervalo.

    Por otro lado, existe un cierto equilibrio
    entre la certidumbre de la estimación y el ancho de un
    intervalo de confianza.

    Cálculo
    de estimaciones de intervalo de la media a partir de muestras
    grandes.

    Se calcula el error estándar de la media para una
    población infinita:

     x = 
    / n

    Posteriormente, se establecen los límites de
    confianza superior e inferior, considerando el porcentaje de
    confianza requerido.

    Cuando no se conoce la desviación
    estándar.

    Cuando no se conoce la desviación estándar
    de la población, utilizamos la desviación
    estándar de la muestra para estimar la desviación
    estándar de la población:

    s2 =   [(x –
    x)2 / (n – 1)]

    La fórmula para derivar el error estándar
    de la media de poblaciones finitas es:

     x = {
    / n} x  (N – n) / N – 1)

    A partir de esto, podemos calcular el error
    estándar de la media mediante la desviación
    estándar de la población:

     ´x =
    { ´x/ n} x  (N – n) / N
    – 1)

    SUGERENCIA:

    Cuando tenemos muestras grandes, utilizamos el Teorema
    del Límite Central, nuestro conocimiento de la curva
    normal y nuestra habilidad para hacer correcciones para
    poblaciones finitas.

    Determinación del
    tamaño de la muestra.

    Siempre que tomamos una muestra, perdemos algo de
    información útil con respecto a la
    población. El error de muestre se puede controlar si
    seleccionamos una muestra cuyo tamaño sea el adecuado. En
    general, cuanta más precisión se quiera, más
    grande será el tamaño de la muestra
    necesaria.

    Para calcular el tamaño de muestra, podemos
    utilizar la fórmula del error estándar de la
    media:

     x = 
    / n

    Si no conocemos la desviación estándar de
    la población, podemos utilizar el alcance de la
    población para obtener una estimación burda pero
    manejable de la desviación estándar. Sabemos que
    más menos tres desviaciones estándar incluyen 99,7%
    del área total bajo la curva normal, esto es, más
    tres desviaciones estándar y menos tres desviaciones
    estándar de la media incluyen casi toda el área de
    la distribución.

    SUGERENCIAS:

    • Un estimador es una variable aleatoria, y por lo
      tanto es posible asociarle probabilidades, lo que resulta de
      suma utilidad como herramienta auxiliar para la toma de
      decisiones bajo condiciones de incertidumbre.
    • Una estimación, en cambio, es
      un valor particular del estimador, calculado en base a una
      muestra dada. Por tanto, constituye un valor fijo (no
      aleatorio) que caracteriza a esa muestra en particular, pero
      que se usa para inferir el valor de un parámetro
      desconocido.
    • Entre un estimador puntual y uno por intervalos, es
      preferible usar este último porque tiene asociado una
      probabilidad que contempla el error que se puede cometer en la
      aproximación.

    Conceptos.

    • Estimación: valor específico de
      un estimador, calculado en base a una muestra dada.
    • Estimación de intervalo: intervalo de
      valores utilizado para estimar un parámetro de
      población desconocido.
    • Estimación de parámetros:
      Aproximación del valor de parámetros
      poblacionales desconocidos mediante el empleo de
      estadísticos muestrales.
    • Estimación puntual: un solo
      número que se utiliza para estimar un parámetro
      de población desconocido.
    • Estimador: estadística de muestra
      utilizada para estimar un parámetro de población.
      Conceptualmente es una variable aleatoria.
    • Estimador coherente: estimador que produce
      valores que se acercan más al parámetro de la
      población conforme aumenta el tamaño de la
      muestra.
    • Estimador eficiente: estimador con un menor
      error estándar que algún otro estimador del
      parámetro de la población, esto es, cuanto
      más pequeño sea el error estándar de un
      estimador, más eficiente será ese
      estimador.
    • Estimador imparcial: estimador de un
      parámetro de población que, en promedio, asume
      valores por encima del parámetro de la población
      con la misma frecuencia, y al mismo grado, con que tiende a
      tomarlos por debajo del parámetro de la
      población.
    • Estimador suficiente: estimador que utiliza
      toda la información disponible en los datos
      correspondientes a un parámetro.
    • Intervalo de confianza: intervalo de valores
      que tiene designada una probabilidad de que incluya el valor
      real del parámetro de la población.
    • Límites de confianza: límites
      inferior y superior de un intervalo de confianza.
    • Nivel de confianza: probabilidad que los
      estadísticos asocian con una estimación de
      intervalo de un parámetro de población,
      ésta indica qué tan seguros están de que
      la estimación de intervalo incluirá el
      parámetro de la población. Probabilidad,
      designada de antemano, de que un intervalo de confianza incluya
      al valor del parámetro desconocido.
    • Propiedades de un buen estimador:
      características deseables de un estimador, para lograr
      la mejor aproximación posible de un parámetro
      poblacional.

    PRUEBAS DE
    HIPÓTESIS.

    Una hipótesis es una afirmación acerca de
    algo. En estadística, puede ser una suposición
    acerca del valor de un parámetro desconocido.

    Pasos en la prueba de hipótesis:

    1. Definir la hipótesis nula: suponer una
      hipótesis acerca de una población.
    2. Formular una hipótesis alternativa: es una
      contra-hipótesis.
    3. Definir un criterio de decisión para rechazar
      o no la hipótesis nula.
    4. Recabar datos de la muestra.
    5. Calcular una estadística de
      muestra.
    6. Utilizar la estadística de muestra para
      evaluar la hipótesis.

    Generalmente, se habla de "no rechazar" una
    hipótesis en lugar de "aceptar", ya que las pruebas no son
    concluyentes.

    Introducción.

    La prueba de hipótesis comienza con una
    suposición, llamada hipótesis, que hacemos con
    respecto a un parámetro de población.
    Después recolectamos datos de muestra, producimos
    estadísticas de muestra y usamos esta información
    para decidir qué tan probable es que sea correcto nuestro
    parámetro de población acerca del cual hicimos la
    hipótesis.

    Debemos establecer el valor supuesto o hipotetizado del
    parámetro de población antes de comenzar a tomar la
    muestra. La suposición que deseamos probar se conoce como
    hipótesis nula, y se simboliza H0.

    Siempre que rechazamos la hipótesis, la
    conclusión que sí aceptamos se llama
    hipótesis alternativa y se simboliza
    H1.

    Interpretación del nivel de
    significancia.

    El propósito de la prueba de hipótesis no
    es cuestionar el valor calculado de la estadística de
    muestra, sino hacer un juicio respecto a la diferencia entre esa
    estadística de muestra y un parámetro de
    población hipotetizado. El siguiente paso después
    de establecer la hipótesis nula alternativa consiste en
    decidir qué criterio utilizar para decidir si aceptar o
    rechazar la hipótesis nula.

    Si suponemos que la hipótesis es correcta,
    entonces el nivel de significancia indicará el porcentaje
    de medias de muestra que está fuera de ciertos
    límites.

    Siempre que afirmemos que aceptamos la hipótesis
    nula, en realidad lo que queremos decir es que no hay suficiente
    evidencia estadística para rechazarla. El empleo del
    término aceptar, en lugar de rechazar, se ha vuelto de uso
    común. Significa simplemente que cuando los datos de la
    muestra n hacen que rechacemos una hipótesis nula, nos
    comportamos como si fuera cierta.

    Selección del nivel de
    significancia.

    Nuestra elección del estándar
    mínimo para una probabilidad aceptable, o el nivel de
    significancia, es también el riesgo que
    asumimos al rechazar una hipótesis nula cuando es cierta.
    Mientras más alto sea el nivel de significancia que
    utilizamos para probar una hipótesis, mayor será la
    probabilidad de rechazar una hipótesis nula cuando es
    cierta.

    Errores tipo I y tipo II.

    El rechazo de una hipótesis nula cuando es cierta
    se denomina error de tipo I, y su probabilidad (que es
    también el nivel de significancia) se simboliza como
     . El hecho de aceptar una hipótesis nula cuando
    es falsa se denomina error de tipo II, y su probabilidad se
    simboliza como  . La probabilidad de cometer un tipo de
    error puede reducirse sólo si deseamos incrementar la
    probabilidad de cometer el otro tipo de error. Con el
    propósito de obtener una  baja, tendremos que
    tolerar una  alta. Los responsables de la toma de
    decisiones deciden el nivel de significancia adecuado, al
    examinar los costos o desventajas vinculadas con ambos tipos de
    errores.

    Pruebas de hipótesis de dos extremos y de un
    extremo.

    Una prueba de dos extremos de una hipótesis,
    rechazará la hipótesis nula si la media de muestra
    es significativamente mayor o menor que la media de la
    población hipotetizada. Existen dos regiones de
    rechazo.

    Hay situaciones en las que no es apropiada una prueba de
    dos extremos, por lo que debemos usar una prueba de un extremo,
    que pueden ser de extremo izquierdo (o inferior) o extremo
    derecho (o superior).

    La única forma de probar una hipótesis
    nula es conociendo el parámetro de población, y eso
    no es posible al tomar una muestra. Por consiguiente, aceptamos
    la hipótesis nula y nos comportamos como si fuera cierta,
    simplemente porque no podemos encontrar evidencia para
    rechazarla.

    Medición de la potencia de una
    prueba de hipótesis.

    Idealmente, tanto  como  (las
    probabilidades de los errores tipo I y II deben ser
    pequeñas. Una vez que decidimos el nivel de significancia,
    no hay nada que podamos hacer con respecto a 
    .

    Cuando la hipótesis nula es falsa,  (la
    media de la población cierta) no es igual a la media
    hipotetizada.

    Puesto que rechazar una hipótesis nula cuando es
    falsa es exactamente lo que debe hacer una buena prueba, un valor
    alto de 1 –  significa que la prueba está
    trabajando bastante bien (está rechazando la
    hipótesis nula cuando es falsa. Puesto que 1 –  es
    la medida de qué tan bien trabaja la prueba, se la conoce
    como la potencia de la prueba. Si representamos
    gráficamente los valores 1 –  por cada valor de
     para el que la hipótesis alternativa es cierta,
    la curva resultante se conoce como curva de potencia.

    SUGERENCIAS:

    • Conviene plantear la hipótesis nula siempre
      por la igualdad.
      Adapte la contrahipótesis de acuerdo con el objetivo del
      problema.
    • Formule la hipótesis en base a los objetivos
      del estudio, pero siempre antes de extraer la muestra y
      calcular el estimador puntual del parámetro desconocido,
      para no verse influenciado por este resultado.
    • Tenga en cuenta que si bien la hipótesis nula
      es la que se pone bajo prueba, eso no significa que deba ser
      siempre la suposición que el experimentador desea que se
      compruebe.
    • Como en todo proceso de inferencia, existe
      algún grado de subjetividad en la realización de
      una prueba, particularmente en la elección del nivel de
      significancia y del tamaño de la muestra. Trate de que
      la elección de estos valores responda a un
      análisis cuidadoso del problema en
      cuestión.
    • Una vez fijadas las condiciones de la prueba, el
      resultado de la misma es totalmente objetivo.
    • Para fijar el nivel de significancia de la prueba,
      hay que tener en cuenta que cuando la probabilidad del error
      tipo I aumenta, la del error tipo II disminuye. La forma de
      minimizar el error tipo II independientemente del nivel de
      significancia, es aumentando el tamaño de la
      muestra.
    • Como las probabilidades de los errores tipo I y II
      están relacionadas entre ´si, pero el
      experimentador puede fijar la primera, antes de elegir el nivel
      de significancia hay que ver cuál de los dos tipos de
      errores resulta más crítico.

    Conceptos:

    • Alfa: probabilidad de cometer un error de tipo
      I.
    • Beta: probabilidad de cometer un error de tipo
      II.
    • Curva de potencia: gráfica de los
      valores de la potencia de una prueba por cada valor de 
      , u otro parámetro de población, para el que la
      hipótesis alternativa es cierta.
    • Error de tipo I: rechazo de una
      hipótesis nula cuando es cierta.
    • Error de tipo II: aceptación de una
      hipótesis nula cuando es falsa.
    • Escala estandarizada: medición en
      desviaciones estándar a partir de la media de la
      variable.
    • Escala sin procesar: medición en las
      unidades originales de la variable.
    • Hipótesis: suposición o
      especulación que hacemos con respecto a un
      parámetro de población.
    • Hipótesis alternativa:
      conclusión que aceptamos cuando los datos no respaldan
      la hipótesis nula.
    • Hipótesis estadística:
      afirmación acerca del valor de un parámetro
      desconocido, o sobre la distribución de una
      variable.
    • Hipótesis nula: hipótesis o
      suposición con respecto a un parámetro de
      población que deseamos probar.
    • Nivel de significancia: valor que indica el
      porcentaje de valores de muestra que están fuera de
      ciertos límites, suponiendo que la hipótesis nula
      es correcta, es decir, se trata de la probabilidad de rechazar
      la hipótesis nula cuando es cierta.
    • Potencia de prueba de hipótesis:
      probabilidad de rechazar la hipótesis nula cuando es
      falsa, es decir, una medida de qué tan bien funciona la
      prueba de hipótesis.
    • Prueba de hipótesis: experimento que
      pone bajo prueba una hipótesis estadística, para
      decidir si es verdadera o falsa.
    • Prueba de dos extremos: prueba de
      hipótesis en la que la hipótesis nula se rechaza
      si el valor de muestra es significativamente menor o mayor que
      el valor hipotetizado del parámetro de población,
      prueba que involucra dos regiones de rechazo.
    • Prueba de extremo inferior: prueba de
      hipótesis de un extremo en la que un valor de la muestra
      que se encuentra significativamente por debajo del valor de la
      población hipotetizada, nos llevará a rechazar la
      hipótesis nula.
    • Prueba de extremo superior: prueba de
      hipótesis de un extremo en la que un valor de muestra
      significativamente superior al valor de población
      hipotetizado nos llevará a rechazar la hipótesis
      nula.
    • Prueba de un extremo: prueba de
      hipótesis en la que sólo hay una región de
      rechazo, es decir, sólo nos interesa si el valor
      observado se desvía del valor hipotetizado en una
      dirección.
    • Valor crítico: valor de la
      estadística estándar (z) más allá
      del cual rechazamos la hipótesis nula; el límite
      entre las regiones de aceptación y rechazo.

    INTRODUCCIÓN A LA
    ESTADÍSTICA NO PARAMÉTRICA.

    Las pruebas de hipótesis hacen inferencias
    respecto a los parámetros de la población, como la
    media. Estas pruebas paramétricas utilizan la
    estadística paramétrica de muestras que provinieron
    de la población que se está probando. Para formular
    estas pruebas, hicimos suposiciones restrictivas sobre las
    poblaciones de las que extraíamos las muestras. Por
    ejemplo: suponíamos que las muestras eran grandes o que
    provenían de poblaciones normalmente distribuidas. Pero
    las poblaciones no siempre son normales.

    Los estadísticos han desarrollado técnicas
    útiles que no hacen suposiciones restrictivas respecto a
    la forma de las distribuciones de las poblaciones. Éstas
    se conocen como pruebas sin distribución, o pruebas no
    paramétricas. Las hipótesis de una probabilidad no
    paramétrica se refieren a algo distinto del valor de un
    parámetro de población

    Ventajas de los métodos no
    paramétricos.

    1. No requieren que hagamos la suposición de que
      una población está distribuida en forma de curva
      normal u otra forma específica.
    2. Generalmente, son más fáciles de
      efectuar y comprender.
    3. Algunas veces, ni siquiera se requiere el
      ordenamiento o clasificación formal.

    Desventajas de los métodos no
    paramétricos.

    1. Ignoran una cierta cantidad de
      información
    2. A menudo, no son tan eficientes como las pruebas
      paramétricas. Cuando usamos pruebas no
      paramétricas, efectuamos un trueque: perdemos agudeza al
      estimar intervalos, pero ganamos la habilidad de usar menos
      información y calcular más
      rápidamente.

    PRUEBA DE
    KOLMOGOROV.SMIRNOV.

    Se trata de un método no paramétrico
    sencillo para probar si existe una diferencia significativa entre
    una distribución de frecuencia observada y otra frecuencia
    teórica. Es otra medida de la bondad de ajuste de una
    distribución de frecuencia teórica.

    Se basa en la comparación de distribuciones
    acumuladas: la distribución acumulada de los datos
    observados y la distribución acumulada teórica
    correspondiente al modelo
    elegido.

    Tiene varias ventajas: es una prueba poderosa y
    fácil de utilizar, puesto que no requiere que los datos se
    agrupen de determinada manera.

    Es particularmente útil para juzgar qué
    tan cerca está la distribución de frecuencias
    observada de la distribución de frecuencias esperada,
    porque la distribución de probabilidad Dn depende del
    tamaño de muestra n, pero es independiente de la
    distribución de frecuencia esperada (Dn es una
    estadística de distribución libre).

    Para calcular la estadística K-S, simplemente se
    elige Dn (la desviación absoluta máxima entre las
    frecuencias observadas y teóricas).

    Una prueba K-S siempre debe ser una prueba de un
    extremo.

    Luego se busca el valor crítico en la tabla, para
    las n observaciones, considerando el nivel de significancia
    adoptado.

    Si el valor de la tabla es mayor que el valor de Dn,
    entonces aceptaremos la hipótesis nula.

    SUGERENCIAS:

    • La prueba de Kolmogorov puede usarse con muestras muy
      pequeñas, en donde no se pueden aplicar otras pruebas
      paramétricas.
    • Podemos usar la prueba de Kolmogorov para verificar
      la suposición de normalidad subyacente en todo
      análisis de inferencia.
    • Si bien constituye una prueba de
      implementación sencilla, tenga en cuenta que carga con
      las desventajas de los métodos no paramétricos en
      general, en el sentido de producir resultados menos precisos
      que los procedimientos
      convencionales.
    • Cuando trabaje con muestras pequeñas, recuerde
      usar la frecuencia cumulada experimental.

    Conceptos:

    • Pruebas de bondad de ajuste: pruebas de
      hipótesis que ponen bajo prueba una afirmación
      acerca de la distribución de una variable
      aleatoria.
    • Prueba de Kolmogorrov-Smirnov: prueba no
      paramétrica que no requiere que los datos se agrupen de
      ninguna manera para determinar si existe diferencia
      significativa entre la distribución de frecuencia
      observada y la distribución de frecuencia
      teórica.
    • Pruebas no paramétricas:
      técnicas estadísticas que no hacen suposiciones
      restrictivas respecto a la forma de la distribución de
      población al realizar una prueba de
      hipótesis.

     

    Cristina Fevola

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter