Monografias.com > Estadística > Matemáticas
Descargar Imprimir Comentar Ver trabajos relacionados

Resumen del libro de estadísticas de Berenson y Levine




Enviado por Hernan Torino



    Indice
    1.
    Resumen Capítulo 1 del Libro

    2. Resumen Capítulo 2 del
    Libro

    3. Resumen Capítulo 3 del
    Libro

    4. Resumen Capítulo 4 del
    Libro

    5. Resumen Capítulo 5 del
    Libro

    6. Capitulo 6 del
    libro

    7. Capítulo 7 del
    libro

    8. Capítulo 8 del
    libro

    9. Capitulo 9 del libro
    10. Capitulo 10 del
    libro

    11. Hipótesis nula y
    alternativa

    12. Capitulo 12 del
    libro

    13. Capítulo 13 del
    libro

    14. Capitulo 14 del
    libro

    15. Capítulo 15 del
    libro

    16. Aplicaciones estadísticas en
    administración de la calidad y
    productividad

    1. Resumen Capítulo 1
    del Libro

    • Estadística Descriptiva: Puede definirse como
      aquellos métodos
      que incluyen la recolección, presentación y
      caraterización de un conjunto de datos con el
      fin de describir apropiadamente las diversas características de ese
      conjunto.
    • Estadística Inferencial: Puede definirse como
      aquellos métodos que hacen posible la estimación
      de una característica de una población o la toma de una
      decisión referente a una población
      basándose sólo en los resultados de una muestra.

    Para aclara este concepto se
    necesitan de las siguientes definiciones:

    • Población: es la totalidad de elementos o
      cosas bajo consideración.
    • Muestra: Es la porción de la población
      que se selecciona para su análisis.
    • Parámetro: Es una medida de resumen que se
      calcula para describir una característica de toda una
      población.
    • Estadística: Es una medida que se calcula para
      describir una característica de una sola muestra de la
      población.

    Podemos encontrar dos tipos de estudios
    estadísticos que se emprenden: los estudios enumerativos y
    los estudios analíticos.

    Los estudios enumerativos involucran la toma de
    decisiones respecto a una población y/o sus
    características.
    Los estudios analíticos involucran realizar alguna
    actividad sobre un proceso para
    mejorar el desempeño en el futuro. La atención de un estudio analítico
    está puesta sobre la predicción del comportamiento
    futuro de un proceso y sobre la comprensión y
    perfeccionamiento de ese proceso. En un estudio analítico
    no existe un universo
    identificable, como sucede en un estudio enumerativo y en
    consecuencia tampoco hay un marco.

    2. Resumen Capítulo
    2 del Libro

    Recolección de Datos

    La necesidad de datos: los datos se necesitan
    para:

    1. Proporcionar la introducción imprescindible para un
      estudio de investigación.
    2. Medir el desempeño en un servicio o
      proceso de producción en curso.
    3. Ayudar en la formulación de cursos
      alternativos de acción en un proceso de toma de
      decisiones.
    4. Satisfacer nuestra curiosidad.

    ¿Que es un dato?
    Los datos pueden concebirse como información numérica necesaria para
    ayudarnos a tomar una decisión con más bases en una
    situación particular.

    ¿Cómo obtenemos los datos?
    Existen muchos métodos mediante los cuales podemos obtener
    los datos necesarios. Primero, podemos buscar datos ya publicados
    por fuentes
    gubernamentales, industriales o individuales. Segundo, podemos
    diseñar un experimento. En tercer lugar, podemos conducir
    un estudio. Cuarto, podemos hacer observaciones del
    comportamiento, actitudes u
    opiniones de los individuos en los que estamos
    interesados.

    Utilización de fuentes de datos
    publicadas

    Sin importar la fuente utilizada, se hace una
    distinción entre el recolector original de los datos y
    la
    organización o individuos que compilan éstos en
    tablas y diagramas. El
    recolector de datos es la fuente primaria; el compilador de los
    datos es la fuente secundaria.

    Diseño de un experimento
    En un experimento se ejerce control sobre el
    tratamiento de los dado a los participantes.

    Conducción de una encuesta
    Aquí no se ejerce ningún control sobre el
    comportamiento de la gente encuestada. Simplemente se formulan
    preguntas respecto a sus opiniones, actitudes, comportamiento y
    otras características.

    Realización de un estudio observacional
    El investigador observa el comportamiento de interés
    directamente, por lo común en su entorno natural.
    La importancia de obtener buenos datos: GIGO
    GIGO: Entra Basura, sale
    basura. No importa el método
    utilizado para obtener los datos, si un estudio ha de ser
    útil, si el desempeño debe controlarse
    apropiadamente o si el proceso de la toma de decisiones debe
    ampliarse, los datos recabados deben ser válidos: es
    decir, las respuestas correctas deben valorarse de manera que se
    obtengan mediciones significativas.

    Obtención de datos mediante investigación
    de encuesta
    Tipos de
    datos
    Existen básicamente dos tipos de variables
    aleatorias que producen dos tipos de datos: categóricas y
    numéricas. Las variables aleatorias categóricas
    producen respuestas categóricas, mientras que las
    variables numéricas producen respuestas numéricas.
    Las variables numéricas pueden considerarse como discretas
    o continuas. Los datos discretos son respuestas numéricas
    que surgen de un proceso de conteo, mientras que los datos
    continuos son respuestas numéricas que surgen de un
    proceso de medición.
    La necesidad de definiciones operacionales. Una definición
    operacional proporciona un significado a un concepto o variable
    que puede comunicarse a otros individuos. Es algo que tiene el
    mismo significado ayer, hoy y mañana para todos los
    individuos.

    Diseño del cuestionario
    El objetivo de un
    cuestionario
    es permitirnos recabar información significativa que nos
    ayude en el proceso de toma de decisiones.

    • Selección de temas amplios – Longitud del
      cuestionario

    Los amplios temas de los cuestionarios deben enumerarse.
    Mientras más largo sea el cuestionario, menor será
    el cociente de respuesta. Por tanto, se deben evaluar
    cuidadosamente las preguntas. Las preguntas deben ser lo
    más cortos posibles.

    • Modo de Respuesta

    Existen tres modos mediante los cuales se realiza
    el trabajo de
    encuesta:
    la entrevista
    persona,
    telefónica y por medio del correo. La personal es la
    que tiene una tasa de respuesta mayor, pero es más
    costosa.

    • Formulación de preguntas

    Cada pregunta debe presentarse claramente en el menor
    número de palabras y cada pregunta debe considerarse
    esencial para la encuesta. Además, deben ser libres de
    ambigüedades.

    • Prueba del cuestionario

    Una vez analizadas los pros y contras de cada pregunta
    se debe realizar una prueba piloto de manera que puedan
    examinarse en cuanto a claridad y longitud.

    Elección del tamaño de muestra para la
    encuesta
    Existen tres razones para extraer una muestra. Antes que todo,
    por lo general lleva demasiado tiempo realizar
    un censo completo. En segundo lugar, es demasiado costoso hacer
    un censo completo. Tercero, es demasiado molesto e ineficiente
    obtener un conteo completo de la población
    objeto

    Selección de los sujetos respondientes: tipos de
    muestras
    Existen básicamente dos tipos de muestras: las muestra no
    probabilística y la muestra de probabilidad.
    Una muestra de probabilidad es aquella en la que los sujetos de
    la muestra se eligen sobre la base de probabilidades
    conocidas.
    En una muestra aleatoria simple cada individuo o elemento tiene
    la misma oportunidad de selección
    que cualquier otro, y la selección de un individuo o
    elemento particular no afecta la probabilidad de que se elija
    cualquier otro.

    Extracción de la muestra aleatoria simple
    La clave de la selección de muestras apropiada es obtener
    y mantener una lista actualizada de todos los individuos o
    elementos de los cuales se extraerá la muestra. Tal lista
    se conoce como el marco de la población. Este listado de
    población servirá como la población
    objetivo, de tal manera que si se extrajeran muchas muestrasde
    probabilidades diferentes de tal lista, en el mejor de los casos
    cada muestra sería una representación de la
    población.

    – Muestreo con o
    sin reemplazo de poblaciones finitas
    Para seleccionar la muestra pueden usarse dos métodos
    básicos: con reemplazo o sin reemplazo. Digamos que N
    representa la población y n la muestra. Al extraer con
    reemplazo la probabilidad de cualquier miembro de la
    población de ser seleccionado en la primera
    extracción es 1/N. La probabilidad de ser seleccionado en
    otra extracción sigue siendo 1/N debido a que una vez
    registrado el dato, el individuo seguirá formando parte de
    la población.
    Sin embargo, al muestrear poblaciones humanas generalmente se
    considera más apropiado tener una muestra de persona
    diferentes que permitir mediciones repetidas de la misma persona.
    La probabilidad en este caso es 1/N en la primera
    extracción. La probabilidad de que cualquier individuo no
    seleccionado previamente sea seleccionado en la segunda
    extracción es 1/N-1.

    La encuesta de la muestra
    El primer pasa para evaluar una encuesta es determinar si se
    basó en una muestra de probabilidad o en una no
    probabilístico.
    Aun cuando las encuestas
    emplean métodos de muestreo de probabilidad aleatorios,
    están sujetas a errores potenciales. Existen cuatro tipo
    de errores de encuesta:
    1 – Error de cobertura o sesgo de selección. Este error
    resulta de la exclusión de ciertos sujetos del listado de
    población, de tal manera que no tienen oportunidad de ser
    seleccionados en la muestra. El error de cobertura provoca el
    sesgo de selección.
    2- Error de no-respuesta o sesgo de no-respuesta. El error de
    no-respuesta resulta del fracaso de recolectar datos sobre todos
    los sujetos de la muestra. Y el error de no-respuesta da como
    resultado el sesgo de no-respuesta.
    3- Error de Muestreo. Este error refleja la heterogeneidad o las
    diferencias de oportunidad de muestra a muestra basándose
    en la probabilidad de los sujetos que están siendo
    seleccionados en las muestras particulares. El error de muestreo
    puede reducirse tomando tamaños de muestra mayores, aunque
    esto incrementará el costo de
    aplicación de la encuesta.
    4- Error de Medición. Este error se refiere a
    inexactitudes en las respuestas registradas que ocurren debido a
    una mala formulación de las preguntas, el efecto de un
    entrevistados sobre el encuestado o el esfuerzo hecho por el
    encuestado.

    Organización y Resumen de Datos
    Organizacion, Resumen Y Presentacion De Datos Estadisticos
    Conceptos que deben reforzarse

    POBLACION: es el conjunto formado por todas las unidades
    elementales que proporcionarán las mediciones de
    interés. Pueden ser personas, cosas, objetos
    abstractos.
    CENSO: Cuando se estudia la totalidad de las unidades elementales
    que componen la población.
    Desventaja: errores de observación. Ej.: omisiones, duplicaciones,
    no-ubicación (no medibles) del encuestado, volumen de
    información
    MUESTRA: se estudia una parte representativa de la
    población
    Desventaja: errores de observación (no medibles) errores
    de estimación (medible, cuantificable)
    LOS DATOS ESTADISTICOS SON VARIABLES, SU RESULTADO VARIA DE UNA
    MEDICION A OTRA.
    Debido a ello a los datos estadísticos los denominamos
    VARIABLES.
    Según se vio, las Variables se clasifican en:
    Categóricas Ordinales o Nominales Y Numéricas
    Discretas o Contínuas.
    Caso Sr. Juárez

    • Problema: " Aumento en el índice de
      rotación de cobranzas".
    • Población: Todos los clientes que
      compran a crédito al señor Juárez en
      el local A o B.
    • Supuestos: – Dos Locales A y B.
    • Datos del último mes.
    • Muestra Local A: 60 clientes; Local B: 78
      clientes.
    • Hipótesis de
      Trabajo:
    • Deudores del local A necesitan menos tiempo para
      pagar.
    • Situación económica de los clientes
      peor þ
      nosotros > plazo de financiación.
    • Locales poseen precios >
      competencia.
    • Mal sistema de
      cobros en cuenta corriente.

    Para Cada hipótesis se debe tomar una variable a
    analizar.

    • Variable a Utilizar en nuestro Caso: " Cantidad de
      días transcurridos entre la confección de la
      factura y el
      efectivo cobro de la misma.
    • Definiciones operacionales:

    N= Tamaño de la población.
    n= Tamaño de la muestra.
    Yi = Variable a analizar

    El tamaño de muestra es independiente del
    tamaño de la población.

    • Distribución de frecuencia:

    fi: frecuencia absoluta.
    Fi: frecuencia absoluta acumulada.
    hi: frecuencia relativa ( cociente entre frecuencia absoluta y la
    muestra/población ).
    Hi: frecuencia relativa acumulada.
    El 21,7 % de los clientes del local A pagan el día 20. En
    el local minorista hay pocos que pagan los primeros días y
    pocos los que pagan el último día.

    Para comparar se trabaja con frecuencias relativas
    (cuando los tamaños de muestra son distintos).
    23/03/01
    Práctico
    Ejercicio 2.35 – Página 49
    n = 1425
    Objetivo: " Medir el grado de satisfacción de los clientes
    que compraron una videograbadora en los últimos 12
    meses.

    1. Población: Todos los clientes que compraron
      una videograbadora en los últimos 12 meses.
    2. Preguntas cualitativas:
    1. ¿Qué le pareció el producto?
    2. – Excelente.

      – Muy Bueno.

      – Bueno.

      – Malo.

      – Si.

      – No.

    3. Recomendaría el Producto.
    4. Compraría nuestra marca o
      producto.
    • Si.
    • No.

    Preguntas Cuantitativas.

    1. ¿ Cuantas veces usó el servicio
      técnico?
    • Ninguna.
    • Una.
    • Dos.
    • Más de dos.
    1. Diseño y funcionamiento. Califique de uno a
      diez
    2. ¿ Cuántas marcas
      analizó antes de decidir por Xenith?
    3. ¿Cuántos productos
      Xenith posee Ud.?

    Ejercicio 3.8 – Pagina 61

    b) Diagrama de
    Tallo y Hoja SPSS lo hace en forma
    automática.

    Yi= Segundos que tarda un automóvil de llegar de
    0 a 60 Mph.

    Autos Alemanes

    Tallo

    Hoja

    4

    9

    5

    5

    4

    1

    6

    4

    9

    4

    7

    0

    9

    7

    9

    1

    5

    8

    6

    7

    3

    5

    5

    8

    9

    9

    10

    0

    9

    27/03/01

    Construcción de Gráficos

    • Nombrar los ejes.
    • Título del gráfico.
    • Fuente de datos.

    Ejercicio 3.70 – Pagina 95

    Yi

    fi

    hi

    Fi

    Hi

    1,00

    1

    0,03

    1

    0,03

    1,50

    2

    0,07

    3

    0,10

    2,00

    3

    0,10

    6

    0,20

    2,50

    2

    0,07

    8

    0,27

    3,00

    6

    0,20

    14

    0,47

    3,50

    5

    0,17

    19

    0,63

    4,00

    2

    0,07

    21

    0,70

    4,50

    2

    0,07

    23

    0,77

    5,00

    3

    0,10

    26

    0,87

    5,50

    1

    0,03

    27

    0,90

    6,00

    1

    0,03

    28

    0,93

    6,50

    1

    0,03

    29

    0,97

    7,00

    1

    0,03

    30

    1,00

    30

    1,00

    Yi = $ de cada manómetro.

    fi = cantidad de veces que se repite la
    variable.

    En este caso se supone que la variable es discreta.
    Construcción de Intervalos

    Intervalos sirve en especial para variables
    continuas
    Ry = Y max – Y min = Recorrido = Amplitud = Rango
    Ry = 7.5 – 1 = 6.5

    Cantidad de intervalos 4
    C= Amplitud del intervalo = Ry / Cantidad de intervalos = 6.5/4 =
    1.625
    C = Valor entero =
    2
    Ry* = c x cantidad de intervalos = 2 x 4 = 8

    Yi-1 – Yi

    Yi

    fi

    hi

    1 – 3

    2

    8

    0.27

    3 – 5

    4

    15

    0.50

    5 – 7

    6

    6

    0.20

    7 -9

    8

    1

    0.03

    30

    1

    Construcción del intervalo del Caso
    Juárez.
    R = 38 – 14 = 24
    Cantidad de Intervalos = 7
    Amplitud = Ry / c = 3.43 = 4

    3. Resumen
    Capítulo 3 del Libro

    Presentación de datos numéricos en tablas
    y diagramas
    Una distribución de frecuencia es una tabla de
    resumen en la que los datos se disponen en agrupamientos o
    categorías convenientemente establecidas de clases
    ordenadas numéricamente.
    En esta forma las características más importantes
    de los datos se aproximan muy fácilmente, compensando
    así el hecho de que cuando los datos se agrupan de ese
    modo, la información inicial referente a las observaciones
    individuales de que antes se disponía se pierde a
    través del proceso de agrupamiento o
    condensación.

    Al construir la tabla de frecuencia-distribución,
    debe ponerse atención a:

    1. Seleccionar el número apropiado de
      agrupamientos de clase para la tabla.
    2. Obtener un intervalo o ancho de clase de cada
      agrupamiento de clase.
    3. Establecer los límites
      de cada agrupamiento de clase para evitar los
      traslapes.

    Selección del Número de Clases
    La distribución de frecuencia debe tener al menos cinco
    agrupamiento de clase, pero no más de 15. Si no hay
    suficientes agrupamientos de clase o si hay demasiados, se
    obtendrá poca información.

    Obtención de los intervalos de clase
    Ancho del intervalo Rango

    número de agrupamientos de clase
    deseado

    La principal ventaja de usar una de estas tablas de
    resumen es que las principales características de los
    datos se hacen evidentes inmediatamente para el lector.
    La principal desventaja de tal tabla de resumen es que no podemos
    saber como se distribuyen los valores
    individuales dentro de un intervalo de clase particular sin tener
    acceso a los datos originales. El punto medio de la clase, sin
    embargo, es el valor usado para representar todos los datos
    resumidos en un intervalo particular.
    El punto medio de una clase (o marca de clase) es el punto a la
    mitad de los límites de cada clase y es representativo de
    los datos de esa clase.

    Tabulación de datos numéricos: la
    distribución de frecuencia relativa y distribución
    de porcentaje
    La distribución relativa de frecuencia se forma dividiendo
    las frecuencias de cada clase de distribución de
    frecuencia entre el número total de observaciones.
    Entonces puede formarse una distribución de porcentaje
    multiplicando cada frecuencia relativa o proporción entre
    100.
    La distribución de frecuencia relativa o la
    distribución de porcentaje se vuelve esencial siempre que
    una serie de datos se compara con otra seria de datos,
    especialmente si difiere el número de observaciones en
    cada serie de datos.

    Graficación de datos numéricos: el
    histograma y el polígono
    Histogramas
    Los histogramas son diagramas de barras verticales en los que se
    construyen barras rectangulares en los límites de cada
    clase. La variable aleatoria o fenómeno de interés
    se despliega a lo largo del eje horizontal; el eje vertical
    representa el número, proporción o porcentaje de
    observaciones por intervalo de clase, dependiendo de si el
    histograma particular, es un histograma de frecuencia, un
    histograma de frecuencia relativa o histograma de
    porcentaje

    Al comparar dos o más series de datos, ni los
    diagramas de tallo y hoja ni los histogramas pueden construirse
    en la misma gráfica. Con respecto a estos últimos,
    la sobreposición de barras verticales de uno en el otro
    ocasionaría dificultades de interpretación; en
    estos casos se usan los polígonos.

    Polígonos
    El polígono de porcentaje se forma permitiendo que el
    punto medio de cada clase represente los datos de esa clase y
    luego conectando la sucesión de puntos medios con sus
    respectivos porcentajes de clase.

    Distribuciones acumulativas y polígonos
    acumulativos
    Una tabla de distribución de porcentaje acumulativo se
    construye registrando primero los límites inferiores de
    cada clase a partir de la distribución de porcentaje y
    luego insertando un límite extra al final.

    Polígono de porcentaje acumulativo
    Para construir un polígono de porcentaje acumulativo
    (también llamado ojiva), el fenómeno se grafica en
    el eje horizontal, mientras que los porcentajes acumulativos se
    grafican en el eje vertical.

    4. Resumen Capítulo 4
    del Libro

    Resumen y descripción de los datos
    numéricos
    Propiedades de los datos numéricos.
    Las tres mejores propiedades que describe una serie
    numérica de datos son:

    1. Tendencia central
    2. Variación
    3. Forma

    Si estas mediciones se calculan a partir de una muestra,
    se denominan estadísticas, si se calculan a partir de los
    datos de una población se denominan
    parámetros.

    Mediciones de tendencia Central

    • La media aritmética, es el promedio. Se
      calcula sumando todas las observaciones y luego dividiendo el
      total entre el número de elementos
      involucrados.

    La media actúa como punto de
    equilibrio de tal forma que las observaciones menores
    compensan a las observaciones que son mayores.

    La media aritmética se ve afectada en gran medida
    por valores
    extremos.

    • La mediana. Es el valor medio de una secuencia
      ordenada de datos. Si no hay empates, la mitad de las
      observaciones serán menores y la otra mitad serán
      mayores. La mediana no se ve afectada por valores extremos.
      Para calcular la mediana, primero se deben poner los datos en
      orden. Después usamos la fórmula del punto de
      posicionamiento.

    El cálculo
    del valor de la media se ve afectado por el número de
    observaciones, no por la magnitud de cualquier
    extremo.

    • La moda. Es el
      valor de una serie de datos que aparece con más
      frecuencia. La moda no se ve afectada por la ocurrencia de
      cualquier valor extremo.
    • Cuartiles. Los cuartiles sonmediciones descriptivas
      que dividen los datos ordenados en cuatro cuartos.

    Mediciones de la Variación
    La variación es la cantidad de dispersión o
    propagación en los datos.

    • El rango: es la diferencia entre la mayor y la menor
      observación en una serie de datos. El rango mide la
      propagación total en la serie de datos. La debilidad del
      rango es que no logra tomar en cuenta la forma en que los datos
      se distribuyen realmente entre el mayor y el menor valor.
      Sería impropio usar el rango como una medición
      cuando uno de o ambos componentes son observaciones
      extremas.
    • El rango intercuartil: es la diferencia entre el
      tercer y primer cuartil. No se ve influida por valores
      extremos.
    • La varianza y la desviación estándar: a
      diferencia de las mediciones anteriores la varianza y la
      desviación estándar toman en cuenta como se
      distribuyen las observaciones. La Varianza de muestra es el
      promedio de las diferencias cuadradas entre cada una de las
      observaciones de una serie de datos y la media. La
      desviación estándar es simplemente la raíz
      cuadrada de la varianza. La varianza y la desviación
      miden la dispersión promedio alrededor de la media, es
      decir, como las observaciones mayores fluctúan por
      encima de ésta y como las observaciones menores se
      distribuyen por debajo de ésta.
    • El Coeficiente de Variación: es una medida
      relativa de variación. Se expresa como porcentaje antes
      que en términos de las unidades de los datos
      particulares. Mide la dispersión en los datos relativa a
      la media.

    El coeficiente de variación es útil al
    comparar la variabilidad de dos o más series de datos que
    se expresan en distintas unidades de medición.

    Forma
    Para describir la forma sólo necesitamos comparar la media
    y la mediana. Si estas dos mediciones son iguales, por lo general
    podemos considerar que los datos son simétricos. Si la
    media excede a la mediana, los datos pueden describirse de sesgo
    positivo o sesgadas a la derecha. Si la media es excedida por la
    mediana, estos datos pueden llamarse de sesgo negativo o sesgadas
    a la izquierda. El sesgo positivo surge cuando la media se
    incrementa en algunos valores inusualmente altos, el sesgo
    negativo ocurre cuando la media se reduce en algunos valores
    extremadamente bajos.

    Cálculo de mediciones descriptivas de resumen de
    una población
    Las mediciones de tendencia central para una población se
    calculan igual que en la muestra simplemente reemplazamos n por
    N.
    El rango y el rango intercuartil para una población de
    tamaño N se obtienen como si fuera una muestra
    reemplazando n por N. La varianza se calcula reemplazando el ( n
    – 1 ) del denominador por N.

    Uso de la Desviación Estándar: La regla
    Empírica
    En series de datos simétricos, donde la mediana y la media
    son iguales, las observaciones tienden a distribuirse igualmente
    alrededor de estas mediciones de tendencia central. Cuando el
    sesgado extremo no se presenta y tal agrupamiento se observa en
    una serie de datos, podemos usar la denominada regla
    empírica para examinar la propiedad de
    variabilidad de datos y obtener una mejor idea de lo que la
    desviación estándar está
    midiendo.

    La regla empírica establece que en la
    mayoría de las series de datos encontraremos que
    aproximadamente dos de cada tres observaciones (es decir, el
    67%), están contenidas en una distancia de una
    desviación estándar alrededor de la media y
    aproximadamente 90% a 95% de las observaciones están
    contenidas a una distancia de 2 desviaciones estándar
    alrededor de la media.

    Uso de la desviación estándar: La regla de
    Bienaymé Chebyshev

    No importa como se distribuyen los datos. el porcentaje
    de las distribuciones están contenidas dentro de las
    dsitancias de k desviaciones estándar alrededor de la
    media debe ser al menos

    1 – 1 / k2

    Al menos 75% de las observaciones deben estar contenidas
    dentro de distancias de +/-2 desviaciones estándar
    alrededor de la media. Al menos 88,89% de las observaciones deben
    estar contenidas dentro de una distancia de +/-3 desviaciones
    estándar alrededor de la media. Al menos 93.75% de las
    observaciones deben estar contenidas dentro de distancias de +/-4
    desviaciones estándar alrededor de la media.

    5. Resumen Capítulo 5
    del Libro

    Presentación de datos categóricos en
    tablas y diagramas

    Graficación de datos categóricos: de
    barras, de pastel y de punto

    • Gráfica de barras

    En la gráfica de barras, cada categoría se
    describe mediante una barra, cuya longitud representa la
    frecuencia o porcentaje de observaciones que caen en una
    categoría. Para construir una gráfica de barras se
    hacen las siguientes sugerencias:

    1. Las barras deben construirse
      horizontalmente.
    2. Todas las barras deben tener el mismo
      ancho.
    3. Los espacios entre las barras deben variar entre la
      mitad
    4. del ancho de una barra hasta el ancho de una
      barra.
    5. Las escalas y guías son auxiliares
      útiles en la
      lectura
    6. de una gráfica y deben incluirse. El punto
      cero u origen debe indicarse.
    7. Los ejes deben etiquetarse.
    • Gráfica de Pastel
    • Gráfica de Puntos

    Graficación de datos categóricos: el
    Diagrama de Pareto.
    El diagrama de Pareto es un tipo especial de gráfica de
    barras verticales en la que las respuestas categórizadas
    se grafican en el orden de rango descendiente de sus frecuencias
    y se combinan con un polígono acumulativo en la misma
    escala. El
    principio básico detrás de este dispositivo
    gráfico es su capacidad de distinguir los "pocos vitales"
    de los "muchos triviales".

    Tabulación de datos categóricos: Tabla de
    contingencias y supertablas.
    Las tablas de contingencia se usan para examinar las respuestas a
    dos variables categóricas simultáneamente.
    Supertablas. Una supertabla es esencialmente una colección
    de tablas de contingencia, cada una con las mismas variables y
    categorías de columna. Sin embargo, se incluyen tantas
    variables de fila como se deseen para comparaciones frente a la
    variable de columna.

    Tipos de Gráficos
    Medidas Estadísticas.
    Medidas Estadísticas descriptivas.

    • Variables Numéricas:
    • Medidas de posición.
    • Media.
    • Mediana.
    • Moda.
    • Cuartiles.
    • Medidas de Variación.
    • Rango.
    • Rango Medio.
    • Varianza.
    • Desvío Estándar.
    • Coeficiente de variación.

    6. Capitulo 6 del
    libro

    Probabilidad Básica
    La probabilidad es la posibilidad u oportunidad de que suceda un
    evento particular. La probabilidad involucrada es una
    porción o fracción cuyo valor varía entre
    cero y uno exclusivamente. Observamos un evento que no tiene
    posibilidad de ocurrir (es decir, el evento nulo), tiene una
    probabilidad de cero, mientras que un evento que seguramente
    ocurrirá (es decir, el evento cierto), tiene una
    probabilidad de uno. Ejemplo:

    1. La posibilidad de sacar una carta con
      figura negra de una baraja.
    2. La posibilidad de que un individuo seleccionado
      aleatoriamente de una encuesta este de acuerdo con X
      tema.
    3. La posibilidad que tenga éxito
      un nuevo producto en el mercado.

    Cada uno de los ejemplos anteriores se refiere a uno de
    los tres planteamientos del tema de la probabilidad. El primero a
    menudo se denominacom el planteamiento de la probabilidad
    clásica a priori. Aquí la probabilidad de
    éxito se basa en el
    conocimiento nterior del proceso involucrado. En el caso
    más simple, cuando cada resultado es igualmente posible.
    Esta posibilidad puede definirse de la siguiente manera:
    En el segundo ejemplo; llamado probabilidad clásica
    empírica, aunque la probabilidad se sigue definiendo como
    la proporción entre el número de resultados
    favorables y el número total de resultados, estos
    resultados se basan en datos observados, no en el conocimiento
    anterior a un proceso.

    El tercer planteamiento de probabilidad se denomina el
    enfoque de probabilidad subjetiva. Mientras que en los dos
    anteriores enfoques la probabilidad de un evento favorable se
    calculaba objetivamente, ya fuera de un conocimiento previo o de
    datos reales, la probabilidad subjetiva se refiere a la
    posibilidad de ocurrencia asignada a un evento por un individuo
    particular. La probabilidad subjetiva es especialmetne
    útil para la toma de decisiones en aquellas situaciones en
    que la probabilidad de diversos eventos no puede
    determinarse empíricamente.

    Conceptos de probabilidad básica
    Espacios de muestra y eventos
    Los elementos básicos de la teoría
    de probabilidades son los resultados del proceso o
    fenómeno bajo estudio. Cada tipo posible de ocurrencia se
    denomina un evento.

    Un evento simple puede puede describirse mediante una
    característica sencilla. la compilación de todos
    los eventos posibles se llama el espacio muestral.
    La manera en que se subdivide el espacioi muestral depende de los
    tipos de probabilidades que se han de determinar. Tomando esto en
    cuenta, resulta de interés definir tanto el complemento de
    un evento como un evento conjunto de la siguiente manera:
    La complemento del evento A incluye todos los elementos que no
    son parte del evento A. Esta dado por el símbolo
    A´.
    Un evento conjunto es un evento que tiene dos o más
    características.

    Tablas de Contingencias y diagramas de Venn

    Existen varias formas en las que puede verse un espacio
    muestral particular. El primer método implica asignar los
    eventos apropiados a una tabla de clasificaciones cruzadas. Tal
    tabla también se denomina tabla de
    contingencia.

    Roja

    Negro

    Totales

    As

    2

    2

    4

    No As

    24

    24

    48

    Totales

    26

    26

    52

    La segunda forma de presentar el espacio muestral es
    usando un diagrama de Venn. Este diagrama se representa
    gráficamente los diversos eventos como "uniones" e
    "intersecciones" de círculos.

    El área contenida dentro del círculo A y
    de círculo B (área central) es la
    intersección de de Ay B (y se escribe A Ç B) , puesto que esta
    área es parte de A y tambien parte de B. El área
    total de los dos círculos es la unión de A y B (y
    se escribe A È
    B ) y contiene todos los resultados que son parte del
    evento A, parte del evento B o parte de ambos A y B. El
    área fuera del diagrama fuera de A È B contiene aquelloos
    resultados que no sonparte de A ni son parte de B.

    Probabilidad ( marginal ) simple

    La regla mas evidente para las probabilidades es que
    deben variar en valor de 0 a 1. Un evento imposible tiene una
    probabilidad cero de ocurrir, y un evento cierto tiene una
    probabilidad uno de ocurrir. La probabilidad simple se refiere a
    la probabilidad de ocurrencia de un evento simple.

    Ejemplo:

    • la probabilidad de seleccionar una carta
      negra;
    • la probabilidad de seleccionar un As

    La probabilidad simple se denomina probabilidad marginal
    puesto que el número total de éxitos puede
    obtenerse del márgen apropiado de la table de
    contingencias.

    Probabilidad Conjunta

    La probabilidad conjunta se refiere a fenómenos
    que contienen dos o mas eventos, como la probabilidad de un as
    negro, una reina roja o un empleado que este satisfecho con el
    trabajo y haya progresado dentro de la organización.

    P (A)= P ( A y B1 ) + P ( A y B2 ) + …..+ P ( A y Bk
    )

    donde B1, B2, … Bk son eventos mutuamente excluyentes
    y colectivamente exhaustivos.

    Dos eventos son mutuamente excluyentes si ambos eventos
    no pueden ocurrir al mismo tiempo.

    Dos eventos son colectivamente exhaustivos si uno de los
    eventos debe ocurrir.

    Por ejemplo, ser hombre y ser
    mujer son eventos
    mutuamente excluyentes y colectivamente exhaustivos. Nadie es
    ambos ( son mutuamente excluyentes ) y todos son uno u otro ( son
    colectivamente exhaustivos ).

    Regla de la adición

    La regla de la adición se usa para encontrar la
    probabilidad del evento A o B. Esta regla para obtener la
    probabilidad de la unión de A y B considera la ocurrencia
    del evento A o del evento B o de ambos, A y B.

    El cálculo de P ( A È B ), la probabilidad del evento A
    o B, puede expresarse en la siguiente regla de la adición
    general:

    P ( A È B ) = P ( A o B ) = P ( A ) + P ( B )
    – P ( A y B )

    Eventos mutuamente excluyentes

    En ciertas circunstancias, sin embargo, la probabilidad
    conjunta no necesita restarse porque es igual a cero. Tales
    circunstancias cuando no existen resultados para un evento
    particular. Por ejemplo, suponga que deseamos saber la
    probabilidad de escoger un corazon o una espada si
    estuviéramos seleccionando sólo una carta de una
    baraja estándar de 52 cartas de
    juego. Usando
    la regla de la adición, tenemos lo siguiente:

    P ( corazón o
    espada ) = P ( corazón ) + P ( espada ) – P (
    corazón y espada )

    P = 13/52 + 13/52 – 0/52 = 26/52

    La intersección en este caso no existe ( llamado
    el conjunto nulo ) porque no contiene resultados, puesto que una
    carta no puede ser corazón y espada
    simultáneamente.

    Siempre que la probabilidad conjunta no contenga
    ningún resultado, los eventos involucrados se consideran
    mutuamente excluyentes. Asi la regla general para eventos
    mutuamente excluyentes se reduce a:

    P ( A o B ) = P ( A ) + P ( B )

    Eventos colectivamente exhaustivos

    Consideremos la probabilidad de seleccionar una carta
    negra o rojo. Puesto que son mutuamente excluyentes al usar la
    ecuación: 26/52 + 26/52 = 1

    La probabilidad de rojo o negro suma uno. Dado que uno
    de los eventos debe ocurrir se consideran mutuamente
    excluyentes.

    Probabilidad Condicional.

    Cuando estamos calculando la probabilidad de un evento
    particular A, dada información sobre la ocurrencia de otro
    evento B, esta probabilidad se denomina probabilidad condicional,
    P ( A B ). La probabilidad condicional P ( A B ) puede
    definirse de la siguiente manera:

    P ( A B ) = P ( A y B )

    P ( B )

    • Independencia estadística Se dice que dos eventos
      independientes si el conocimiento previo de la probabilidad de
      ocurrencia de uno de ellos no afecta la probabilidad del otro.
      Puede definirse de la siguiente manera:

    P ( A B ) = P ( A )

    Regla de multiplicación

    La fórmula para la probabilidad condicional puede
    manipularse algebraicamente de forma tal que la probabilidad
    conjunta P ( A y B ) puede determinarse a partir de la
    probabilidad condicional de un evento.

    La regla de multiplicación para eventos
    independientes puede expresarse de la siguiente manera
    sustituyendo P ( A ) por P ( A B ):

    P ( A y B ) = P ( A ) * P ( B )

    Si esta regla se cumple para dos eventos, A y B entonces
    A y B son estadísticamente independientes. Por tanto, hay
    dos formas de determinar la independencia
    estadística:.

    1. Los eventos A y B son estadísiticamente
      independientes si y sólo si P ( A B )=P
      (A)
    2. Los eventos A y B son estadísticamente
      independientes si y sólo si P ( A y B ) = P ( A ) * P (
      B ).

    Teorema de Bayes
    La probabilidad condicional toma en cuenta información
    respecto a la ocurrencia de un evento para encontrar la
    probabilidad de otro evento. Este concepto puede ampliarse para
    revisar probabilidaddes basadas en nueva información y,
    así determinar la probabilidad que un efecto particular se
    deba a una causa específica. El procedimiento
    para revisar estas probabilidades se conoce como teorema de
    Bayes.

    El teorema de Bayes puede definirse a partir de las
    definiciones de probabilidad condicional y probabilidad marginal,
    asi el teorema de Bayes es:

    P ( Bi A ) = P ( A Bi ) P ( Bi )

    P ( A B1 ) P ( B1 ) + P ( A B2 ) P ( B2 )

    7. Capítulo 7 del
    libro

    Algunas distribuciones importantes de probabilidad
    discreta

    Una distribución de probabilidad para una
    variable aleatoria discreta es un listado mutuamente excluyente
    de todos los resultadosposibles para esa variable aleatoria, tal
    que una probabilidad particular de ocurrencia esté
    asociada con cada resultado.

    Esperanza Matemática
    La media de una distribución de probabilidad es el valor
    esperado de su variable aleatoria.
    El valor esperado de una variable aleatoria discreta puede
    considerarse como su promedio pesadoo sobre todos los resultados
    posibles, siendo los pesos la probabilidad asociada con cada uno
    de los resultados.

    Esta medición de resumen puede puede obtenerse
    multiplicando cada resultado posible Xi, por su probabilidad
    correspondiente P (Xi) y luego sumando los productos resultantes.
    Por tanto, el valor esperado de la variable aleatoria discreta X,
    simbolizado como E (X), puede expresarse de la siguiente
    manera:
    E(X)= ∑ Xi * P ( Xi)

    Varianza y desviación estándar de una
    variable aleatoria discreta
    La varianza de una variable aleatoria discreta puede definirse
    como el promedio pesado de las diferencias cuadradas entre cada
    resultado posible y su media, siendo los pesos las probabilidades
    de cada uno de los resultados respectivos.

    Esta medición de resumen puede obtenerse
    multiplicando cada diferencia cuadrada posible ( Xi
    – μ )2 por su probabilidad correspondiente
    P (Xi) y luego sumando los productos restantes. Por lo tanto la
    varianza de la variable aleatoria discreta X puede expresarse de
    la siguiente manera:

    ( Xi – μ )2 * P (Xi)

    Funciones de distribución de probabilidad
    discreta
    La distribución de probabilidad para una variable
    aleatoria discreta puede ser:

    1. Un listado teórico de resultados y
      probabilidades que pueden obtenerse de un modelo
      matemático que represente algún fenómeno
      de interés.
    2. Un listado empírico de resultados y sus
      frecuencias relativas observadas.
    3. Un listado subjetivo de resultados asociados con sus
      probabilidades subjetivas que representan el grado de
      convicción del tomador de decisiones respecto a la
      probabilidad de los resultados posibles.

    Un modelo se considera una representación en
    miniatura de algún fenómeno subyacente. En
    particular, un modelo matemático es una expresión
    matemática
    que representa cierto fenómeno subyacente. Para variables
    aleatorias discretas, esta expresión matemática se
    conoce como función de
    distribución de probabilidad.

    La característica escencial de la
    distribución uniforme es que es igualmente posible que
    ocurran todos los resultados de la variable aleatoria.

    Distribución Binomial

    La distribución binomial es una
    distribución de probabilidad discreta que es
    extremadamente útil para describir muchos
    fenómenos.

    La distribución binomial posee cuatro propiedades
    esenciales:

    1. Las observaciones posibles pueden obtenerse mediante
      dos métodos de muestreo distintos. Cada
      observación puede considerarse como seleccionada de una
      población infinita sin reemplazo o de una
      población finita con reemplazo.
    2. Cada observación puede clasificarse en dos
      categorías mutuamente excluyentes y colectivamente
      exhaustivas, usualmente denominadas éxito y
      fracaso.
    3. La probabilidad de que una observación se
      clasifique como éxito, p, es constante de
      observación a observación.
    4. El resultado de cualquier observación es
      independiente del resultado de cualquier
      observación.

    Modelo matemático

    P( X= x n, p ) = n ! px ( 1 – p )
    n-x

    X ! ( n – x ) !

    La primera parte de la fórmula nos dice
    cuántas secuencias de arreglos de los x éxitos de n
    observaciones son posibles. La segunda parte nos dice la
    probabilidad de obtener exactamente x éxitos de n
    observaciones en una secuencia particular.

    Características de la distribución
    binomial

    • Forma. Siempre que p= 0.5 la distribución
      binomial será simétrica sin importar que tan
      grande o pequeño sea el valor de n. Sin embargo, cuando
      p ≠ 0.5 la distribución será sesgada. Mientras
      más cercana este p de 0.5 y mayor sea el número
      de observaciones, n, menos sesgada será la
      distribución. Con una p pequeña la
      distribución estara sesgada a la derecha. Para p muy
      grandes, la distribución sería sesgada a la
      izquierda.
    • La media. La media de la distribución binomial
      puede obtenerse fácilmente como el producto de sus
      parámetros, n y p.
    • La
      desviación estándar. La desviación
      estándar se calcula usando la siguiente
      fórmula:

     

     

    Distribución de Poisson.

    La distribución de Poisson es otra función
    de distribución de probabilidad que tiene muchas
    aplicaciones prácticas importantres. Un proceso Poisson no
    sólo representa numerosos fenómenos discretos, sino
    que el modelo Poisson también se usa para proporcionar
    aproximaciones a la distribución binomial.

    Se dice que un proceso de Poisson existe si podemos
    observar eventos discretos en un área de oportunidad, un
    intervalo continuo, de tal manera que si acotamos el área
    de oportunidad o intervalo de manera suficiente:

    1. La probabilidad de observar exactamente un
      éxito en el intervalo es estable.
    2. La probabilidad de observar exactamente más de
      un éxito en el intervalo es cero.
    3. La ocurrencia de un éxito en cualquier
      intervalo es estadísticamente independiente de aquella
      en cualquier otro intervalo.

    Características

    • Forma. Cada vez que se especifica el parámetro
      λ, puede generarse una distribuciónde
      probabilidad de Poisson espacífica. Una
      distribución de Poisson estará sesgada a la
      derecha cuando λ es pequeña, y se
      aproximará a la simetría al crecer.
    • La media y la desviación estándar. Una
      propiedad de esta distribución es que la media y la
      varianza son iguales al parámetro λ.

    Uso de la distribución de Poisson para aproximar
    la distribución binomial

    Para aquellas situaciones en las que n es grande ( mayor
    o igual a 20 ) y p es muy pequeña ( menor a 0.05 , la
    distribución de Poisson puede usarse para aproximar la
    distribución binomial.

    La variable aleatoria de Poisson puede variar
    teóricamente de 0 a ∞ . Sin emabrgo, cuando se usa
    como una aproximación a la distribución binomial,
    la variable aleatoria de Poisson, el número de
    éxitos de n observaciones, claramente no puede exceder el
    tamaño de la muestra n.

    Características

    μ=λ = n * p

    8. Capítulo 8 del
    libro

    La distribución Normal

    • Modelos matemáticos de variables aleatorias
      continuas:. La función de densidad de
      probabilidad.

    La probabilidad exacta de un valor particular de una
    distribución continua es cero. A fin de eliminar la
    necesidad de realizar laboriosos cálculos
    matemáticos se ha desarrolladola distribución
    gaussiana o normal.

    • La Distribución Normal.
    • Importancia de la distribución
      Normal.

    La distribución normal es de vital importancia en
    estadística por tres razones principales:

    1. Numerosos fenómenos continuos parecen seguirla
      o pueden aproximarse mediante ésta.
    2. Podemos usarla para aproximar diversas distribuciones
      de probabilidad discreta y evitar así pesados
      cálculos.
    3. Proporciona la base de la inferencia
      estadística clásica debido a su relación
      con el teorema del límite central.
    • Propiedades de la distribución
      normal
    1. Tiene forma de campana y es simétrica en
      apariencia.
    2. Sus mediciones de tendencia central (media, mediana,
      moda alcance medio y eje medio) son todas
      idénticas.l
    3. Su "dispersión media" es igual a 1.33
      desviaciones estándar. Es decir, el alcance intercuartil
      está contenido dentro de un intervalo de dos tercios de
      una desviación estándar por debajo de la media a
      dos tercios de una desviación estándar por encima
      de la media.
    4. Su variable aleatoria asociada tiene un alcance
      infinito
    • El modelo matemático

    Para la distribuciónnormal, el modelo usado para
    obtener las probabilidades deseadas es:

    Examinemos los componentes de la función: puesto
    que e y ∏ son constantes matemáticas, las probabilidades de la
    variable aleatoria X dependen sólo de dos
    parámetros de la distribución normal, la media de
    la población y de la desviación estándar de
    la población. Cada vez que especificamos una
    combinación particular se generará una
    distribución de probabilidad diferente.

    • Estandarización de la distribución
      normal

    Afortunadamente, al estandarizar los datos, solo
    necesitamos una fórmula:

    Al usar
    la fórmula de transformación cualquier variable
    aleatoria normal X se convierte en una variable aleatoria normal
    estandarizada Z. Mientras los datos originales para la variable
    aleatoria X tenían una media y una desviación
    estandar, la variable aleatoria estandarizada Z siempre
    tendrá una media = 0 y una desviación =
    1.

    • Uso de las tablas de distribución de
      probabilidad normal

    La tabla de normal representa las probabilidades o
    áreas bajo la curva normal calculadas desde la media hasta
    los valores particulares de interés X. Sólo se
    enumeran en la tabla entradas positivas de Z, puesto que para una
    distribución simétrica de este tipo con una media
    de cero, el área que va desde la media hasta +Z debe ser
    idéntica al área que va desde la media hasta
    –Z. Al usar la tabla de normal se puede observar que todos
    los valores de Z deben registrarse primero con hasta dos lugares
    decimales.

    • Encontrar los valores correspondientes a
      probabilidades conocidas.

    Para encontrar un valor particular asociado con una
    probabilidad conocida,debemos adoptar los siguientes
    pasos:

    1. Trazar la curva normal y luego colocar los valores
      para las medias en las escalas X y Z respectivas.
    2. Dividir la mitad apropiada de la curva normal en dos
      partes: la porción de la X deseada a la media y la
      porción de la X deseada al extremo.
    3. Sombrear el área de
      interés.
    4. Usando la tabla de normal determinar el valor Z
      apropiado correspondiente al área que está bajo
      la curva normal desde la X deseada hasta la media.
    5. Usando la ecuación que se presenta a
      continuación encontrar X.

     Aproximación de la distribución
    binomial
    Mientras más cerca esté p de 0,50 y mientras
    más grande sea el número de observaciones de la
    muestra n, más simétrica se vuelve la
    distribución. Siempre que el tamño de muestra sea
    grande, puede usarse la distribución normal para aproximar
    las probabilidades exactas de éxito que de otra manera se
    tendrían que haber obtenido mediante laboriosos
    cálculos.
    Como regla general, esta aproximación normal puede usars
    siempre que n * p y n * ( 1- p ) sean al menos 5. Entonces la
    nueva Z sera la que se presenta a continuación:

    Aproximación de la distribución de
    Poisson
    La distribución normal también puede usarse para
    aproximar el modelo de poisson siempre que el parámetro
    Lambda sea igual o mayor que cinco. Entonces la formula de Z
    será la siguiente:

    9. Capitulo 9 del
    libro

    Distribuciones de muestreo
    Con el fin de poder usar la
    estadística de muestra para estimar el parámetro de
    población, deberíamos examinar cada muestra posible
    que pudiera ocurrir. Si esta selección de todas las
    muestras posibles realmente se tuviera que hacer, la
    distribución de todos los resultados se denominaría
    distribución de muestreo. El proceso de generalizar estos
    resultados de muestra para la población se refiere como
    una inferencia estadística.

    Distribución de muestreo de la media

    • Propiedades de la media aritmética

    Entre varias propiedades matemáticas importantes
    de la media aritmética para una distribución normal
    están:

    1. Imparcialidad
    2. Eficiencia
    3. Consistencia.

    La imparcialidad, implica el hecho de que el promedio de
    todas las medias de muestras posibles será igual a la
    media de la población. Tomemos como ejemplo una
    población de N=4 con tamaños de muestra de 2. Si
    seleccionamos dos muestras con reemplazo, podríamos
    obtener 16 muestras posibles. El promedio de cada una de las
    muestras es igual a la media de la población. Por lo tanto
    hemos demostrado que la media aritmética de muestra es un
    estimador imparcial de la media de la población. Esto nos
    dice que aún cuando no sepamos qué tan cerca
    esté el promedio de cualquier muestra particular
    seleccionada a la media de la población, al menos estamos
    seguros que el
    promedio de todas las medias de muestra que se podrían
    haber seleccionado será igual a la media de la
    población.
    La eficiencia, se
    refiere a la precisión de la muestra estadística
    como un estimador del parámetro de población. La
    media de muestra se acercará más estable que otras
    mediciones de tendencia central. La media de muestra se
    acercará más a la media de la población que
    cualquier otro estimador.
    La consistencia, se refiere al efecto del tamaño de
    muestra, sobre la utilidad de un
    estimador. Al incrementarse el tamaño de muestra, la
    variación de la media de muestra de la media de la
    población se hace más pequeña, de manera que
    la media aritmética de muestra se vuelve una mejor
    estimación de la media de la población.

    Error estándar de la media
    El hecho de que las medias de muestra son menos variables que los
    datos de población se desprende directamente de la
    ley de los
    grandes números. Una media de muestra particular promedia
    conjuntamente todos los valores de la muestra. Una
    población puede consistir en resultados individuales que
    pueden tener un amplio radio de valores,
    de extremadamente pequeños a extremadamente grandes. Sin
    embargo, si un valor extremo cae en la muestra, aunque
    tendrá un efecto en la media, el efecto se reducirá
    pues se promediará con todos los demás valores de
    la muestra. Además, al incrementarse el tamaño de
    la muestra, el efecto de un valor extremo se hace cada vez menor,
    puesto que se está promediando con más
    observaciones. Al muestrearse con reemplazo, el error
    estándar de la media es igual a la desviación
    estándar de la población dividida entre la
    raíz cuadrada del tamaño de muestra.

    Muestreo de poblaciones normales
    Puede demostrarse que si muestreamos con reemplazo de una
    población con distribución normal, la
    distribución de muestreo de la media también
    tendrá una distribución normal para cualquier
    tamaño de muestra y tendrá una desviación
    estándar como la que se mostró más arriba.
    Al incrementarse el tamaño de muestra el error
    estándar de la media disminuye, de forma tal que una mayor
    proporción de medias de muestra están más
    cercanas a la media de la población.

     

    Muestro de poblaciones no normales

    En muchos casos no sabremos si la población se
    distribuye normalmente. Por lo tanto, necesitamos examinar la
    distribución de muestreo de la media para poblaciones que
    no están normalmente distribuidas.

    Teorema del límite central. Al hacerse lo
    bastante grande el tamaño de muestra, la
    distribución de muestreo de la media puede aproximarse
    mediante la distribución normal. Esto es cierto no
    importando la forma de la distribución de los valores
    individuales de la población. ¿Qué
    tamaño de muestra? Una gran parte de las investigaciones
    demuestran que una muestra adecuada de por la menos 30, hace que
    la distribución de muestreo se aproxime a la
    normal.

    • Para la mayoría de las distribuciones de
      población, sin importar la forma, la distribución
      de muestreo de la media tendrá una distribución
      aproximadamente normal, si se seleccionan muestras de al menos
      30 observaciones.
    • Si la distribución de la población es
      lo bastante simétrica, la distribución de
      muestreo de la media será aproximadamente normal si se
      seleccionan muestras de al menos 15 observaciones.
    • Si la población se distribuye normalmente, la
      distribución de muestreo de la media se
      distribuirá normalmente sin importar el tamaño de
      la muestra.

    Distribución de muestreo de la
    proporción
    Cuando trabajamos con variables categóricas cada
    característica puede clasificarse con 1 o 0 para
    representar la presencia o ausencia de la característica.
    Al tratar con datos categóricos puede definirse
    como:

     

     

    La
    proporción tiene la propiedad especial de estar entre 0 y
    1. El error estándar de la proporción
    es:

    La distribución de muestreo de la
    proporción sigue una distribución binomial. Sin
    embargo, cuando n*p y n*(1-p) son cada uno al menos 5 puede
    usarse la distribución normal.

    Muestreo de poblaciones finitas

    En casi
    todas las investigaciones el muestreo es conducido sin reemplazo,
    por esto debe usarse un factor de corrección de
    población finita (fpc) en la definición tanto del
    error estándar de la media como del error estándar
    de la proporción. El factor de corrección puede
    expresarse como:

    10. Capitulo 10 del
    libro

    Estimación
    Introducción
    La inferencia estadística es el proceso que consiste en
    utilizar los resultados de una muestra para llegar a conclusiones
    acerca de las características de una
    población.

    Existen dos tipos de estimaciones: estimaciones
    puntuales y estimaciones de intervalo. Una estimación
    puntual consiste en una sola estadística de muestra que se
    utiliza para estimar el valor verdadero de un parámetro de
    población. Puesto que la estadística de prueba
    varía de una muestra a otra necesitamos considerar este
    hecho con el fin de proporcionar una estimación más
    significativa y característica de la población.
    Para lograr esto, debemos desarrollar una estimación de
    intervalo de la media de población verdadera, tomando en
    consideración la distribución de muestreo de la
    media. El intervalo que construimos tendrá una confianza o
    probabilidad específica de estimar correctamente el valor
    verdadero del parámetro de población.

    Estimación de intervalo de confianza de la media
    (desvío de la población conocido):
    En la inferencia estadística debemos tomar los resultados
    de una sola muestra y llegar a conclusiones acerca de la
    población. En la práctica, la media de la
    población es la cantidad desconocida que se va a
    determinar. Para algunas muestras la estimación de
    intervalo de la media de la población será correcta
    y para otras no. Tenemos que recordar que para el cálculo
    del intervalo trabajamos con una estimación de intervalo
    de confianza de 95, por ejemplo, esto puede interpretarse como si
    se tomaran todas las muestras posibles del mismo tamaño,
    n, 95% de ellas incluirían la media de población
    verdadera en alguna parte del intervalo alrededor de sus medias
    de muestra, y solamente 5% de ellas no estarían incluidas.
    En general el nivel de confianza se simboliza como
    (1-α ) x 100%, en donde α es la
    porciσn que se encuentra en los extremos de la
    distribuciσn que está fuera del
    intervalo de confianza. Por consiguiente para obtener la
    estimación del intervalo tenemos:

    Z es el valor correspondiente a un área de
    (1-α )/2 desde el centro de una distribución normal
    estandarizada. El valor Z elegido para construir tal intervalo de
    confianza se conoce como el valor crítico.

    Cualquier aumento en el nivel de confianza se logra
    ampliando simultáneamente el intervalo de confianza
    obtenido (haciéndolo menos preciso y menos
    útil).

    Estimación de intervalo de confianza de la media
    (desvío desconocido)
    Del mismo modo en que la media de la población se
    desconoce, es probable que la desviación estándar
    real de la población tampoco sea conocida. Por lo tanto,
    necesitamos obtener una estimación de intervalo de
    confianza utilizando las estadísticas de muestra "X" y
    "S". Para ello, utilizamos la distribución t-student.
    De este modo, el intervalo de confianza se establecerá a
    partir de la siguiente fórmula:
    Estimado del intervalo de confianza de la
    porción

    Podemos
    establecer la siguiente estimación de intervalo de
    confianza (1-α) para la porciσn de la
    poblaciσn:

     

    Determinación del tamaño de muestra para
    la media:

    El error de muestreo "e" se puede definir
    como:

    Por consiguiente para determinar el tamaño de la
    muestra, deben conocerse tres factores:

    1. El nivel de confianza deseado.
    2. EL error de muestreo permitido.
    3. La desviación estándar.

    Determinación del tamaño de muestra para
    una porción:

     

    Al determinar el tamaño de muestra para estimar
    una porción se deben definir tres
    incógnitas:

    1. El nivel de confianza.
    2. El error de muestreo permitido.
    3. La porción verdadera de
      éxitos.

    Estimación y determinación del
    tamaño de muestra para poblaciones finitas.
    Estimación de la media

     

     

    Estimación de la porción

    Determinación del tamaño de
    muestra

    11. Hipótesis
    nula y alternativa

    La prueba de hipótesis empieza con algo de
    teoría, afirmación o negación con respecto a
    un parámetro particular de una población. La
    hipótesis de que el parámetro de la
    población es igual a la especificación de la
    compañía se conoce como hipótesis nula. Una
    hipótesis nula es siempre una de status quo o de no
    diferencia. Se simboliza con el símbolo Ho.
    Siempre que especificamos una hipótesis nula,
    también debemos especificar una hipótesis
    alternativa, o una que debe ser verdadera si se encuentra que la
    hipótesis nula es falsa. La hipótesis alternativa
    se simboliza H1. La hipótesis alternativa representa la
    conclusión a la que se llegaría si hubiera
    suficiente evidencia de la información de la muestra para
    decidir que es improbable que la hipótesis nula sea
    verdadera, y por tanto rechazarla. El hecho de no rechazar la
    hipótesis nula no es una prueba de que ésta sea
    verdadera. Nunca podemos probar que tal hipótesis sea
    correcta porque estamos basando nuestra decisión
    únicamente en la información de la muestra, no en
    la población entera.

    Resumen:

    • La hipótesis nula se refiere siempre a un
      valor especificado del parámetro de población, no
      a una estadística de muestra.
    • El planteamiento de la hipótesis nula siempre
      contiene un signo de igualdad con
      respecto al valor especificado del
      parámetro.
    • El planteamiento de la hipótesis alternativa
      nunca contiene un signo de igualdad con respecto al valor
      especificado del parámetro.

    Regiones de rechazo y de no rechazo

    La distribución de muestreo de la
    estadística de prueba se divide en dos regiones, una
    región de rechazo (conocida como región
    crítica) y una región de no rechazo. Si la
    estadística de prueba cae dentro de la región de no
    rechazo, no se puede rechazar la hipótesis nula.
    La región de rechazo puede considerarse como el conjunto
    de valores de la estadística de prueba que no tienen
    posibilidad de presentarse si la hipótesis nula es
    verdadera. Por otro lado, estos valores no son tan improbables de
    presentarse si la hipótesis nula es falsa. El valor
    crítico separa la región de no rechazo de la de
    rechazo.
    Riesgos en la
    toma de decisiones al utilizar la metodología de prueba de
    hipótesis.
    Se pueden presentar dos tipos diferentes de errores:

    • Un error tipo I se presenta si la hipótesis
      nula es rechazada cuando de hecho es verdadera y debía
      ser aceptada.
    • Un error tipo II se presenta si la hipótesis
      nula es aceptada cuando de hecho es falsa y debía ser
      rechazada.

    Nivel de Significación. La probabilidad de
    cometer un error tipo I denotada con la letra griega alfa, se
    conoce como nivel de significación de la prueba
    estadística. Está bajo el control directo del
    individuo que lleva a cabo la prueba. Ya que se ha especificado
    el valor de alfa, se conoce el tamaño de la región
    de rechazo, puesto que alfa es la probabilidad de un rechazo de
    la hipótesis nula.

    Coeficiente de confianza. EL complemento (
    1-a ) de la
    probabilidad de cometer un error de tipo I se conoce como
    coeficiente de confianza.

    El coeficiente de confianza es la probabilidad de que la
    hipótesis nula no sea rechazada cuando de hecho es
    verdadera y debería ser aceptada.

    Riesgo b
    . La probabilidad de cometer un error de tipo II se conoce
    como nivel de riesgo del
    consumidor. A
    diferencia del error tipo I, en el cual las pruebas
    estadísticas nos permiten controlar nuestra
    elección de a
    , la probabilidad de cometer un error del tipo II depende
    de la diferencia entre los valores supuesto y real del
    parámetro de población. Como es más
    fácil encontrar diferencias grandes, si la diferencia
    entre la estadística de muestra y el correspondiente
    parámetro de población es grande,
    b la probabilidad de
    cometer un error del tipo II, probablemente sea
    pequeña.

    Potencia de una prueba. El complemento
    (1-b ) de la
    probabilidad de cometer un error del tipo II se conoce como
    potencia de una
    prueba estadística.
    La potencia de una prueba es ña probabilidad de rechazar
    la hipótesis nula cuando de hecho esta es falsa y
    debería ser rechazada.
    Una manera en que podemos controlar la probabilidad de cometer un
    error del tipo II en un estudio, consiste en aumentar el
    tamaño de la muestra. Tamaños más grandes de
    muestra, nos permitirán detectar diferencias incluso muy
    pequeñas entre las estadísticas de muestra y los
    parámetros de la población. Cuando se
    disminuye a
    , b
    aumentará de modo que una reducción en el
    riesgo de cometer un error de tipo I tendrá como resultado
    un aumento en el riesgo de cometer un error tipo II.

    Prueba de hipótesis Z para la media
    (desvío de la población conocido)

    El estadístico de prueba a utilizar
    es:

    La Potencia de una prueba

    β representa la probabilidad de que la
    hipσtesis nula no sea rechazada cuando de
    hecho es falsa y debería rechazársele. La potencia
    de prueba 1-β representa la sensibilidad de la prueba
    estadística para detectar cambios que se presentan al
    medir la probabilidad de rechazar la hipótesis nula cuando
    de hecho es falsa y debería ser rechazada. La potencia de
    prueba estadística depende de qué tan diferente en
    realidad es la media verdadera de la población del valor
    supuesto.

    Una prueba de un extremo es más poderosa que una
    de dos extremos, y se debería utilizar siempre que sea
    adecuado especificar la dirección de la hipótesis
    alternativa.

    Puesto que la probabilidad de cometer un error tipo I y
    la probabilidad de cometer un error tipo II tienen una
    relación inversa y esta última es el complemento de
    la potencia de prueba (1-β), entonces α y
    la potencia de la prueba varνan en
    proporciσn directa. Un aumento en el valor del
    nivel de significación escogido, tendría como
    resultado un aumento en la potencia y una disminución en
    α tendría como resultado una disminución en
    la potencia.
    Un aumento en el tamaño de la muestra escogida
    tendría como resultado un aumento en la potencia de la
    prueba, una disminución en el tamaño de la muestra
    seleccionada tendría como resultado una disminución
    en la potencia.

    12. Capitulo 12 del
    libro

    Pruebas de una muestra con datos numéricos
    Elección del procedimiento de prueba apropiada
    Procedimientos
    paramétricos
    Todos los procedimientos paramétricos tienen tres
    características distintivas: Los procedimientos de prueba
    paramétricos pueden definirse como aquellos 1)que
    requieren que el nivel de medición obtenido con los datos
    recolectados esté en forma de una escala de intervalo o de
    una escala de cociente; 2)implican la prueba de hipótesis
    de valores de parámetros especificados 3) y por
    último requieren un conjunto limitante de
    suposiciones.

    Procedimientos sin distribución y no
    paramétricos
    Los procedimientos de prueba sin distribución pueden
    definirse ampliamente como 1) aquellos cuya estadística de
    prueba no depende de la forma de la distribución de la
    población subyacente de la cual se tomó la muestra
    de datos o como 2) aquellos para los cuales los datos no tienen
    fuerza
    suficiente para garantizar operaciones
    aritméticas significativas.

    Los procedimientos no paramétricos pueden
    definirse como aquellos que no tienen que ver con los
    parámetros de una población.

    Prueba t de hipótesis para la media (δ2
    desconocida)

    En
    ocasiones se desconoce la desviación estándar de la
    población. Sin embargo, se la puede estimar con el
    cálculo de S, la desviación estándar de la
    muestra. Recordemos de muestreo de la media seguirá una
    distribución t con n-1 grado de libertad.

    Aproximación del valor p
    Suposiciones de la prueba t de una muestra
    La prueba t está considerada como un procedimiento
    paramétrico clásico. Supuestos: los datos
    numéricos obtenidos son tomados de manera independiente y
    representan una muestra aleatoria de la población que
    está distribuida normalmente.
    Prueba de hipótesis χ2 para la varianza (o
    desviación estándar)
    Al intentar llegar a conclusiones con respecto a la variabilidad
    de la población, primero debemos determinar que
    estadística de prueba puede utilizarse para representar la
    distribución de la variabilidad de los datos de la
    muestra. Si la variable se supone que está distribuida
    normalmente, entonces la estadística de prueba para probar
    si la varianza de la población es igual o no a un valor
    especificado es:

    Una
    distribución chi-cuadrado es una distribución
    sesgada cuya forma depende exclusivamente del número de
    grados de libertad. Conforma este aumenta, la distribución
    se vuelve más simétrica.

     

    13. Capítulo 13 del
    libro

    Pruebas de dos muestras con datos numéricos
    Prueba t de varianza conjunta para diferencias entre dos
    medias

    Supongamos que consideramos dos poblaciones
    independientes, cada una con una media y una desviación
    estándar. La estadística de prueba utilizada para
    determinar la diferencia entre las medias de las poblaciones
    está basada en la diferencia entre las medias de las
    muestras (X1 – X2). Debido al teorema del límite
    central esta estadística seguirá la
    distribución normal. La estadística de prueba Z
    es:

    En donde X es la media de la muestra correspondiente a
    cada una de las dos muestras, n es el tamaño de la muestra
    y por último tenemos la varianza de la muestra.

    Si suponemos que las varianzas son iguales y que las
    muestras fueron tomadas de manera aleatoria e independiente se
    puede utilizar una prueba t de varianza conjunta para determinar
    si existe alguna diferencia significativa entre las medias de las
    poblaciones. Si puede calcular la siguiente estadística de
    prueba t de varianza conjunta:

    Donde:

     

    La estadística de prueba t de varianza conjunta
    sigue una distribución t con n-2 grados de
    libertad.

    Prueba t`de varianza separada para diferencias entre dos
    medias

    Si
    suponemos que las varianzas no son iguales como en el caso
    anterior debemos replantear el estadístico a
    utilizar.

    La estadística de prueba t`puede ser aproximada
    con la fórmula de v, mostrada anteriormente.
    Prueba t para la diferencia de medias
    Con el propósito de determinar cualquier diferencia que
    exista entre dos grupos
    relacionados, deben obtenerse las diferencias en los valores
    individuales de cada grupo. Cuando
    la desviación estándar de la poblacion de la
    diferencia es conocida y el tamaño de muestra es lo
    suficientemente grande. La estadística de prueba Z
    es:

    Sin embargo, en la mayoría de los casos no
    conocemos la desviación estándar real de la
    población. La única información que se puede
    obtener son las estadísticas sumarias como la media y la
    desviación estándar de muestra. Si se supone que la
    muestra de resultados es tomada de manera aleatoria e
    independiente se puede realizar una prueba t para determinar si
    existe una diferencia media de población significativa. La
    estadística seguirá una distribución t con
    n-1 grados de libertad.
    Ho= µd = 0 donde µd= µ1-µ2
    H1= µd ≠ 0

    Se puede calcular el siguiente estadístico de
    prueba:

    14. Capitulo 14 del
    libro

    Prueba de hipótesis con datos
    categóricos
    Prueba Z de una muestra para la proporción
    Para evaluar la magnitud de la diferencia entre la porción
    de la muestra y la porción de la población supuesta
    la estadística de prueba está dada por la
    ecuación siguiente:

    La estadística de prueba Z está
    distribuida de manera aproximadamente normal.

    Prueba Z para diferencias entre dos porciones (muestras
    independientes)
    Cuando se evalúan diferencias entre dos porciones
    basándose en muestras independientes se puede emplear una
    prueba Z. La estadística de prueba es:

    Se supone que las dos porciones de población son
    iguales.
    Ho= p1=p2
    H1= p1 ≠ p2

    Prueba X2 de independencia
    Sirve para evaluar diferencias potenciales entre la
    porción de éxitos en cualquier número de
    poblaciones. Para una tabla de contingencias que tiene r
    renglones y c columnas, la prueba mencionada puede generalizarse
    como una prueba de independencia.
    Como prueba de hipótesis las hipótesis nula y
    alternativa son:
    H0= Las dos variables categóricas son independientes.
    H1= Las dos variables categóricas están
    relacionadas.
    La estadísitica de prueba es la siguiente:

    La regla de decisión consiste en rechazar
    ña hipótesis nula a un nivel de
    significación si el valor calculado de la
    estadística de prueba es mayor que el valor crítico
    de extremo superior de una distribución chi-cuadrada que
    posee (r-1)*(c-1) grados de libertad.

    15. Capítulo 15 del
    libro

    Regresión lineal simple y correlación
    El análisis de regresión se utiliza principalmente
    con el propósito de hacer predicciones.
    El análisis de correlación se utiliza para medir la
    intensidad de la asociación entre las variables
    numéricas.
    Diagrama de dispersión: cada valor es graficado en sus
    coordenadas particulares X, Y.
    Tipos de modelos de
    regresión. El modelo de línea recta puede
    representarse como:

    El primer termino (B0), es la intersección Y para
    la población; B1 es la pendiente de la población y
    E es el error aleatorio en Y para la observación i. En
    este modelo, la pendiente de la recta B1 representa el cambio
    esperado en Y por unidad de cambio en X; esto es, representa la
    cantidad que cambia la variable Y con respecto a una unidad de
    cambio particular en X. B0 representa el valor promedio de Y
    cuando X es igual a cero. El modelo matemático está
    influenciado por la distribución de los valores X y Y en
    el diagrama de dispersión.

    Determinación de la ecuación de
    regresión lineal simple. El método de
    mínimos cuadrados.

    A b0 y b1 se los puede considerar como estimaciones de
    B0 y B1. Por consiguiente, la ecuación de regresión
    de muestra sería:

    Yi es el
    valor predicho de Y para la observación i, y Xi es el
    valor de X para la observación i.

    El análisis de regresión lineal simple
    tiene que ver con la búsqueda de la línea recta que
    mejor se ajusta a los datos. El mejor ajuste significa que
    deseamos encontrar la línea recta para la cual las
    diferencias entre los valores reales (Yi) y los valores que
    serían predichos a partir de la línea ajustada de
    regresión (Yi estimada) sean lo más pequeñas
    posibles. Debido a que tales diferencias serán positivas y
    negativas para las diferentes observaciones, minimizamos
    matemáticamente la expresión:

    Una técnica
    matemática utilizada para determinar los valores de bo y
    b1 que mejor se ajusten a los datos observados se conoce como
    método de mínimos cuadrados. Al utilizar este
    método surgen dos ecuaciones
    normales:

    I.

    II.

     

    El error estándar de
    estimación.

    El error
    estándar de la estimación, representado como Syx se
    define como:

    Mediciones de variación en regresión y
    correlación. Con el fin de examinar que tan bien una
    variable independiente predice a la variable dependiente,
    necesitamos desarrollar algunas medidas de variación. La
    primera: la suma total de cuadrados, esta puede dividirse en dos
    partes: la variación explicada o suma de cuadrados debida
    a la regresión (SSR) y la variación no explicada o
    suma de cuadrados de error (SSE). La suma de cuadrados debida a
    la regresión. La SSR representa la diferencia entre el
    valor promedio de Y y el valor promedio de Y que sería
    predicho a partir de la relación de regresión).La
    SSE representa aquella parte de la variación de Y que noo
    es explicada por la regresión.

    SST = SSR + SSE

    En la que SST =

    Podemos ahora definir el coeficiente de
    determinación r2: mide la porción de
    variación que es explicada por la variable independiente
    del modelo de regresión:

    Algunos
    investigadores sugieren que se calcule un coeficiente r2 ajustado
    para reflejar tanto el número de variables explicatorias
    del modelo como el tamaño de la muestra. El coeficiente r2
    ajustado se calcula de la siguiente manera:

    Correlación: medición de la intensidad de
    la asociación
    En el análisis de correlación estamos interesados
    en medir el grado de asociación entre dos variables. La
    intensidad de la
    relación se mide mediante el coeficiente de
    correlación r
    , cuyos valores van de –1 a +1. El coeficiente de
    correlación en casos de regresión lineal simple
    toma el signo de b1.

     

     

    Suposiciones de regresión y correlación.
    Las cuatro principales suposiciones acerca de la regresión
    son: 1.Normalidad. 2. Homoscedasticidad. 3. Independencia de
    error. 4. Linealidad.
    La primera suposición, normalidad, requiere que los
    valores de Y estén distribuidos normalmente en cada valor
    de X. Siempre y cuando la distribución de los valores de
    Yi alrededor de cada nivel de X no sea extremadamente diferente
    de una distribución normal, las inferencias acerca de la
    línea de regresión y de los coeficientes de
    regresión no se verán seriamente afectadas. La
    segunda suposición, homoscedasticidad, requiere que la
    variación alrededor de la línea de regresión
    sea constante para todos los valores de X. La tercera
    suposición, independencia de error, requiere que el error
    sea independiente de cada valor de X. Por último, la
    linealidad establece que la relación entre las variables
    es lineal.

    Estimación del intervalo de confianza para
    predecir m
    yx.

     

     

    Intervalo de predicción para una respuesta
    individual Yi

     

    Inferencias respecto a los parámetros de
    población en regresión y
    correlación

    Ho= β1=0 (No hay relaciσn)

    H1= β1 ≠ 0 (Hay relaciσn)

    Y la estadístida de prueba para probar la
    hipótesis está dada por:

    La estadística de prueba sigue una
    distribución t con n-2 grados de libertad.

    Un segundo método equivalente para probar la
    existencia de una relación lineal entre las variables
    consiste en establecer una estimación de intervalo de
    confianza de β1 y determinar si el valor supuesto
    está incluido en el intervalo. La estimación del
    intervalo de confianza se obtendría de la siguiente
    manera:

     

    Un tercer método para examinar la existencia de
    una relación lineal entre dos variables implica al
    coeficiente de correlación de la muestra, r. Para ello se
    realiza lo siguiente:

    Ho: ρ = 0 ( No hay
    relación)

    H1: ρ ≠ 0 (Hay relaciσn)

    La estadística de prueba para determinar la
    existencia de una correlación esta dada por:

    La estadística de prueba sigue una
    distribución t con n-2 grados de libertad.

    Dificultades de la regresión y cuestiones
    éticas
    Las dificultades que surgen con frecuencia son:

    1. Falta de conciencia
      sobre las suposiciones de la regresión de mínimos
      cuadrados.
    2. Conocimiento de cómo evaluar las suposiciones
      de la regresión de mínimos cuadrados.
    3. Conocimientos de cuáles son las alternativas
      de la regresión de mínimos cuadrados si no se
      cumple alguna suposición individual.
    4. La creencia de que la correlación implica
      causalidad.
    5. El uso del modelo de regresión sin conocer de
      qué se trata.

    16. Aplicaciones
    estadísticas en administración de la calidad y
    productividad

    Calidad y productividad:
    Una perspectiva histórica. Al tema de calidad y
    productividad lo podemos dividir en cuatro fases
    históricas: 1. Podemos pensar en una administración
    de primera generación como administración mediante
    la acción, el tipo administración practicada por
    las sociedades
    cazadoras-recolectoras primitivas en que los individuos
    producían algo para sí mismos o para su unidad
    tribal, siempre que el producto fuera necesario. 2. Luego
    encontramos la
    administración por dirección. Es la
    época del surgimiento de los gremios en Europa (Edad Media).
    Los gremios administraban el entrenamiento de
    aprendices y trabajadores y determinaban las normas de calidad
    y fabricación de los productos hechos por el gremio. 3. La
    administración por control, surge aproximadamente con
    Henry Ford, en el cual los trabajadores estaban divididos entre
    aquellos que en realidad hacían el trabajo y aquellos que
    planeaban y supervisaban el trabajo. Esto le quitó
    responsabilidad al trabajador individual con
    respecto al tema calidad y dejó el tema en manos de
    inspectores. El estilo de administración por control
    contenía una estructura
    jerárquica que ponía énfasis en la
    responsabilidad individual por la obtención de un conjunto
    de objetivos
    predeterminados. 4. Por último encontramos la
    administración por proceso. Llamada a menudo TQM o
    Administración de Calidad Total.
    Una de las características principales de este
    planteamiento consiste en centrar la atención en una
    continua mejora de los procesos. Se
    le da importancia al trabajo en
    equipo, atención al
    cliente y rápida reacción a los cambios. Tiene
    fuerte fundamentación estadística.

    La teoría de los diagramas de control. El
    diagrama de control es un medio para revisar la variación
    de la característica de un producto o servicio mediante 1.
    la consideración de la dimensión temporal en la
    cual el sistema fabrica productos y 2. el estudio de la naturaleza de la
    variabilidad del sistema. El diagrama de control puede utilizarse
    para estudiar desempeños pasados o evaluar las condiciones
    presentes o ambas cosas. Los diagramas de control pueden
    utilizarse para diferentes tipos de variables: para las variables
    categóricas y para las variables discretas. La
    atención principal del diagrama de control se enfoca en el
    intento de separar las causas especiales o asignables de la
    variación de las causas comunes o debidas al
    azar.

    • Las causas especiales o asignables representan
      grandes fluctuaciones en los datos que no son inherentes a un
      proceso. Tales fluctuaciones son ocasionadas por cambios en un
      sistema.
    • Las causas comunes o debidas al azar representan la
      variabilidad inherente que se presenta en un
      sistema.

    Las causas especiales se consideran aquellas que no
    forman parte de un proceso y son susceptibles de corregir;
    mientras que las causas comunes pueden reducirse solo cambiando
    el sistema. Existen dos tipos de errores que los diagramas de
    control ayudan a prevenir. El primer tipo de error implica la
    creencia de que un valor observado representa una causa especial
    de la variación cuando de hecho se debe a una causa
    común de variación del sistema. El segundo error
    implica tratar a una causa especial como si fuera una causa
    común y no tomar medidas correctivas cuando son
    necesarias.

    La forma más típica de un diagrama de
    control establece límites de control que se encuentran
    dentro de +/-3 desviaciones estándar de la medida de
    estadística de interés. En general puede
    establecerse como:

    Algunas herramientas
    para estudiar un proceso: diagrama de esqueleto de pescado
    (Ishikawa) y de flujo de procesos. Un proceso es una secuencia de
    pasos que describen una actividad desde el inicio hasta su
    terminación.

    • El diagrama de esqueleto de pescado (o Ishikawa): El
      nombre viene de la manera en que las diferentes causas
      están ordenadas en el diagrama. El problema se muestra
      en la parte derecha y las principales causas se colocan en la
      parte izquierda. Estas causas a menudo se
      subdividen.
    • Diagrama de flujo de proceso. Este diagrama nos
      permite ver un flujo de pasos de un proceso, desde su inicio
      hasta su terminación.

    Los catorce puntos de Deming: una
    teoría de la administración por proceso. Deming
    desarrollo su
    enfoque basándose en los siguientes catorce
    puntos:

    1. Crear una constancia en el propósito de
      mejorar el producto y el servicio.
    2. Adoptar la nueva filosofía.
    3. Dejar de ser dependientes de la inspección
      para lograr la calidad.
    4. Terminar con la práctica de otorgar contratos sobre
      la única base del precio. En
      vez de ello minimizar el costo total trabajando con un solo
      proveedor.
    5. Mejorar constantemente y para siempre cada proceso de
      planeación, producción y
      servicio.
    6. Instituir el entrenamiento en el trabajo.
    7. Adoptar e instituir el liderazgo.
    8. Eliminar el miedo.
    9. Derribar las barreras entre áreas de
      personal.
    10. Eliminar lemas, exhortaciones y metas destinados a la
      fuerza laboral.
    11. Eliminar cuotas numéricas para la fuerza
      laboral y objetivos numéricos para la
      administración.
    12. Retirar barreras que le restan orgullo a la gente
      respecto a su trabajo. Eliminar el sistema de evaluación anual o de
      mérito.
    13. Instituir un vigoroso programa de
      educación y autodesarrollo para
      todos.
    14. Poner a todo el que trabaje en la
      compañía a trabajar en el logro de la
      transformación.

    Diagramas de control para la proporción y el
    número de elementos que no se ajustan:. Los diagramas p y
    np.

    • Diagrama p: basado en la porción de elementos
      que no cumplen con los requisitos. Para establecer los
      límites de control:

     

     

    Cualquier valor negativo del límite de control
    inferior significará que el límite de control
    inferior no existe.

    • Diagrama np: basado en el número de elementos
      que no cumplen con los requisitos. Los límites de
      control los establecemos de la siguiente manera:

     

    El diagrama R: Un diagrama de control para la
    dispersión. Los límites de este diagrama de control
    los obtenemos de la siguiente manera:

     

    Diagrama X. El diagrama de control para X utiliza
    subgrupos de tamaño n que se obtienen sobre k secuencias
    consecutivas o periodos. Los límites de control se
    obtienen de la siguiente manera:

     

     

    Resumen
    Pronóstico de series de tiempo.
    Tipos de métodos de predicción: Existen dos
    planteamientos para la predicción: cualitativa y
    cuantitativa. Los métodos de predicción cualitativa
    son especialmente importantes cuando no se dispone de datos
    históricos. Se consideran altamente subjetivos. Los
    métodos de predicción cuantitativa hacen uso de los
    datos históricos.

    Introducción al análisis de series de
    tiempo.
    Una serie de tiempo es un conjunto de datos numéricos que
    se obtienen en períodos regulares a través del
    tiempo. El principal objetivo de una serie de tiempo consiste en
    identificar y aislar tales factores de influencia con
    propósitos de hacer predicciones, así como para
    efectuar una planeación y un control
    administrativo.

    Factores componentes del modelo multiplicativo de series
    temporales.
    Tendencia: impresión a largo plazo.
    Componente cíclico: representa la oscilación o los
    movimientos a la baja y a la alta que se dan a lo largo de la
    serie. Los movimientos cíclicos varían en longitud,
    por lo general de dos a 10 años.
    Componente irregular aleatorio: cualquier componente que no sigue
    la curva de tendencia modificada por el componente
    cíclico.
    Cuando los datos se registran mensual o trimestralmente
    además de la tendencia cíclica y los componentes
    irregulares debemos tomar en cuenta el factor estacional.
    El modelo multiplicativo clásico de las series
    temporales.
    Cuando los datos se obtienen anualmente una observación Yi
    puede expresarse como:
    Yi=Ti*Ci*Ii; en la que Ti es el valor del componente tendencia,
    Ci= valor del componente cíclico; Ii es el valor del
    componente irregular.
    Por otra parte cuando los datos se obtienen de manera trimestral
    o mensual una observación Yi puede estar dada por:
    Yi=Ti*Si*Ci*Ii, en la que Si es el valor del componente
    estacional.

    El primer paso de una serie de tiempo consiste en
    graficar los datos y observar su tendencia a través del
    tiempo. Primero debemos determinar si parece haber un movimiento a
    largo plazo hacia arriba o hacia abajo en la serie. ( es decir
    una tendencia), o si la serie parece oscilar alrededor de una
    línea horizontal a través del tiempo. Si este
    último parece ser el caso entonces debe emplearse el
    método de promedios móviles o el suavizado
    exponencial, para suavizar la serie y proporcionarnos una
    impresión global a largo plazo.

    Suavizado de las series temporales anuales:. promedios
    móviles y suavizado exponencial.
    Promedios móviles. Este método es altamente
    subjetivo y dependiente de la longitud del período elegido
    para la construcción de los promedios. Para eliminar las
    fluctuaciones cíclicas, el período escogido debe
    ser un valor entero que corresponda a la duración promedio
    estimada de un ciclo.
    Los promedios móviles para un período elegido de
    longitud L consisten en una serie de medias aritméticas
    calculadas en el tiempo de tal modo que cada media se calcula
    para una secuencia de valores observados que tienen esa longitud
    particular, L.

    El promedio móvil puede calcularse de la
    siguiente manera:
    Cuanto más largo sea el período, menor será
    el número de valores promedio móvil que se pueden
    calcular y graficar. Por consiguiente, la selección de
    promedios móviles con períodos de longitud mayores
    a siete años es, por lo general, no deseable puesto que
    habrá demasiados puntos de datos que faltan al inicio y al
    final de la serie, haciendo que sea más difícil de
    obtener una impresión global de la serie
    completa.

    Suavizado Exponencial.
    El suavizado exponencial puede utilizarse para obtener
    predicciones a corto plazo. Su nombre deriva del hecho de que nos
    proporciona un promedio móvil pesado o ponderado
    exponencialmente a través de la serie de tiempo, esto es,
    a lo largo de la serie cada cálculo de suavizado o
    predicción depende de todos los valores observados
    anteriormente. Esta es una ventaja con respecto al otro
    método. Con este método los pesos asignados a los
    valores observados disminuyen con el tiempo, de modo que cuando
    se hace el cálculo, el valor observado más reciente
    recibe el mayor peso.

    Para suavizar una serie de tiempo en cualquier periodo i
    tenemos la siguiente expresión:.


    Ei= valor de la serie suavizada exponencialmente que se calcula
    en el período i.
    Ei-1= valor de la serie suavizada exponencialmente calculado en
    el período i-1
    Yi= valor observado de la serie en el período i
    W= peso o coeficiente de suavizado que se asigna de manera
    subjetiva.
    W==2/(L+1)

    Si deseamos suavizar una serie mediante la
    eliminación de las variaciones cíclicas e irregular
    no deseadas, debemos seleccionar un pequeño valor de W.
    Si, nuestro objetivo es hacer predicciones debiésemos
    seleccionar el valor más grande de W (cercano a
    uno).

    Análisis de series de datos anuales: ajuste de
    tendencia de mínimos cuadrados y
    pronóstico.

    El modelo lineal:

    El modelo cuadrático:

    El
    modelo exponencial:

    Elección de un modelo de predicción
    apropiado

     

     

     

     

     

    Autor:

    Hernan Torino
    htorino[arroba]sinectis.com.ar

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter