Indice
1.
Resumen Capítulo 1 del Libro
2. Resumen Capítulo 2 del
Libro
3. Resumen Capítulo 3 del
Libro
4. Resumen Capítulo 4 del
Libro
5. Resumen Capítulo 5 del
Libro
6. Capitulo 6 del
libro
7. Capítulo 7 del
libro
8. Capítulo 8 del
libro
9. Capitulo 9 del libro
10. Capitulo 10 del
libro
11. Hipótesis nula y
alternativa
12. Capitulo 12 del
libro
13. Capítulo 13 del
libro
14. Capitulo 14 del
libro
15. Capítulo 15 del
libro
16. Aplicaciones estadísticas en
administración de la calidad y
productividad
1. Resumen Capítulo 1
del Libro
- Estadística Descriptiva: Puede definirse como
aquellos métodos
que incluyen la recolección, presentación y
caraterización de un conjunto de datos con el
fin de describir apropiadamente las diversas características de ese
conjunto. - Estadística Inferencial: Puede definirse como
aquellos métodos que hacen posible la estimación
de una característica de una población o la toma de una
decisión referente a una población
basándose sólo en los resultados de una muestra.
Para aclara este concepto se
necesitan de las siguientes definiciones:
- Población: es la totalidad de elementos o
cosas bajo consideración. - Muestra: Es la porción de la población
que se selecciona para su análisis. - Parámetro: Es una medida de resumen que se
calcula para describir una característica de toda una
población. - Estadística: Es una medida que se calcula para
describir una característica de una sola muestra de la
población.
Podemos encontrar dos tipos de estudios
estadísticos que se emprenden: los estudios enumerativos y
los estudios analíticos.
Los estudios enumerativos involucran la toma de
decisiones respecto a una población y/o sus
características.
Los estudios analíticos involucran realizar alguna
actividad sobre un proceso para
mejorar el desempeño en el futuro. La atención de un estudio analítico
está puesta sobre la predicción del comportamiento
futuro de un proceso y sobre la comprensión y
perfeccionamiento de ese proceso. En un estudio analítico
no existe un universo
identificable, como sucede en un estudio enumerativo y en
consecuencia tampoco hay un marco.
2. Resumen Capítulo
2 del Libro
Recolección de Datos
La necesidad de datos: los datos se necesitan
para:
- Proporcionar la introducción imprescindible para un
estudio de investigación. - Medir el desempeño en un servicio o
proceso de producción en curso. - Ayudar en la formulación de cursos
alternativos de acción en un proceso de toma de
decisiones. - Satisfacer nuestra curiosidad.
¿Que es un dato?
Los datos pueden concebirse como información numérica necesaria para
ayudarnos a tomar una decisión con más bases en una
situación particular.
¿Cómo obtenemos los datos?
Existen muchos métodos mediante los cuales podemos obtener
los datos necesarios. Primero, podemos buscar datos ya publicados
por fuentes
gubernamentales, industriales o individuales. Segundo, podemos
diseñar un experimento. En tercer lugar, podemos conducir
un estudio. Cuarto, podemos hacer observaciones del
comportamiento, actitudes u
opiniones de los individuos en los que estamos
interesados.
Utilización de fuentes de datos
publicadas
Sin importar la fuente utilizada, se hace una
distinción entre el recolector original de los datos y
la
organización o individuos que compilan éstos en
tablas y diagramas. El
recolector de datos es la fuente primaria; el compilador de los
datos es la fuente secundaria.
Diseño de un experimento
En un experimento se ejerce control sobre el
tratamiento de los dado a los participantes.
Conducción de una encuesta
Aquí no se ejerce ningún control sobre el
comportamiento de la gente encuestada. Simplemente se formulan
preguntas respecto a sus opiniones, actitudes, comportamiento y
otras características.
Realización de un estudio observacional
El investigador observa el comportamiento de interés
directamente, por lo común en su entorno natural.
La importancia de obtener buenos datos: GIGO
GIGO: Entra Basura, sale
basura. No importa el método
utilizado para obtener los datos, si un estudio ha de ser
útil, si el desempeño debe controlarse
apropiadamente o si el proceso de la toma de decisiones debe
ampliarse, los datos recabados deben ser válidos: es
decir, las respuestas correctas deben valorarse de manera que se
obtengan mediciones significativas.
Obtención de datos mediante investigación
de encuesta
Tipos de
datos
Existen básicamente dos tipos de variables
aleatorias que producen dos tipos de datos: categóricas y
numéricas. Las variables aleatorias categóricas
producen respuestas categóricas, mientras que las
variables numéricas producen respuestas numéricas.
Las variables numéricas pueden considerarse como discretas
o continuas. Los datos discretos son respuestas numéricas
que surgen de un proceso de conteo, mientras que los datos
continuos son respuestas numéricas que surgen de un
proceso de medición.
La necesidad de definiciones operacionales. Una definición
operacional proporciona un significado a un concepto o variable
que puede comunicarse a otros individuos. Es algo que tiene el
mismo significado ayer, hoy y mañana para todos los
individuos.
Diseño del cuestionario
El objetivo de un
cuestionario
es permitirnos recabar información significativa que nos
ayude en el proceso de toma de decisiones.
- Selección de temas amplios – Longitud del
cuestionario
Los amplios temas de los cuestionarios deben enumerarse.
Mientras más largo sea el cuestionario, menor será
el cociente de respuesta. Por tanto, se deben evaluar
cuidadosamente las preguntas. Las preguntas deben ser lo
más cortos posibles.
- Modo de Respuesta
Existen tres modos mediante los cuales se realiza
el trabajo de
encuesta:
la entrevista
persona,
telefónica y por medio del correo. La personal es la
que tiene una tasa de respuesta mayor, pero es más
costosa.
- Formulación de preguntas
Cada pregunta debe presentarse claramente en el menor
número de palabras y cada pregunta debe considerarse
esencial para la encuesta. Además, deben ser libres de
ambigüedades.
- Prueba del cuestionario
Una vez analizadas los pros y contras de cada pregunta
se debe realizar una prueba piloto de manera que puedan
examinarse en cuanto a claridad y longitud.
Elección del tamaño de muestra para la
encuesta
Existen tres razones para extraer una muestra. Antes que todo,
por lo general lleva demasiado tiempo realizar
un censo completo. En segundo lugar, es demasiado costoso hacer
un censo completo. Tercero, es demasiado molesto e ineficiente
obtener un conteo completo de la población
objeto
Selección de los sujetos respondientes: tipos de
muestras
Existen básicamente dos tipos de muestras: las muestra no
probabilística y la muestra de probabilidad.
Una muestra de probabilidad es aquella en la que los sujetos de
la muestra se eligen sobre la base de probabilidades
conocidas.
En una muestra aleatoria simple cada individuo o elemento tiene
la misma oportunidad de selección
que cualquier otro, y la selección de un individuo o
elemento particular no afecta la probabilidad de que se elija
cualquier otro.
Extracción de la muestra aleatoria simple
La clave de la selección de muestras apropiada es obtener
y mantener una lista actualizada de todos los individuos o
elementos de los cuales se extraerá la muestra. Tal lista
se conoce como el marco de la población. Este listado de
población servirá como la población
objetivo, de tal manera que si se extrajeran muchas muestrasde
probabilidades diferentes de tal lista, en el mejor de los casos
cada muestra sería una representación de la
población.
– Muestreo con o
sin reemplazo de poblaciones finitas
Para seleccionar la muestra pueden usarse dos métodos
básicos: con reemplazo o sin reemplazo. Digamos que N
representa la población y n la muestra. Al extraer con
reemplazo la probabilidad de cualquier miembro de la
población de ser seleccionado en la primera
extracción es 1/N. La probabilidad de ser seleccionado en
otra extracción sigue siendo 1/N debido a que una vez
registrado el dato, el individuo seguirá formando parte de
la población.
Sin embargo, al muestrear poblaciones humanas generalmente se
considera más apropiado tener una muestra de persona
diferentes que permitir mediciones repetidas de la misma persona.
La probabilidad en este caso es 1/N en la primera
extracción. La probabilidad de que cualquier individuo no
seleccionado previamente sea seleccionado en la segunda
extracción es 1/N-1.
La encuesta de la muestra
El primer pasa para evaluar una encuesta es determinar si se
basó en una muestra de probabilidad o en una no
probabilístico.
Aun cuando las encuestas
emplean métodos de muestreo de probabilidad aleatorios,
están sujetas a errores potenciales. Existen cuatro tipo
de errores de encuesta:
1 – Error de cobertura o sesgo de selección. Este error
resulta de la exclusión de ciertos sujetos del listado de
población, de tal manera que no tienen oportunidad de ser
seleccionados en la muestra. El error de cobertura provoca el
sesgo de selección.
2- Error de no-respuesta o sesgo de no-respuesta. El error de
no-respuesta resulta del fracaso de recolectar datos sobre todos
los sujetos de la muestra. Y el error de no-respuesta da como
resultado el sesgo de no-respuesta.
3- Error de Muestreo. Este error refleja la heterogeneidad o las
diferencias de oportunidad de muestra a muestra basándose
en la probabilidad de los sujetos que están siendo
seleccionados en las muestras particulares. El error de muestreo
puede reducirse tomando tamaños de muestra mayores, aunque
esto incrementará el costo de
aplicación de la encuesta.
4- Error de Medición. Este error se refiere a
inexactitudes en las respuestas registradas que ocurren debido a
una mala formulación de las preguntas, el efecto de un
entrevistados sobre el encuestado o el esfuerzo hecho por el
encuestado.
Organización y Resumen de Datos
Organizacion, Resumen Y Presentacion De Datos Estadisticos
Conceptos que deben reforzarse
POBLACION: es el conjunto formado por todas las unidades
elementales que proporcionarán las mediciones de
interés. Pueden ser personas, cosas, objetos
abstractos.
CENSO: Cuando se estudia la totalidad de las unidades elementales
que componen la población.
Desventaja: errores de observación. Ej.: omisiones, duplicaciones,
no-ubicación (no medibles) del encuestado, volumen de
información
MUESTRA: se estudia una parte representativa de la
población
Desventaja: errores de observación (no medibles) errores
de estimación (medible, cuantificable)
LOS DATOS ESTADISTICOS SON VARIABLES, SU RESULTADO VARIA DE UNA
MEDICION A OTRA.
Debido a ello a los datos estadísticos los denominamos
VARIABLES.
Según se vio, las Variables se clasifican en:
Categóricas Ordinales o Nominales Y Numéricas
Discretas o Contínuas.
Caso Sr. Juárez
- Problema: " Aumento en el índice de
rotación de cobranzas". - Población: Todos los clientes que
compran a crédito al señor Juárez en
el local A o B. - Supuestos: – Dos Locales A y B.
- Datos del último mes.
- Muestra Local A: 60 clientes; Local B: 78
clientes. - Hipótesis de
Trabajo: - Deudores del local A necesitan menos tiempo para
pagar. - Situación económica de los clientes
peor þ
nosotros > plazo de financiación. - Locales poseen precios >
competencia. - Mal sistema de
cobros en cuenta corriente.
Para Cada hipótesis se debe tomar una variable a
analizar.
- Variable a Utilizar en nuestro Caso: " Cantidad de
días transcurridos entre la confección de la
factura y el
efectivo cobro de la misma. - Definiciones operacionales:
N= Tamaño de la población.
n= Tamaño de la muestra.
Yi = Variable a analizar
El tamaño de muestra es independiente del
tamaño de la población.
- Distribución de frecuencia:
fi: frecuencia absoluta.
Fi: frecuencia absoluta acumulada.
hi: frecuencia relativa ( cociente entre frecuencia absoluta y la
muestra/población ).
Hi: frecuencia relativa acumulada.
El 21,7 % de los clientes del local A pagan el día 20. En
el local minorista hay pocos que pagan los primeros días y
pocos los que pagan el último día.
Para comparar se trabaja con frecuencias relativas
(cuando los tamaños de muestra son distintos).
23/03/01
Práctico
Ejercicio 2.35 – Página 49
n = 1425
Objetivo: " Medir el grado de satisfacción de los clientes
que compraron una videograbadora en los últimos 12
meses.
- Población: Todos los clientes que compraron
una videograbadora en los últimos 12 meses. - Preguntas cualitativas:
- ¿Qué le pareció el producto?
– Excelente.
– Muy Bueno.
– Bueno.
– Malo.
– Si.
– No.
- Recomendaría el Producto.
- Compraría nuestra marca o
producto.
- Si.
- No.
Preguntas Cuantitativas.
- ¿ Cuantas veces usó el servicio
técnico?
- Ninguna.
- Una.
- Dos.
- Más de dos.
- Diseño y funcionamiento. Califique de uno a
diez - ¿ Cuántas marcas
analizó antes de decidir por Xenith? - ¿Cuántos productos
Xenith posee Ud.?
Ejercicio 3.8 – Pagina 61
b) Diagrama de
Tallo y Hoja SPSS lo hace en forma
automática.
Yi= Segundos que tarda un automóvil de llegar de
0 a 60 Mph.
Autos Alemanes
Tallo | Hoja | ||||||
4 | 9 | ||||||
5 | 5 | 4 | 1 | ||||
6 | 4 | 9 | 4 | 7 | 0 | 9 | |
7 | 9 | 1 | 5 | ||||
8 | 6 | 7 | 3 | 5 | 5 | 8 | 9 |
9 | |||||||
10 | 0 | 9 |
27/03/01
Construcción de Gráficos
- Nombrar los ejes.
- Título del gráfico.
- Fuente de datos.
Ejercicio 3.70 – Pagina 95
Yi | fi | hi | Fi | Hi |
1,00 | 1 | 0,03 | 1 | 0,03 |
1,50 | 2 | 0,07 | 3 | 0,10 |
2,00 | 3 | 0,10 | 6 | 0,20 |
2,50 | 2 | 0,07 | 8 | 0,27 |
3,00 | 6 | 0,20 | 14 | 0,47 |
3,50 | 5 | 0,17 | 19 | 0,63 |
4,00 | 2 | 0,07 | 21 | 0,70 |
4,50 | 2 | 0,07 | 23 | 0,77 |
5,00 | 3 | 0,10 | 26 | 0,87 |
5,50 | 1 | 0,03 | 27 | 0,90 |
6,00 | 1 | 0,03 | 28 | 0,93 |
6,50 | 1 | 0,03 | 29 | 0,97 |
7,00 | 1 | 0,03 | 30 | 1,00 |
30 | 1,00 |
Yi = $ de cada manómetro.
fi = cantidad de veces que se repite la
variable.
En este caso se supone que la variable es discreta.
Construcción de Intervalos
Intervalos sirve en especial para variables
continuas
Ry = Y max – Y min = Recorrido = Amplitud = Rango
Ry = 7.5 – 1 = 6.5
Cantidad de intervalos 4
C= Amplitud del intervalo = Ry / Cantidad de intervalos = 6.5/4 =
1.625
C = Valor entero =
2
Ry* = c x cantidad de intervalos = 2 x 4 = 8
Yi-1 – Yi | Yi | fi | hi |
1 – 3 | 2 | 8 | 0.27 |
3 – 5 | 4 | 15 | 0.50 |
5 – 7 | 6 | 6 | 0.20 |
7 -9 | 8 | 1 | 0.03 |
30 | 1 |
Construcción del intervalo del Caso
Juárez.
R = 38 – 14 = 24
Cantidad de Intervalos = 7
Amplitud = Ry / c = 3.43 = 4
3. Resumen
Capítulo 3 del Libro
Presentación de datos numéricos en tablas
y diagramas
Una distribución de frecuencia es una tabla de
resumen en la que los datos se disponen en agrupamientos o
categorías convenientemente establecidas de clases
ordenadas numéricamente.
En esta forma las características más importantes
de los datos se aproximan muy fácilmente, compensando
así el hecho de que cuando los datos se agrupan de ese
modo, la información inicial referente a las observaciones
individuales de que antes se disponía se pierde a
través del proceso de agrupamiento o
condensación.
Al construir la tabla de frecuencia-distribución,
debe ponerse atención a:
- Seleccionar el número apropiado de
agrupamientos de clase para la tabla. - Obtener un intervalo o ancho de clase de cada
agrupamiento de clase. - Establecer los límites
de cada agrupamiento de clase para evitar los
traslapes.
Selección del Número de Clases
La distribución de frecuencia debe tener al menos cinco
agrupamiento de clase, pero no más de 15. Si no hay
suficientes agrupamientos de clase o si hay demasiados, se
obtendrá poca información.
Obtención de los intervalos de clase
Ancho del intervalo Rango
número de agrupamientos de clase
deseado
La principal ventaja de usar una de estas tablas de
resumen es que las principales características de los
datos se hacen evidentes inmediatamente para el lector.
La principal desventaja de tal tabla de resumen es que no podemos
saber como se distribuyen los valores
individuales dentro de un intervalo de clase particular sin tener
acceso a los datos originales. El punto medio de la clase, sin
embargo, es el valor usado para representar todos los datos
resumidos en un intervalo particular.
El punto medio de una clase (o marca de clase) es el punto a la
mitad de los límites de cada clase y es representativo de
los datos de esa clase.
Tabulación de datos numéricos: la
distribución de frecuencia relativa y distribución
de porcentaje
La distribución relativa de frecuencia se forma dividiendo
las frecuencias de cada clase de distribución de
frecuencia entre el número total de observaciones.
Entonces puede formarse una distribución de porcentaje
multiplicando cada frecuencia relativa o proporción entre
100.
La distribución de frecuencia relativa o la
distribución de porcentaje se vuelve esencial siempre que
una serie de datos se compara con otra seria de datos,
especialmente si difiere el número de observaciones en
cada serie de datos.
Graficación de datos numéricos: el
histograma y el polígono
Histogramas
Los histogramas son diagramas de barras verticales en los que se
construyen barras rectangulares en los límites de cada
clase. La variable aleatoria o fenómeno de interés
se despliega a lo largo del eje horizontal; el eje vertical
representa el número, proporción o porcentaje de
observaciones por intervalo de clase, dependiendo de si el
histograma particular, es un histograma de frecuencia, un
histograma de frecuencia relativa o histograma de
porcentaje
Al comparar dos o más series de datos, ni los
diagramas de tallo y hoja ni los histogramas pueden construirse
en la misma gráfica. Con respecto a estos últimos,
la sobreposición de barras verticales de uno en el otro
ocasionaría dificultades de interpretación; en
estos casos se usan los polígonos.
Polígonos
El polígono de porcentaje se forma permitiendo que el
punto medio de cada clase represente los datos de esa clase y
luego conectando la sucesión de puntos medios con sus
respectivos porcentajes de clase.
Distribuciones acumulativas y polígonos
acumulativos
Una tabla de distribución de porcentaje acumulativo se
construye registrando primero los límites inferiores de
cada clase a partir de la distribución de porcentaje y
luego insertando un límite extra al final.
Polígono de porcentaje acumulativo
Para construir un polígono de porcentaje acumulativo
(también llamado ojiva), el fenómeno se grafica en
el eje horizontal, mientras que los porcentajes acumulativos se
grafican en el eje vertical.
4. Resumen Capítulo 4
del Libro
Resumen y descripción de los datos
numéricos
Propiedades de los datos numéricos.
Las tres mejores propiedades que describe una serie
numérica de datos son:
- Tendencia central
- Variación
- Forma
Si estas mediciones se calculan a partir de una muestra,
se denominan estadísticas, si se calculan a partir de los
datos de una población se denominan
parámetros.
Mediciones de tendencia Central
- La media aritmética, es el promedio. Se
calcula sumando todas las observaciones y luego dividiendo el
total entre el número de elementos
involucrados.
La media actúa como punto de
equilibrio de tal forma que las observaciones menores
compensan a las observaciones que son mayores.
La media aritmética se ve afectada en gran medida
por valores
extremos.
- La mediana. Es el valor medio de una secuencia
ordenada de datos. Si no hay empates, la mitad de las
observaciones serán menores y la otra mitad serán
mayores. La mediana no se ve afectada por valores extremos.
Para calcular la mediana, primero se deben poner los datos en
orden. Después usamos la fórmula del punto de
posicionamiento.
El cálculo
del valor de la media se ve afectado por el número de
observaciones, no por la magnitud de cualquier
extremo.
- La moda. Es el
valor de una serie de datos que aparece con más
frecuencia. La moda no se ve afectada por la ocurrencia de
cualquier valor extremo. - Cuartiles. Los cuartiles sonmediciones descriptivas
que dividen los datos ordenados en cuatro cuartos.
Mediciones de la Variación
La variación es la cantidad de dispersión o
propagación en los datos.
- El rango: es la diferencia entre la mayor y la menor
observación en una serie de datos. El rango mide la
propagación total en la serie de datos. La debilidad del
rango es que no logra tomar en cuenta la forma en que los datos
se distribuyen realmente entre el mayor y el menor valor.
Sería impropio usar el rango como una medición
cuando uno de o ambos componentes son observaciones
extremas. - El rango intercuartil: es la diferencia entre el
tercer y primer cuartil. No se ve influida por valores
extremos. - La varianza y la desviación estándar: a
diferencia de las mediciones anteriores la varianza y la
desviación estándar toman en cuenta como se
distribuyen las observaciones. La Varianza de muestra es el
promedio de las diferencias cuadradas entre cada una de las
observaciones de una serie de datos y la media. La
desviación estándar es simplemente la raíz
cuadrada de la varianza. La varianza y la desviación
miden la dispersión promedio alrededor de la media, es
decir, como las observaciones mayores fluctúan por
encima de ésta y como las observaciones menores se
distribuyen por debajo de ésta. - El Coeficiente de Variación: es una medida
relativa de variación. Se expresa como porcentaje antes
que en términos de las unidades de los datos
particulares. Mide la dispersión en los datos relativa a
la media.
El coeficiente de variación es útil al
comparar la variabilidad de dos o más series de datos que
se expresan en distintas unidades de medición.
Forma
Para describir la forma sólo necesitamos comparar la media
y la mediana. Si estas dos mediciones son iguales, por lo general
podemos considerar que los datos son simétricos. Si la
media excede a la mediana, los datos pueden describirse de sesgo
positivo o sesgadas a la derecha. Si la media es excedida por la
mediana, estos datos pueden llamarse de sesgo negativo o sesgadas
a la izquierda. El sesgo positivo surge cuando la media se
incrementa en algunos valores inusualmente altos, el sesgo
negativo ocurre cuando la media se reduce en algunos valores
extremadamente bajos.
Cálculo de mediciones descriptivas de resumen de
una población
Las mediciones de tendencia central para una población se
calculan igual que en la muestra simplemente reemplazamos n por
N.
El rango y el rango intercuartil para una población de
tamaño N se obtienen como si fuera una muestra
reemplazando n por N. La varianza se calcula reemplazando el ( n
– 1 ) del denominador por N.
Uso de la Desviación Estándar: La regla
Empírica
En series de datos simétricos, donde la mediana y la media
son iguales, las observaciones tienden a distribuirse igualmente
alrededor de estas mediciones de tendencia central. Cuando el
sesgado extremo no se presenta y tal agrupamiento se observa en
una serie de datos, podemos usar la denominada regla
empírica para examinar la propiedad de
variabilidad de datos y obtener una mejor idea de lo que la
desviación estándar está
midiendo.
La regla empírica establece que en la
mayoría de las series de datos encontraremos que
aproximadamente dos de cada tres observaciones (es decir, el
67%), están contenidas en una distancia de una
desviación estándar alrededor de la media y
aproximadamente 90% a 95% de las observaciones están
contenidas a una distancia de 2 desviaciones estándar
alrededor de la media.
Uso de la desviación estándar: La regla de
Bienaymé Chebyshev
No importa como se distribuyen los datos. el porcentaje
de las distribuciones están contenidas dentro de las
dsitancias de k desviaciones estándar alrededor de la
media debe ser al menos
1 – 1 / k2
Al menos 75% de las observaciones deben estar contenidas
dentro de distancias de +/-2 desviaciones estándar
alrededor de la media. Al menos 88,89% de las observaciones deben
estar contenidas dentro de una distancia de +/-3 desviaciones
estándar alrededor de la media. Al menos 93.75% de las
observaciones deben estar contenidas dentro de distancias de +/-4
desviaciones estándar alrededor de la media.
5. Resumen Capítulo 5
del Libro
Presentación de datos categóricos en
tablas y diagramas
Graficación de datos categóricos: de
barras, de pastel y de punto
- Gráfica de barras
En la gráfica de barras, cada categoría se
describe mediante una barra, cuya longitud representa la
frecuencia o porcentaje de observaciones que caen en una
categoría. Para construir una gráfica de barras se
hacen las siguientes sugerencias:
- Las barras deben construirse
horizontalmente. - Todas las barras deben tener el mismo
ancho. - Los espacios entre las barras deben variar entre la
mitad - del ancho de una barra hasta el ancho de una
barra. - Las escalas y guías son auxiliares
útiles en la
lectura - de una gráfica y deben incluirse. El punto
cero u origen debe indicarse. - Los ejes deben etiquetarse.
- Gráfica de Pastel
- Gráfica de Puntos
Graficación de datos categóricos: el
Diagrama de Pareto.
El diagrama de Pareto es un tipo especial de gráfica de
barras verticales en la que las respuestas categórizadas
se grafican en el orden de rango descendiente de sus frecuencias
y se combinan con un polígono acumulativo en la misma
escala. El
principio básico detrás de este dispositivo
gráfico es su capacidad de distinguir los "pocos vitales"
de los "muchos triviales".
Tabulación de datos categóricos: Tabla de
contingencias y supertablas.
Las tablas de contingencia se usan para examinar las respuestas a
dos variables categóricas simultáneamente.
Supertablas. Una supertabla es esencialmente una colección
de tablas de contingencia, cada una con las mismas variables y
categorías de columna. Sin embargo, se incluyen tantas
variables de fila como se deseen para comparaciones frente a la
variable de columna.
Tipos de Gráficos
Medidas Estadísticas.
Medidas Estadísticas descriptivas.
- Variables Numéricas:
- Medidas de posición.
- Media.
- Mediana.
- Moda.
- Cuartiles.
- Medidas de Variación.
- Rango.
- Rango Medio.
- Varianza.
- Desvío Estándar.
- Coeficiente de variación.
Probabilidad Básica
La probabilidad es la posibilidad u oportunidad de que suceda un
evento particular. La probabilidad involucrada es una
porción o fracción cuyo valor varía entre
cero y uno exclusivamente. Observamos un evento que no tiene
posibilidad de ocurrir (es decir, el evento nulo), tiene una
probabilidad de cero, mientras que un evento que seguramente
ocurrirá (es decir, el evento cierto), tiene una
probabilidad de uno. Ejemplo:
- La posibilidad de sacar una carta con
figura negra de una baraja. - La posibilidad de que un individuo seleccionado
aleatoriamente de una encuesta este de acuerdo con X
tema. - La posibilidad que tenga éxito
un nuevo producto en el mercado.
Cada uno de los ejemplos anteriores se refiere a uno de
los tres planteamientos del tema de la probabilidad. El primero a
menudo se denominacom el planteamiento de la probabilidad
clásica a priori. Aquí la probabilidad de
éxito se basa en el
conocimiento nterior del proceso involucrado. En el caso
más simple, cuando cada resultado es igualmente posible.
Esta posibilidad puede definirse de la siguiente manera:
En el segundo ejemplo; llamado probabilidad clásica
empírica, aunque la probabilidad se sigue definiendo como
la proporción entre el número de resultados
favorables y el número total de resultados, estos
resultados se basan en datos observados, no en el conocimiento
anterior a un proceso.
El tercer planteamiento de probabilidad se denomina el
enfoque de probabilidad subjetiva. Mientras que en los dos
anteriores enfoques la probabilidad de un evento favorable se
calculaba objetivamente, ya fuera de un conocimiento previo o de
datos reales, la probabilidad subjetiva se refiere a la
posibilidad de ocurrencia asignada a un evento por un individuo
particular. La probabilidad subjetiva es especialmetne
útil para la toma de decisiones en aquellas situaciones en
que la probabilidad de diversos eventos no puede
determinarse empíricamente.
Conceptos de probabilidad básica
Espacios de muestra y eventos
Los elementos básicos de la teoría
de probabilidades son los resultados del proceso o
fenómeno bajo estudio. Cada tipo posible de ocurrencia se
denomina un evento.
Un evento simple puede puede describirse mediante una
característica sencilla. la compilación de todos
los eventos posibles se llama el espacio muestral.
La manera en que se subdivide el espacioi muestral depende de los
tipos de probabilidades que se han de determinar. Tomando esto en
cuenta, resulta de interés definir tanto el complemento de
un evento como un evento conjunto de la siguiente manera:
La complemento del evento A incluye todos los elementos que no
son parte del evento A. Esta dado por el símbolo
A´.
Un evento conjunto es un evento que tiene dos o más
características.
Tablas de Contingencias y diagramas de Venn
Existen varias formas en las que puede verse un espacio
muestral particular. El primer método implica asignar los
eventos apropiados a una tabla de clasificaciones cruzadas. Tal
tabla también se denomina tabla de
contingencia.
Roja | Negro | Totales | |
As | 2 | 2 | 4 |
No As | 24 | 24 | 48 |
Totales | 26 | 26 | 52 |
La segunda forma de presentar el espacio muestral es
usando un diagrama de Venn. Este diagrama se representa
gráficamente los diversos eventos como "uniones" e
"intersecciones" de círculos.
El área contenida dentro del círculo A y
de círculo B (área central) es la
intersección de de Ay B (y se escribe A Ç B) , puesto que esta
área es parte de A y tambien parte de B. El área
total de los dos círculos es la unión de A y B (y
se escribe A È
B ) y contiene todos los resultados que son parte del
evento A, parte del evento B o parte de ambos A y B. El
área fuera del diagrama fuera de A È B contiene aquelloos
resultados que no sonparte de A ni son parte de B.
Probabilidad ( marginal ) simple
La regla mas evidente para las probabilidades es que
deben variar en valor de 0 a 1. Un evento imposible tiene una
probabilidad cero de ocurrir, y un evento cierto tiene una
probabilidad uno de ocurrir. La probabilidad simple se refiere a
la probabilidad de ocurrencia de un evento simple.
Ejemplo:
- la probabilidad de seleccionar una carta
negra; - la probabilidad de seleccionar un As
La probabilidad simple se denomina probabilidad marginal
puesto que el número total de éxitos puede
obtenerse del márgen apropiado de la table de
contingencias.
Probabilidad Conjunta
La probabilidad conjunta se refiere a fenómenos
que contienen dos o mas eventos, como la probabilidad de un as
negro, una reina roja o un empleado que este satisfecho con el
trabajo y haya progresado dentro de la organización.
P (A)= P ( A y B1 ) + P ( A y B2 ) + …..+ P ( A y Bk
)
donde B1, B2, … Bk son eventos mutuamente excluyentes
y colectivamente exhaustivos.
Dos eventos son mutuamente excluyentes si ambos eventos
no pueden ocurrir al mismo tiempo.
Dos eventos son colectivamente exhaustivos si uno de los
eventos debe ocurrir.
Por ejemplo, ser hombre y ser
mujer son eventos
mutuamente excluyentes y colectivamente exhaustivos. Nadie es
ambos ( son mutuamente excluyentes ) y todos son uno u otro ( son
colectivamente exhaustivos ).
Regla de la adición
La regla de la adición se usa para encontrar la
probabilidad del evento A o B. Esta regla para obtener la
probabilidad de la unión de A y B considera la ocurrencia
del evento A o del evento B o de ambos, A y B.
El cálculo de P ( A È B ), la probabilidad del evento A
o B, puede expresarse en la siguiente regla de la adición
general:
P ( A È B ) = P ( A o B ) = P ( A ) + P ( B )
– P ( A y B )
Eventos mutuamente excluyentes
En ciertas circunstancias, sin embargo, la probabilidad
conjunta no necesita restarse porque es igual a cero. Tales
circunstancias cuando no existen resultados para un evento
particular. Por ejemplo, suponga que deseamos saber la
probabilidad de escoger un corazon o una espada si
estuviéramos seleccionando sólo una carta de una
baraja estándar de 52 cartas de
juego. Usando
la regla de la adición, tenemos lo siguiente:
P ( corazón o
espada ) = P ( corazón ) + P ( espada ) – P (
corazón y espada )
P = 13/52 + 13/52 – 0/52 = 26/52
La intersección en este caso no existe ( llamado
el conjunto nulo ) porque no contiene resultados, puesto que una
carta no puede ser corazón y espada
simultáneamente.
Siempre que la probabilidad conjunta no contenga
ningún resultado, los eventos involucrados se consideran
mutuamente excluyentes. Asi la regla general para eventos
mutuamente excluyentes se reduce a:
P ( A o B ) = P ( A ) + P ( B )
Eventos colectivamente exhaustivos
Consideremos la probabilidad de seleccionar una carta
negra o rojo. Puesto que son mutuamente excluyentes al usar la
ecuación: 26/52 + 26/52 = 1
La probabilidad de rojo o negro suma uno. Dado que uno
de los eventos debe ocurrir se consideran mutuamente
excluyentes.
Probabilidad Condicional.
Cuando estamos calculando la probabilidad de un evento
particular A, dada información sobre la ocurrencia de otro
evento B, esta probabilidad se denomina probabilidad condicional,
P ( A B ). La probabilidad condicional P ( A B ) puede
definirse de la siguiente manera:
P ( A B ) = P ( A y B )
P ( B )
- Independencia estadística Se dice que dos eventos
independientes si el conocimiento previo de la probabilidad de
ocurrencia de uno de ellos no afecta la probabilidad del otro.
Puede definirse de la siguiente manera:
P ( A B ) = P ( A )
Regla de multiplicación
La fórmula para la probabilidad condicional puede
manipularse algebraicamente de forma tal que la probabilidad
conjunta P ( A y B ) puede determinarse a partir de la
probabilidad condicional de un evento.
La regla de multiplicación para eventos
independientes puede expresarse de la siguiente manera
sustituyendo P ( A ) por P ( A B ):
P ( A y B ) = P ( A ) * P ( B )
Si esta regla se cumple para dos eventos, A y B entonces
A y B son estadísticamente independientes. Por tanto, hay
dos formas de determinar la independencia
estadística:.
- Los eventos A y B son estadísiticamente
independientes si y sólo si P ( A B )=P
(A) - Los eventos A y B son estadísticamente
independientes si y sólo si P ( A y B ) = P ( A ) * P (
B ).
Teorema de Bayes
La probabilidad condicional toma en cuenta información
respecto a la ocurrencia de un evento para encontrar la
probabilidad de otro evento. Este concepto puede ampliarse para
revisar probabilidaddes basadas en nueva información y,
así determinar la probabilidad que un efecto particular se
deba a una causa específica. El procedimiento
para revisar estas probabilidades se conoce como teorema de
Bayes.
El teorema de Bayes puede definirse a partir de las
definiciones de probabilidad condicional y probabilidad marginal,
asi el teorema de Bayes es:
P ( Bi A ) = P ( A Bi ) P ( Bi )
P ( A B1 ) P ( B1 ) + P ( A B2 ) P ( B2 )
Algunas distribuciones importantes de probabilidad
discreta
Una distribución de probabilidad para una
variable aleatoria discreta es un listado mutuamente excluyente
de todos los resultadosposibles para esa variable aleatoria, tal
que una probabilidad particular de ocurrencia esté
asociada con cada resultado.
Esperanza Matemática
La media de una distribución de probabilidad es el valor
esperado de su variable aleatoria.
El valor esperado de una variable aleatoria discreta puede
considerarse como su promedio pesadoo sobre todos los resultados
posibles, siendo los pesos la probabilidad asociada con cada uno
de los resultados.
Esta medición de resumen puede puede obtenerse
multiplicando cada resultado posible Xi, por su probabilidad
correspondiente P (Xi) y luego sumando los productos resultantes.
Por tanto, el valor esperado de la variable aleatoria discreta X,
simbolizado como E (X), puede expresarse de la siguiente
manera:
E(X)= ∑ Xi * P ( Xi)
Varianza y desviación estándar de una
variable aleatoria discreta
La varianza de una variable aleatoria discreta puede definirse
como el promedio pesado de las diferencias cuadradas entre cada
resultado posible y su media, siendo los pesos las probabilidades
de cada uno de los resultados respectivos.
Esta medición de resumen puede obtenerse
multiplicando cada diferencia cuadrada posible ( Xi
– μ )2 por su probabilidad correspondiente
P (Xi) y luego sumando los productos restantes. Por lo tanto la
varianza de la variable aleatoria discreta X puede expresarse de
la siguiente manera:
( Xi – μ )2 * P (Xi)
Funciones de distribución de probabilidad
discreta
La distribución de probabilidad para una variable
aleatoria discreta puede ser:
- Un listado teórico de resultados y
probabilidades que pueden obtenerse de un modelo
matemático que represente algún fenómeno
de interés. - Un listado empírico de resultados y sus
frecuencias relativas observadas. - Un listado subjetivo de resultados asociados con sus
probabilidades subjetivas que representan el grado de
convicción del tomador de decisiones respecto a la
probabilidad de los resultados posibles.
Un modelo se considera una representación en
miniatura de algún fenómeno subyacente. En
particular, un modelo matemático es una expresión
matemática
que representa cierto fenómeno subyacente. Para variables
aleatorias discretas, esta expresión matemática se
conoce como función de
distribución de probabilidad.
La característica escencial de la
distribución uniforme es que es igualmente posible que
ocurran todos los resultados de la variable aleatoria.
Distribución Binomial
La distribución binomial es una
distribución de probabilidad discreta que es
extremadamente útil para describir muchos
fenómenos.
La distribución binomial posee cuatro propiedades
esenciales:
- Las observaciones posibles pueden obtenerse mediante
dos métodos de muestreo distintos. Cada
observación puede considerarse como seleccionada de una
población infinita sin reemplazo o de una
población finita con reemplazo. - Cada observación puede clasificarse en dos
categorías mutuamente excluyentes y colectivamente
exhaustivas, usualmente denominadas éxito y
fracaso. - La probabilidad de que una observación se
clasifique como éxito, p, es constante de
observación a observación. - El resultado de cualquier observación es
independiente del resultado de cualquier
observación.
Modelo matemático
P( X= x n, p ) = n ! px ( 1 – p )
n-x
X ! ( n – x ) !
La primera parte de la fórmula nos dice
cuántas secuencias de arreglos de los x éxitos de n
observaciones son posibles. La segunda parte nos dice la
probabilidad de obtener exactamente x éxitos de n
observaciones en una secuencia particular.
Características de la distribución
binomial
- Forma. Siempre que p= 0.5 la distribución
binomial será simétrica sin importar que tan
grande o pequeño sea el valor de n. Sin embargo, cuando
p ≠ 0.5 la distribución será sesgada. Mientras
más cercana este p de 0.5 y mayor sea el número
de observaciones, n, menos sesgada será la
distribución. Con una p pequeña la
distribución estara sesgada a la derecha. Para p muy
grandes, la distribución sería sesgada a la
izquierda. - La media. La media de la distribución binomial
puede obtenerse fácilmente como el producto de sus
parámetros, n y p. - La
desviación estándar. La desviación
estándar se calcula usando la siguiente
fórmula:
Distribución de Poisson.
La distribución de Poisson es otra función
de distribución de probabilidad que tiene muchas
aplicaciones prácticas importantres. Un proceso Poisson no
sólo representa numerosos fenómenos discretos, sino
que el modelo Poisson también se usa para proporcionar
aproximaciones a la distribución binomial.
Se dice que un proceso de Poisson existe si podemos
observar eventos discretos en un área de oportunidad, un
intervalo continuo, de tal manera que si acotamos el área
de oportunidad o intervalo de manera suficiente:
- La probabilidad de observar exactamente un
éxito en el intervalo es estable. - La probabilidad de observar exactamente más de
un éxito en el intervalo es cero. - La ocurrencia de un éxito en cualquier
intervalo es estadísticamente independiente de aquella
en cualquier otro intervalo.
Características
- Forma. Cada vez que se especifica el parámetro
λ, puede generarse una distribuciónde
probabilidad de Poisson espacífica. Una
distribución de Poisson estará sesgada a la
derecha cuando λ es pequeña, y se
aproximará a la simetría al crecer. - La media y la desviación estándar. Una
propiedad de esta distribución es que la media y la
varianza son iguales al parámetro λ.
Uso de la distribución de Poisson para aproximar
la distribución binomial
Para aquellas situaciones en las que n es grande ( mayor
o igual a 20 ) y p es muy pequeña ( menor a 0.05 , la
distribución de Poisson puede usarse para aproximar la
distribución binomial.
La variable aleatoria de Poisson puede variar
teóricamente de 0 a ∞ . Sin emabrgo, cuando se usa
como una aproximación a la distribución binomial,
la variable aleatoria de Poisson, el número de
éxitos de n observaciones, claramente no puede exceder el
tamaño de la muestra n.
Características
μ=λ = n * p
La distribución Normal
- Modelos matemáticos de variables aleatorias
continuas:. La función de densidad de
probabilidad.
La probabilidad exacta de un valor particular de una
distribución continua es cero. A fin de eliminar la
necesidad de realizar laboriosos cálculos
matemáticos se ha desarrolladola distribución
gaussiana o normal.
- La Distribución Normal.
- Importancia de la distribución
Normal.
La distribución normal es de vital importancia en
estadística por tres razones principales:
- Numerosos fenómenos continuos parecen seguirla
o pueden aproximarse mediante ésta. - Podemos usarla para aproximar diversas distribuciones
de probabilidad discreta y evitar así pesados
cálculos. - Proporciona la base de la inferencia
estadística clásica debido a su relación
con el teorema del límite central.
- Propiedades de la distribución
normal
- Tiene forma de campana y es simétrica en
apariencia. - Sus mediciones de tendencia central (media, mediana,
moda alcance medio y eje medio) son todas
idénticas.l - Su "dispersión media" es igual a 1.33
desviaciones estándar. Es decir, el alcance intercuartil
está contenido dentro de un intervalo de dos tercios de
una desviación estándar por debajo de la media a
dos tercios de una desviación estándar por encima
de la media. - Su variable aleatoria asociada tiene un alcance
infinito
- El modelo matemático
Para la distribuciónnormal, el modelo usado para
obtener las probabilidades deseadas es:
Examinemos los componentes de la función: puesto
que e y ∏ son constantes matemáticas, las probabilidades de la
variable aleatoria X dependen sólo de dos
parámetros de la distribución normal, la media de
la población y de la desviación estándar de
la población. Cada vez que especificamos una
combinación particular se generará una
distribución de probabilidad diferente.
- Estandarización de la distribución
normal
Afortunadamente, al estandarizar los datos, solo
necesitamos una fórmula:
Al usar
la fórmula de transformación cualquier variable
aleatoria normal X se convierte en una variable aleatoria normal
estandarizada Z. Mientras los datos originales para la variable
aleatoria X tenían una media y una desviación
estandar, la variable aleatoria estandarizada Z siempre
tendrá una media = 0 y una desviación =
1.
- Uso de las tablas de distribución de
probabilidad normal
La tabla de normal representa las probabilidades o
áreas bajo la curva normal calculadas desde la media hasta
los valores particulares de interés X. Sólo se
enumeran en la tabla entradas positivas de Z, puesto que para una
distribución simétrica de este tipo con una media
de cero, el área que va desde la media hasta +Z debe ser
idéntica al área que va desde la media hasta
–Z. Al usar la tabla de normal se puede observar que todos
los valores de Z deben registrarse primero con hasta dos lugares
decimales.
- Encontrar los valores correspondientes a
probabilidades conocidas.
Para encontrar un valor particular asociado con una
probabilidad conocida,debemos adoptar los siguientes
pasos:
- Trazar la curva normal y luego colocar los valores
para las medias en las escalas X y Z respectivas. - Dividir la mitad apropiada de la curva normal en dos
partes: la porción de la X deseada a la media y la
porción de la X deseada al extremo. - Sombrear el área de
interés. - Usando la tabla de normal determinar el valor Z
apropiado correspondiente al área que está bajo
la curva normal desde la X deseada hasta la media. - Usando la ecuación que se presenta a
continuación encontrar X.
Aproximación de la distribución
binomial
Mientras más cerca esté p de 0,50 y mientras
más grande sea el número de observaciones de la
muestra n, más simétrica se vuelve la
distribución. Siempre que el tamño de muestra sea
grande, puede usarse la distribución normal para aproximar
las probabilidades exactas de éxito que de otra manera se
tendrían que haber obtenido mediante laboriosos
cálculos.
Como regla general, esta aproximación normal puede usars
siempre que n * p y n * ( 1- p ) sean al menos 5. Entonces la
nueva Z sera la que se presenta a continuación:
Aproximación de la distribución de
Poisson
La distribución normal también puede usarse para
aproximar el modelo de poisson siempre que el parámetro
Lambda sea igual o mayor que cinco. Entonces la formula de Z
será la siguiente:
Distribuciones de muestreo
Con el fin de poder usar la
estadística de muestra para estimar el parámetro de
población, deberíamos examinar cada muestra posible
que pudiera ocurrir. Si esta selección de todas las
muestras posibles realmente se tuviera que hacer, la
distribución de todos los resultados se denominaría
distribución de muestreo. El proceso de generalizar estos
resultados de muestra para la población se refiere como
una inferencia estadística.
Distribución de muestreo de la media
- Propiedades de la media aritmética
Entre varias propiedades matemáticas importantes
de la media aritmética para una distribución normal
están:
- Imparcialidad
- Eficiencia
- Consistencia.
La imparcialidad, implica el hecho de que el promedio de
todas las medias de muestras posibles será igual a la
media de la población. Tomemos como ejemplo una
población de N=4 con tamaños de muestra de 2. Si
seleccionamos dos muestras con reemplazo, podríamos
obtener 16 muestras posibles. El promedio de cada una de las
muestras es igual a la media de la población. Por lo tanto
hemos demostrado que la media aritmética de muestra es un
estimador imparcial de la media de la población. Esto nos
dice que aún cuando no sepamos qué tan cerca
esté el promedio de cualquier muestra particular
seleccionada a la media de la población, al menos estamos
seguros que el
promedio de todas las medias de muestra que se podrían
haber seleccionado será igual a la media de la
población.
La eficiencia, se
refiere a la precisión de la muestra estadística
como un estimador del parámetro de población. La
media de muestra se acercará más estable que otras
mediciones de tendencia central. La media de muestra se
acercará más a la media de la población que
cualquier otro estimador.
La consistencia, se refiere al efecto del tamaño de
muestra, sobre la utilidad de un
estimador. Al incrementarse el tamaño de muestra, la
variación de la media de muestra de la media de la
población se hace más pequeña, de manera que
la media aritmética de muestra se vuelve una mejor
estimación de la media de la población.
Error estándar de la media
El hecho de que las medias de muestra son menos variables que los
datos de población se desprende directamente de la
ley de los
grandes números. Una media de muestra particular promedia
conjuntamente todos los valores de la muestra. Una
población puede consistir en resultados individuales que
pueden tener un amplio radio de valores,
de extremadamente pequeños a extremadamente grandes. Sin
embargo, si un valor extremo cae en la muestra, aunque
tendrá un efecto en la media, el efecto se reducirá
pues se promediará con todos los demás valores de
la muestra. Además, al incrementarse el tamaño de
la muestra, el efecto de un valor extremo se hace cada vez menor,
puesto que se está promediando con más
observaciones. Al muestrearse con reemplazo, el error
estándar de la media es igual a la desviación
estándar de la población dividida entre la
raíz cuadrada del tamaño de muestra.
Muestreo de poblaciones normales
Puede demostrarse que si muestreamos con reemplazo de una
población con distribución normal, la
distribución de muestreo de la media también
tendrá una distribución normal para cualquier
tamaño de muestra y tendrá una desviación
estándar como la que se mostró más arriba.
Al incrementarse el tamaño de muestra el error
estándar de la media disminuye, de forma tal que una mayor
proporción de medias de muestra están más
cercanas a la media de la población.
Muestro de poblaciones no normales
En muchos casos no sabremos si la población se
distribuye normalmente. Por lo tanto, necesitamos examinar la
distribución de muestreo de la media para poblaciones que
no están normalmente distribuidas.
Teorema del límite central. Al hacerse lo
bastante grande el tamaño de muestra, la
distribución de muestreo de la media puede aproximarse
mediante la distribución normal. Esto es cierto no
importando la forma de la distribución de los valores
individuales de la población. ¿Qué
tamaño de muestra? Una gran parte de las investigaciones
demuestran que una muestra adecuada de por la menos 30, hace que
la distribución de muestreo se aproxime a la
normal.
- Para la mayoría de las distribuciones de
población, sin importar la forma, la distribución
de muestreo de la media tendrá una distribución
aproximadamente normal, si se seleccionan muestras de al menos
30 observaciones. - Si la distribución de la población es
lo bastante simétrica, la distribución de
muestreo de la media será aproximadamente normal si se
seleccionan muestras de al menos 15 observaciones. - Si la población se distribuye normalmente, la
distribución de muestreo de la media se
distribuirá normalmente sin importar el tamaño de
la muestra.
Distribución de muestreo de la
proporción
Cuando trabajamos con variables categóricas cada
característica puede clasificarse con 1 o 0 para
representar la presencia o ausencia de la característica.
Al tratar con datos categóricos puede definirse
como:
La
proporción tiene la propiedad especial de estar entre 0 y
1. El error estándar de la proporción
es:
La distribución de muestreo de la
proporción sigue una distribución binomial. Sin
embargo, cuando n*p y n*(1-p) son cada uno al menos 5 puede
usarse la distribución normal.
Muestreo de poblaciones finitas
En casi
todas las investigaciones el muestreo es conducido sin reemplazo,
por esto debe usarse un factor de corrección de
población finita (fpc) en la definición tanto del
error estándar de la media como del error estándar
de la proporción. El factor de corrección puede
expresarse como:
Estimación
Introducción
La inferencia estadística es el proceso que consiste en
utilizar los resultados de una muestra para llegar a conclusiones
acerca de las características de una
población.
Existen dos tipos de estimaciones: estimaciones
puntuales y estimaciones de intervalo. Una estimación
puntual consiste en una sola estadística de muestra que se
utiliza para estimar el valor verdadero de un parámetro de
población. Puesto que la estadística de prueba
varía de una muestra a otra necesitamos considerar este
hecho con el fin de proporcionar una estimación más
significativa y característica de la población.
Para lograr esto, debemos desarrollar una estimación de
intervalo de la media de población verdadera, tomando en
consideración la distribución de muestreo de la
media. El intervalo que construimos tendrá una confianza o
probabilidad específica de estimar correctamente el valor
verdadero del parámetro de población.
Estimación de intervalo de confianza de la media
(desvío de la población conocido):
En la inferencia estadística debemos tomar los resultados
de una sola muestra y llegar a conclusiones acerca de la
población. En la práctica, la media de la
población es la cantidad desconocida que se va a
determinar. Para algunas muestras la estimación de
intervalo de la media de la población será correcta
y para otras no. Tenemos que recordar que para el cálculo
del intervalo trabajamos con una estimación de intervalo
de confianza de 95, por ejemplo, esto puede interpretarse como si
se tomaran todas las muestras posibles del mismo tamaño,
n, 95% de ellas incluirían la media de población
verdadera en alguna parte del intervalo alrededor de sus medias
de muestra, y solamente 5% de ellas no estarían incluidas.
En general el nivel de confianza se simboliza como
(1-α ) x 100%, en donde α es la
porciσn que se encuentra en los extremos de la
distribuciσn que está fuera del
intervalo de confianza. Por consiguiente para obtener la
estimación del intervalo tenemos:
Z es el valor correspondiente a un área de
(1-α )/2 desde el centro de una distribución normal
estandarizada. El valor Z elegido para construir tal intervalo de
confianza se conoce como el valor crítico.
Cualquier aumento en el nivel de confianza se logra
ampliando simultáneamente el intervalo de confianza
obtenido (haciéndolo menos preciso y menos
útil).
Estimación de intervalo de confianza de la media
(desvío desconocido)
Del mismo modo en que la media de la población se
desconoce, es probable que la desviación estándar
real de la población tampoco sea conocida. Por lo tanto,
necesitamos obtener una estimación de intervalo de
confianza utilizando las estadísticas de muestra "X" y
"S". Para ello, utilizamos la distribución t-student.
De este modo, el intervalo de confianza se establecerá a
partir de la siguiente fórmula:
Estimado del intervalo de confianza de la
porción
Podemos
establecer la siguiente estimación de intervalo de
confianza (1-α) para la porciσn de la
poblaciσn:
Determinación del tamaño de muestra para
la media:
El error de muestreo "e" se puede definir
como:
Por consiguiente para determinar el tamaño de la
muestra, deben conocerse tres factores:
- El nivel de confianza deseado.
- EL error de muestreo permitido.
- La desviación estándar.
Determinación del tamaño de muestra para
una porción:
Al determinar el tamaño de muestra para estimar
una porción se deben definir tres
incógnitas:
- El nivel de confianza.
- El error de muestreo permitido.
- La porción verdadera de
éxitos.
Estimación y determinación del
tamaño de muestra para poblaciones finitas.
Estimación de la media
Estimación de la porción
Determinación del tamaño de
muestra
11. Hipótesis
nula y alternativa
La prueba de hipótesis empieza con algo de
teoría, afirmación o negación con respecto a
un parámetro particular de una población. La
hipótesis de que el parámetro de la
población es igual a la especificación de la
compañía se conoce como hipótesis nula. Una
hipótesis nula es siempre una de status quo o de no
diferencia. Se simboliza con el símbolo Ho.
Siempre que especificamos una hipótesis nula,
también debemos especificar una hipótesis
alternativa, o una que debe ser verdadera si se encuentra que la
hipótesis nula es falsa. La hipótesis alternativa
se simboliza H1. La hipótesis alternativa representa la
conclusión a la que se llegaría si hubiera
suficiente evidencia de la información de la muestra para
decidir que es improbable que la hipótesis nula sea
verdadera, y por tanto rechazarla. El hecho de no rechazar la
hipótesis nula no es una prueba de que ésta sea
verdadera. Nunca podemos probar que tal hipótesis sea
correcta porque estamos basando nuestra decisión
únicamente en la información de la muestra, no en
la población entera.
Resumen:
- La hipótesis nula se refiere siempre a un
valor especificado del parámetro de población, no
a una estadística de muestra. - El planteamiento de la hipótesis nula siempre
contiene un signo de igualdad con
respecto al valor especificado del
parámetro. - El planteamiento de la hipótesis alternativa
nunca contiene un signo de igualdad con respecto al valor
especificado del parámetro.
Regiones de rechazo y de no rechazo
La distribución de muestreo de la
estadística de prueba se divide en dos regiones, una
región de rechazo (conocida como región
crítica) y una región de no rechazo. Si la
estadística de prueba cae dentro de la región de no
rechazo, no se puede rechazar la hipótesis nula.
La región de rechazo puede considerarse como el conjunto
de valores de la estadística de prueba que no tienen
posibilidad de presentarse si la hipótesis nula es
verdadera. Por otro lado, estos valores no son tan improbables de
presentarse si la hipótesis nula es falsa. El valor
crítico separa la región de no rechazo de la de
rechazo.
Riesgos en la
toma de decisiones al utilizar la metodología de prueba de
hipótesis.
Se pueden presentar dos tipos diferentes de errores:
- Un error tipo I se presenta si la hipótesis
nula es rechazada cuando de hecho es verdadera y debía
ser aceptada. - Un error tipo II se presenta si la hipótesis
nula es aceptada cuando de hecho es falsa y debía ser
rechazada.
Nivel de Significación. La probabilidad de
cometer un error tipo I denotada con la letra griega alfa, se
conoce como nivel de significación de la prueba
estadística. Está bajo el control directo del
individuo que lleva a cabo la prueba. Ya que se ha especificado
el valor de alfa, se conoce el tamaño de la región
de rechazo, puesto que alfa es la probabilidad de un rechazo de
la hipótesis nula.
Coeficiente de confianza. EL complemento (
1-a ) de la
probabilidad de cometer un error de tipo I se conoce como
coeficiente de confianza.
El coeficiente de confianza es la probabilidad de que la
hipótesis nula no sea rechazada cuando de hecho es
verdadera y debería ser aceptada.
Riesgo b
. La probabilidad de cometer un error de tipo II se conoce
como nivel de riesgo del
consumidor. A
diferencia del error tipo I, en el cual las pruebas
estadísticas nos permiten controlar nuestra
elección de a
, la probabilidad de cometer un error del tipo II depende
de la diferencia entre los valores supuesto y real del
parámetro de población. Como es más
fácil encontrar diferencias grandes, si la diferencia
entre la estadística de muestra y el correspondiente
parámetro de población es grande,
b la probabilidad de
cometer un error del tipo II, probablemente sea
pequeña.
Potencia de una prueba. El complemento
(1-b ) de la
probabilidad de cometer un error del tipo II se conoce como
potencia de una
prueba estadística.
La potencia de una prueba es ña probabilidad de rechazar
la hipótesis nula cuando de hecho esta es falsa y
debería ser rechazada.
Una manera en que podemos controlar la probabilidad de cometer un
error del tipo II en un estudio, consiste en aumentar el
tamaño de la muestra. Tamaños más grandes de
muestra, nos permitirán detectar diferencias incluso muy
pequeñas entre las estadísticas de muestra y los
parámetros de la población. Cuando se
disminuye a
, b
aumentará de modo que una reducción en el
riesgo de cometer un error de tipo I tendrá como resultado
un aumento en el riesgo de cometer un error tipo II.
Prueba de hipótesis Z para la media
(desvío de la población conocido)
El estadístico de prueba a utilizar
es:
La Potencia de una prueba
β representa la probabilidad de que la
hipσtesis nula no sea rechazada cuando de
hecho es falsa y debería rechazársele. La potencia
de prueba 1-β representa la sensibilidad de la prueba
estadística para detectar cambios que se presentan al
medir la probabilidad de rechazar la hipótesis nula cuando
de hecho es falsa y debería ser rechazada. La potencia de
prueba estadística depende de qué tan diferente en
realidad es la media verdadera de la población del valor
supuesto.
Una prueba de un extremo es más poderosa que una
de dos extremos, y se debería utilizar siempre que sea
adecuado especificar la dirección de la hipótesis
alternativa.
Puesto que la probabilidad de cometer un error tipo I y
la probabilidad de cometer un error tipo II tienen una
relación inversa y esta última es el complemento de
la potencia de prueba (1-β), entonces α y
la potencia de la prueba varνan en
proporciσn directa. Un aumento en el valor del
nivel de significación escogido, tendría como
resultado un aumento en la potencia y una disminución en
α tendría como resultado una disminución en
la potencia.
Un aumento en el tamaño de la muestra escogida
tendría como resultado un aumento en la potencia de la
prueba, una disminución en el tamaño de la muestra
seleccionada tendría como resultado una disminución
en la potencia.
Pruebas de una muestra con datos numéricos
Elección del procedimiento de prueba apropiada
Procedimientos
paramétricos
Todos los procedimientos paramétricos tienen tres
características distintivas: Los procedimientos de prueba
paramétricos pueden definirse como aquellos 1)que
requieren que el nivel de medición obtenido con los datos
recolectados esté en forma de una escala de intervalo o de
una escala de cociente; 2)implican la prueba de hipótesis
de valores de parámetros especificados 3) y por
último requieren un conjunto limitante de
suposiciones.
Procedimientos sin distribución y no
paramétricos
Los procedimientos de prueba sin distribución pueden
definirse ampliamente como 1) aquellos cuya estadística de
prueba no depende de la forma de la distribución de la
población subyacente de la cual se tomó la muestra
de datos o como 2) aquellos para los cuales los datos no tienen
fuerza
suficiente para garantizar operaciones
aritméticas significativas.
Los procedimientos no paramétricos pueden
definirse como aquellos que no tienen que ver con los
parámetros de una población.
Prueba t de hipótesis para la media (δ2
desconocida)
En
ocasiones se desconoce la desviación estándar de la
población. Sin embargo, se la puede estimar con el
cálculo de S, la desviación estándar de la
muestra. Recordemos de muestreo de la media seguirá una
distribución t con n-1 grado de libertad.
Aproximación del valor p
Suposiciones de la prueba t de una muestra
La prueba t está considerada como un procedimiento
paramétrico clásico. Supuestos: los datos
numéricos obtenidos son tomados de manera independiente y
representan una muestra aleatoria de la población que
está distribuida normalmente.
Prueba de hipótesis χ2 para la varianza (o
desviación estándar)
Al intentar llegar a conclusiones con respecto a la variabilidad
de la población, primero debemos determinar que
estadística de prueba puede utilizarse para representar la
distribución de la variabilidad de los datos de la
muestra. Si la variable se supone que está distribuida
normalmente, entonces la estadística de prueba para probar
si la varianza de la población es igual o no a un valor
especificado es:
Una
distribución chi-cuadrado es una distribución
sesgada cuya forma depende exclusivamente del número de
grados de libertad. Conforma este aumenta, la distribución
se vuelve más simétrica.
Pruebas de dos muestras con datos numéricos
Prueba t de varianza conjunta para diferencias entre dos
medias
Supongamos que consideramos dos poblaciones
independientes, cada una con una media y una desviación
estándar. La estadística de prueba utilizada para
determinar la diferencia entre las medias de las poblaciones
está basada en la diferencia entre las medias de las
muestras (X1 – X2). Debido al teorema del límite
central esta estadística seguirá la
distribución normal. La estadística de prueba Z
es:
En donde X es la media de la muestra correspondiente a
cada una de las dos muestras, n es el tamaño de la muestra
y por último tenemos la varianza de la muestra.
Si suponemos que las varianzas son iguales y que las
muestras fueron tomadas de manera aleatoria e independiente se
puede utilizar una prueba t de varianza conjunta para determinar
si existe alguna diferencia significativa entre las medias de las
poblaciones. Si puede calcular la siguiente estadística de
prueba t de varianza conjunta:
Donde:
La estadística de prueba t de varianza conjunta
sigue una distribución t con n-2 grados de
libertad.
Prueba t`de varianza separada para diferencias entre dos
medias
Si
suponemos que las varianzas no son iguales como en el caso
anterior debemos replantear el estadístico a
utilizar.
La estadística de prueba t`puede ser aproximada
con la fórmula de v, mostrada anteriormente.
Prueba t para la diferencia de medias
Con el propósito de determinar cualquier diferencia que
exista entre dos grupos
relacionados, deben obtenerse las diferencias en los valores
individuales de cada grupo. Cuando
la desviación estándar de la poblacion de la
diferencia es conocida y el tamaño de muestra es lo
suficientemente grande. La estadística de prueba Z
es:
Sin embargo, en la mayoría de los casos no
conocemos la desviación estándar real de la
población. La única información que se puede
obtener son las estadísticas sumarias como la media y la
desviación estándar de muestra. Si se supone que la
muestra de resultados es tomada de manera aleatoria e
independiente se puede realizar una prueba t para determinar si
existe una diferencia media de población significativa. La
estadística seguirá una distribución t con
n-1 grados de libertad.
Ho= µd = 0 donde µd= µ1-µ2
H1= µd ≠ 0
Se puede calcular el siguiente estadístico de
prueba:
Prueba de hipótesis con datos
categóricos
Prueba Z de una muestra para la proporción
Para evaluar la magnitud de la diferencia entre la porción
de la muestra y la porción de la población supuesta
la estadística de prueba está dada por la
ecuación siguiente:
La estadística de prueba Z está
distribuida de manera aproximadamente normal.
Prueba Z para diferencias entre dos porciones (muestras
independientes)
Cuando se evalúan diferencias entre dos porciones
basándose en muestras independientes se puede emplear una
prueba Z. La estadística de prueba es:
Se supone que las dos porciones de población son
iguales.
Ho= p1=p2
H1= p1 ≠ p2
Prueba X2 de independencia
Sirve para evaluar diferencias potenciales entre la
porción de éxitos en cualquier número de
poblaciones. Para una tabla de contingencias que tiene r
renglones y c columnas, la prueba mencionada puede generalizarse
como una prueba de independencia.
Como prueba de hipótesis las hipótesis nula y
alternativa son:
H0= Las dos variables categóricas son independientes.
H1= Las dos variables categóricas están
relacionadas.
La estadísitica de prueba es la siguiente:
La regla de decisión consiste en rechazar
ña hipótesis nula a un nivel de
significación si el valor calculado de la
estadística de prueba es mayor que el valor crítico
de extremo superior de una distribución chi-cuadrada que
posee (r-1)*(c-1) grados de libertad.
Regresión lineal simple y correlación
El análisis de regresión se utiliza principalmente
con el propósito de hacer predicciones.
El análisis de correlación se utiliza para medir la
intensidad de la asociación entre las variables
numéricas.
Diagrama de dispersión: cada valor es graficado en sus
coordenadas particulares X, Y.
Tipos de modelos de
regresión. El modelo de línea recta puede
representarse como:
El primer termino (B0), es la intersección Y para
la población; B1 es la pendiente de la población y
E es el error aleatorio en Y para la observación i. En
este modelo, la pendiente de la recta B1 representa el cambio
esperado en Y por unidad de cambio en X; esto es, representa la
cantidad que cambia la variable Y con respecto a una unidad de
cambio particular en X. B0 representa el valor promedio de Y
cuando X es igual a cero. El modelo matemático está
influenciado por la distribución de los valores X y Y en
el diagrama de dispersión.
Determinación de la ecuación de
regresión lineal simple. El método de
mínimos cuadrados.
A b0 y b1 se los puede considerar como estimaciones de
B0 y B1. Por consiguiente, la ecuación de regresión
de muestra sería:
Yi es el
valor predicho de Y para la observación i, y Xi es el
valor de X para la observación i.
El análisis de regresión lineal simple
tiene que ver con la búsqueda de la línea recta que
mejor se ajusta a los datos. El mejor ajuste significa que
deseamos encontrar la línea recta para la cual las
diferencias entre los valores reales (Yi) y los valores que
serían predichos a partir de la línea ajustada de
regresión (Yi estimada) sean lo más pequeñas
posibles. Debido a que tales diferencias serán positivas y
negativas para las diferentes observaciones, minimizamos
matemáticamente la expresión:
Una técnica
matemática utilizada para determinar los valores de bo y
b1 que mejor se ajusten a los datos observados se conoce como
método de mínimos cuadrados. Al utilizar este
método surgen dos ecuaciones
normales:
I.
II.
El error estándar de
estimación.
El error
estándar de la estimación, representado como Syx se
define como:
Mediciones de variación en regresión y
correlación. Con el fin de examinar que tan bien una
variable independiente predice a la variable dependiente,
necesitamos desarrollar algunas medidas de variación. La
primera: la suma total de cuadrados, esta puede dividirse en dos
partes: la variación explicada o suma de cuadrados debida
a la regresión (SSR) y la variación no explicada o
suma de cuadrados de error (SSE). La suma de cuadrados debida a
la regresión. La SSR representa la diferencia entre el
valor promedio de Y y el valor promedio de Y que sería
predicho a partir de la relación de regresión).La
SSE representa aquella parte de la variación de Y que noo
es explicada por la regresión.
SST = SSR + SSE
En la que SST =
Podemos ahora definir el coeficiente de
determinación r2: mide la porción de
variación que es explicada por la variable independiente
del modelo de regresión:
Algunos
investigadores sugieren que se calcule un coeficiente r2 ajustado
para reflejar tanto el número de variables explicatorias
del modelo como el tamaño de la muestra. El coeficiente r2
ajustado se calcula de la siguiente manera:
Correlación: medición de la intensidad de
la asociación
En el análisis de correlación estamos interesados
en medir el grado de asociación entre dos variables. La
intensidad de la
relación se mide mediante el coeficiente de
correlación r
, cuyos valores van de –1 a +1. El coeficiente de
correlación en casos de regresión lineal simple
toma el signo de b1.
Suposiciones de regresión y correlación.
Las cuatro principales suposiciones acerca de la regresión
son: 1.Normalidad. 2. Homoscedasticidad. 3. Independencia de
error. 4. Linealidad.
La primera suposición, normalidad, requiere que los
valores de Y estén distribuidos normalmente en cada valor
de X. Siempre y cuando la distribución de los valores de
Yi alrededor de cada nivel de X no sea extremadamente diferente
de una distribución normal, las inferencias acerca de la
línea de regresión y de los coeficientes de
regresión no se verán seriamente afectadas. La
segunda suposición, homoscedasticidad, requiere que la
variación alrededor de la línea de regresión
sea constante para todos los valores de X. La tercera
suposición, independencia de error, requiere que el error
sea independiente de cada valor de X. Por último, la
linealidad establece que la relación entre las variables
es lineal.
Estimación del intervalo de confianza para
predecir m
yx.
Intervalo de predicción para una respuesta
individual Yi
Inferencias respecto a los parámetros de
población en regresión y
correlación
Ho= β1=0 (No hay relaciσn)
H1= β1 ≠ 0 (Hay relaciσn)
Y la estadístida de prueba para probar la
hipótesis está dada por:
La estadística de prueba sigue una
distribución t con n-2 grados de libertad.
Un segundo método equivalente para probar la
existencia de una relación lineal entre las variables
consiste en establecer una estimación de intervalo de
confianza de β1 y determinar si el valor supuesto
está incluido en el intervalo. La estimación del
intervalo de confianza se obtendría de la siguiente
manera:
Un tercer método para examinar la existencia de
una relación lineal entre dos variables implica al
coeficiente de correlación de la muestra, r. Para ello se
realiza lo siguiente:
Ho: ρ = 0 ( No hay
relación)
H1: ρ ≠ 0 (Hay relaciσn)
La estadística de prueba para determinar la
existencia de una correlación esta dada por:
La estadística de prueba sigue una
distribución t con n-2 grados de libertad.
Dificultades de la regresión y cuestiones
éticas
Las dificultades que surgen con frecuencia son:
- Falta de conciencia
sobre las suposiciones de la regresión de mínimos
cuadrados. - Conocimiento de cómo evaluar las suposiciones
de la regresión de mínimos cuadrados. - Conocimientos de cuáles son las alternativas
de la regresión de mínimos cuadrados si no se
cumple alguna suposición individual. - La creencia de que la correlación implica
causalidad. - El uso del modelo de regresión sin conocer de
qué se trata.
16. Aplicaciones
estadísticas en administración de la calidad y
productividad
Calidad y productividad:
Una perspectiva histórica. Al tema de calidad y
productividad lo podemos dividir en cuatro fases
históricas: 1. Podemos pensar en una administración
de primera generación como administración mediante
la acción, el tipo administración practicada por
las sociedades
cazadoras-recolectoras primitivas en que los individuos
producían algo para sí mismos o para su unidad
tribal, siempre que el producto fuera necesario. 2. Luego
encontramos la
administración por dirección. Es la
época del surgimiento de los gremios en Europa (Edad Media).
Los gremios administraban el entrenamiento de
aprendices y trabajadores y determinaban las normas de calidad
y fabricación de los productos hechos por el gremio. 3. La
administración por control, surge aproximadamente con
Henry Ford, en el cual los trabajadores estaban divididos entre
aquellos que en realidad hacían el trabajo y aquellos que
planeaban y supervisaban el trabajo. Esto le quitó
responsabilidad al trabajador individual con
respecto al tema calidad y dejó el tema en manos de
inspectores. El estilo de administración por control
contenía una estructura
jerárquica que ponía énfasis en la
responsabilidad individual por la obtención de un conjunto
de objetivos
predeterminados. 4. Por último encontramos la
administración por proceso. Llamada a menudo TQM o
Administración de Calidad Total.
Una de las características principales de este
planteamiento consiste en centrar la atención en una
continua mejora de los procesos. Se
le da importancia al trabajo en
equipo, atención al
cliente y rápida reacción a los cambios. Tiene
fuerte fundamentación estadística.
La teoría de los diagramas de control. El
diagrama de control es un medio para revisar la variación
de la característica de un producto o servicio mediante 1.
la consideración de la dimensión temporal en la
cual el sistema fabrica productos y 2. el estudio de la naturaleza de la
variabilidad del sistema. El diagrama de control puede utilizarse
para estudiar desempeños pasados o evaluar las condiciones
presentes o ambas cosas. Los diagramas de control pueden
utilizarse para diferentes tipos de variables: para las variables
categóricas y para las variables discretas. La
atención principal del diagrama de control se enfoca en el
intento de separar las causas especiales o asignables de la
variación de las causas comunes o debidas al
azar.
- Las causas especiales o asignables representan
grandes fluctuaciones en los datos que no son inherentes a un
proceso. Tales fluctuaciones son ocasionadas por cambios en un
sistema. - Las causas comunes o debidas al azar representan la
variabilidad inherente que se presenta en un
sistema.
Las causas especiales se consideran aquellas que no
forman parte de un proceso y son susceptibles de corregir;
mientras que las causas comunes pueden reducirse solo cambiando
el sistema. Existen dos tipos de errores que los diagramas de
control ayudan a prevenir. El primer tipo de error implica la
creencia de que un valor observado representa una causa especial
de la variación cuando de hecho se debe a una causa
común de variación del sistema. El segundo error
implica tratar a una causa especial como si fuera una causa
común y no tomar medidas correctivas cuando son
necesarias.
La forma más típica de un diagrama de
control establece límites de control que se encuentran
dentro de +/-3 desviaciones estándar de la medida de
estadística de interés. En general puede
establecerse como:
Algunas herramientas
para estudiar un proceso: diagrama de esqueleto de pescado
(Ishikawa) y de flujo de procesos. Un proceso es una secuencia de
pasos que describen una actividad desde el inicio hasta su
terminación.
- El diagrama de esqueleto de pescado (o Ishikawa): El
nombre viene de la manera en que las diferentes causas
están ordenadas en el diagrama. El problema se muestra
en la parte derecha y las principales causas se colocan en la
parte izquierda. Estas causas a menudo se
subdividen. - Diagrama de flujo de proceso. Este diagrama nos
permite ver un flujo de pasos de un proceso, desde su inicio
hasta su terminación.
Los catorce puntos de Deming: una
teoría de la administración por proceso. Deming
desarrollo su
enfoque basándose en los siguientes catorce
puntos:
- Crear una constancia en el propósito de
mejorar el producto y el servicio. - Adoptar la nueva filosofía.
- Dejar de ser dependientes de la inspección
para lograr la calidad. - Terminar con la práctica de otorgar contratos sobre
la única base del precio. En
vez de ello minimizar el costo total trabajando con un solo
proveedor. - Mejorar constantemente y para siempre cada proceso de
planeación, producción y
servicio. - Instituir el entrenamiento en el trabajo.
- Adoptar e instituir el liderazgo.
- Eliminar el miedo.
- Derribar las barreras entre áreas de
personal. - Eliminar lemas, exhortaciones y metas destinados a la
fuerza laboral. - Eliminar cuotas numéricas para la fuerza
laboral y objetivos numéricos para la
administración. - Retirar barreras que le restan orgullo a la gente
respecto a su trabajo. Eliminar el sistema de evaluación anual o de
mérito. - Instituir un vigoroso programa de
educación y autodesarrollo para
todos. - Poner a todo el que trabaje en la
compañía a trabajar en el logro de la
transformación.
Diagramas de control para la proporción y el
número de elementos que no se ajustan:. Los diagramas p y
np.
- Diagrama p: basado en la porción de elementos
que no cumplen con los requisitos. Para establecer los
límites de control:
Cualquier valor negativo del límite de control
inferior significará que el límite de control
inferior no existe.
- Diagrama np: basado en el número de elementos
que no cumplen con los requisitos. Los límites de
control los establecemos de la siguiente manera:
El diagrama R: Un diagrama de control para la
dispersión. Los límites de este diagrama de control
los obtenemos de la siguiente manera:
Diagrama X. El diagrama de control para X utiliza
subgrupos de tamaño n que se obtienen sobre k secuencias
consecutivas o periodos. Los límites de control se
obtienen de la siguiente manera:
Resumen
Pronóstico de series de tiempo.
Tipos de métodos de predicción: Existen dos
planteamientos para la predicción: cualitativa y
cuantitativa. Los métodos de predicción cualitativa
son especialmente importantes cuando no se dispone de datos
históricos. Se consideran altamente subjetivos. Los
métodos de predicción cuantitativa hacen uso de los
datos históricos.
Introducción al análisis de series de
tiempo.
Una serie de tiempo es un conjunto de datos numéricos que
se obtienen en períodos regulares a través del
tiempo. El principal objetivo de una serie de tiempo consiste en
identificar y aislar tales factores de influencia con
propósitos de hacer predicciones, así como para
efectuar una planeación y un control
administrativo.
Factores componentes del modelo multiplicativo de series
temporales.
Tendencia: impresión a largo plazo.
Componente cíclico: representa la oscilación o los
movimientos a la baja y a la alta que se dan a lo largo de la
serie. Los movimientos cíclicos varían en longitud,
por lo general de dos a 10 años.
Componente irregular aleatorio: cualquier componente que no sigue
la curva de tendencia modificada por el componente
cíclico.
Cuando los datos se registran mensual o trimestralmente
además de la tendencia cíclica y los componentes
irregulares debemos tomar en cuenta el factor estacional.
El modelo multiplicativo clásico de las series
temporales.
Cuando los datos se obtienen anualmente una observación Yi
puede expresarse como:
Yi=Ti*Ci*Ii; en la que Ti es el valor del componente tendencia,
Ci= valor del componente cíclico; Ii es el valor del
componente irregular.
Por otra parte cuando los datos se obtienen de manera trimestral
o mensual una observación Yi puede estar dada por:
Yi=Ti*Si*Ci*Ii, en la que Si es el valor del componente
estacional.
El primer paso de una serie de tiempo consiste en
graficar los datos y observar su tendencia a través del
tiempo. Primero debemos determinar si parece haber un movimiento a
largo plazo hacia arriba o hacia abajo en la serie. ( es decir
una tendencia), o si la serie parece oscilar alrededor de una
línea horizontal a través del tiempo. Si este
último parece ser el caso entonces debe emplearse el
método de promedios móviles o el suavizado
exponencial, para suavizar la serie y proporcionarnos una
impresión global a largo plazo.
Suavizado de las series temporales anuales:. promedios
móviles y suavizado exponencial.
Promedios móviles. Este método es altamente
subjetivo y dependiente de la longitud del período elegido
para la construcción de los promedios. Para eliminar las
fluctuaciones cíclicas, el período escogido debe
ser un valor entero que corresponda a la duración promedio
estimada de un ciclo.
Los promedios móviles para un período elegido de
longitud L consisten en una serie de medias aritméticas
calculadas en el tiempo de tal modo que cada media se calcula
para una secuencia de valores observados que tienen esa longitud
particular, L.
El promedio móvil puede calcularse de la
siguiente manera:
Cuanto más largo sea el período, menor será
el número de valores promedio móvil que se pueden
calcular y graficar. Por consiguiente, la selección de
promedios móviles con períodos de longitud mayores
a siete años es, por lo general, no deseable puesto que
habrá demasiados puntos de datos que faltan al inicio y al
final de la serie, haciendo que sea más difícil de
obtener una impresión global de la serie
completa.
Suavizado Exponencial.
El suavizado exponencial puede utilizarse para obtener
predicciones a corto plazo. Su nombre deriva del hecho de que nos
proporciona un promedio móvil pesado o ponderado
exponencialmente a través de la serie de tiempo, esto es,
a lo largo de la serie cada cálculo de suavizado o
predicción depende de todos los valores observados
anteriormente. Esta es una ventaja con respecto al otro
método. Con este método los pesos asignados a los
valores observados disminuyen con el tiempo, de modo que cuando
se hace el cálculo, el valor observado más reciente
recibe el mayor peso.
Para suavizar una serie de tiempo en cualquier periodo i
tenemos la siguiente expresión:.
Ei= valor de la serie suavizada exponencialmente que se calcula
en el período i.
Ei-1= valor de la serie suavizada exponencialmente calculado en
el período i-1
Yi= valor observado de la serie en el período i
W= peso o coeficiente de suavizado que se asigna de manera
subjetiva.
W==2/(L+1)
Si deseamos suavizar una serie mediante la
eliminación de las variaciones cíclicas e irregular
no deseadas, debemos seleccionar un pequeño valor de W.
Si, nuestro objetivo es hacer predicciones debiésemos
seleccionar el valor más grande de W (cercano a
uno).
Análisis de series de datos anuales: ajuste de
tendencia de mínimos cuadrados y
pronóstico.
El modelo lineal:
El modelo cuadrático:
El
modelo exponencial:
Elección de un modelo de predicción
apropiado
Autor:
Hernan Torino
htorino[arroba]sinectis.com.ar