Análisis de regresión
CONTENIDO
1. REGRESIÓN LINEAL SIMPLE
1.1Introducción
1.2El modelo de regresión lineal simple
1.3Usos y abusos de la regresión
2. ADECUACIÓN DEL MODELO DE REGRESIÓN LINEAL
2.1Introducción
2.2Prueba de falta de ajuste
2.3Análisis de los residuos
2.4Transformaciones de los datos
2.5Propuesta de estrategia de ajuste del modelo
3. REGRESIÓN LINELA MÚLTIPLE
3.1El modelo de regresión
3.2Análisis de los residuos
3.3Análisis de cada observación
3.4Propuesta de estrategia de ajuste del modelo
4. TÓPICOS ADICIONALES
4.1 Calibración
4.2 Variables independientes cualitativas
4.3 Autocorrelación
4.4 Algunos usos interesantes de la regresión
1. REGRESIÓN LINEAL SIMPLE
Ajuste de una línea recta por mínimos cuadrados
1.1 Introducción
Parece que Sir Francis Galton (1822-1911) un antropólogo y metereológo británico fue responsable de
la introducción de la palabra regresión, mostró que si Y = estatura de los niños y X = estatura de
^ __ __
los padres, una ecuación de ajuste adecuada era Y ?Y? (X ? X). El artículo de Galton es
3
fascinante como se cuenta en The Story of the Statistics1, el método de mínimos cuadrados
aparentemente fue descubierto por Carl Frederick Gauss (1777-1855)2.
El método de análisis llamado análisis de regresión, investiga y modela la relación entre una variable
Y dependiente o de respuesta en función de otras variables de predicción Xs, a través del método de
mínimos cuadrados.
Como ejemplo supóngase que un ingeniero industrial de una embotelladora está analizando la
entrega de producto y el servicio requerido por un operador de ruta para surtir y dar mantenimiento a
maquinas dispensadoras. El ingeniero visita 25 locales al azar con máquinas dispensadoras,
observando el tiempo de entrega en minutos y el volumen de producto surtido en cada uno. Las
observaciones se grafican en un diagrama de dispersión (Fig. 1.1), donde claramente se observa que
hay una relación entre el tiempo de entrega y el volumen surtido; los puntos casi se encuentran sobre
una línea recta, con un pequeño error de ajuste.
En general los modelos de regresión tienen varios propósitos como son:
1 Stigler,
S.M., The Story of the Statistics, Belknap Press, Harvard University, 1986, pp. 294-299
2
Placket, R.L., Studies in the history of the probability and Statistics XXIX. The discovery of the method of
least squares,, Bometrika, 59, 1972, pp. 239-251.
?
?
?
?
Descripción de datos a través de ecuaciones
Estimación de parámetros para obtener una ecuación modelo
Predicción y estimación.
Control.
1.2
El modelo de regresión lineal simple
Al tomar observaciones de ambas variables Y respuesta y X predicción o regresor, se puede
representar cada punto en un diagrama de dispersión.
Y
*
*
*
*** *
*** **
***
X
Fig. 1.1 Diagrama de dispersión y recta de ajuste
El modelo de ajuste o modelo de regresión lineal es:
Y ? ?0 ??1X ??
(1.1)
Donde los coeficientes ?0 y ?1 son parámetros del modelo denominados coeficientes de regresión, son
constantes, a pesar de que no podemos determinarlos exactamente sin examinar todas las posibles
ocurrencias de X y Y, podemos usar la información proporcionada por una muestra para hallar sus
estimados
b0,b1.
El error es difícil de determinar puesto que cambia con cada observación Y. Se
asume que los errores tienen media cero, varianza desconocida ?2 y no están correlacionados (el
valor de uno no depende del valor de otro). Por esto mismo las respuestas tampoco están
correlacionadas.
Conviene ver al regresor o predictor X como la variable controlada por el analista y evaluada con el
mínimo error, mientras que la variable de respuesta Y es una variable aleatoria, es decir que existe
una distribución de Y con cada valor de X.
La media de esta distribución es:
E(y| x) ? ?0 ??1x
y su varianza es:
V(y | x) ?V(?0 ??1x??) ?? 2
(1.1 a)
(1.1b)
De esta forma la media de Y es una función lineal de X a pesar de que la varianza de Y no dependa
de los valores de X.
1.2.1 Estimación de los parámetros por mínimos cuadrados
? ?2?(yi ??0 ? ?1xi) ? 0
? ?2?(yi ??0 ? ?1xi)xi ? 0
??xi ??? yi ?
? ? i 1 yixi ? ? i?1 ? n ? i?1 ?
? n
?
? ? i 1 x2i ? ? i?1n ?
? yi
?xi
El método de mínimos cuadrados se usa para estimar ?0 y ?1 se estimará ?0 y ?1 de manera que la
suma de cuadrados de las diferencias entre la observaciones yi y la línea recta sea mínima. Los
parámetros ?0 y ?1 son desconocidos y deben ser estimados usando datos de una muestra.
Supongamos que se tienen n pares de datos (y1, x1), (y1, x1), (y2, x2),….., (yn, xn) de un experimento o
por historia.
De la ecuación modelo de regresión de la población
Y ? ?0 ??1X ??
Usando los pares de datos se puede establecer el criterio de mínimos cuadrados como:
n
i?1
Los estimadores de mínimos cuadrados de ?0 y ?1 por decir ?0,?1debe satisfacer es:
n
i?1
n
i?1
?S
??0
y
?S
??1
?0,?1
?0,?1
Simplificando estas dos ecuaciones se obtienen las ecuaciones de mínimos cuadrados:
n n
i?1 i?1
n n n
i?1 i?1 i?1
La solución a las ecuaciones normales anteriores:
?0 ? y ??1x
n
n
? n ?? n ?
??xi ?
2
?1 ?
Donde los promedios para X y para Y son los siguientes::
y ?
1 n
n i?1
x ?
1 n
n i?1
Aplicando el método de mínimos cuadrados del error, se obtiene el modelo que nos da un valor
estimado Y en función de X, denominado ecuación de predicción o de regresión lineal, como sigue:
b0 ? ?0
b1 ? ?1
Y ? b0 ?b1X
?X Y
?X
(1.2)
^
Donde:
?
Sxy
Sxx
i i
2
i
__ __
?n X Y
__ 2
?n X
n
i?1
n
i?1
b1 ?
(1.3)
__ __
b0 ?Y?b1 X
por tanto:
^ __ __
Y ?Y?b1(X ? X)
(1.4)
(1.5)
__ __ __
Cuando X ? X se tiene el punto (X,Y) que se encuentra en la línea ajustada y representa el
centro de gravedad de los datos.
Ejemplo 1.1 Se realizaron 25 observaciones de la variable Y y X como sigue:
Y ?13.6?0.0798X
11.08
28.6
Haciendo cálculos con el paquete Minitab con X en la columna C2 y Y en la columna C1 se tiene:
Regression Analysis: C1 versus C2
The regression equation is
C1 = 13.6 – 0.0798 C2
Predictor Coef SE Coef T P
Constant
13.6230 0.5815 23.43 0.000
C2
-0.07983
0.01052
-7.59
0.000
S = 0.8901
R-Sq = 71.4%
R-Sq(adj) = 70.2%
(1.6)
Por lo anterior la ecuación de regresión obtenida es:
^
Después de obtener esta ecuación, surgen algunas preguntas:
–
–
–
¿qué tan bien ajusta los datos esta ecuación?
¿el útil el modelo para hacer predicciones?
¿se viola alguna condición como varianza constante y no correlación en los errores, de ser así que
tan seria es?
Todo esto debe ser aclarado antes de usar el modelo.
? YY
??Yi ?
??Yi2 ? ? i?1
?
SXY ??X iYi ?
?X i?Yi
ei ?Yi ?Y i es el residuo que expresa la diferencia entre el valor observado y el valor
Y ? b0 ?b1x
1.2.2 Análisis de Varianza
El análisis de varianza es una herramienta que sirve para probar la adecuación del modelo de
regresión, para lo cual es necesario calcular las sumas de cuadrados correspondientes.
La desviación estándar S corresponde a la raíz cuadrada del valor de MSE o cuadrado medio
residual.
S
S 2 ?
?b1SXY
n?2
SSE
n?2
(1.7)
Donde:
n
SYY
2
? n ?
i?1 n
(1.8)
n
n n
i?1 i?1
n
i?1
(1.9)
La expresión
^
(1.10)
estimado por la ecuación de predicción.
Donde:
^ __ ^ __
Yi ?Y i ?Yi ?Y?(Y i?Y)
Y
Yi
__
Yi ?Y
^
Yi
_
Y
ei
línea ajustada
^
X
Xi
Fig. 1.2 Errores involucrados en la recta de ajuste
?Y)2 ??(Y i?Y)2 ??(Yi ?Y i)2
SXY ? (?(Xi ? X)Yi)2
SXX ??(Xi ? X)2 ??Xi2 ?n X
La cantidad
__
(Yi ?Y) es la desviación de la observación i-ésima respecto a la media. Por otra parte:
__ ^ __ ^
?(Yi
(1.11)
Suma de cuadrados = Suma de cuadrados + Suma de cuadrados
respecto a la media
de la regresión
del error o residuos
De tal forma que la tabla de análisis de varianza queda como:
Tabla de Análisis de Varianza
.
Fuente
df
SS
MS = SS/df
Fc
Regresión
1
SSR ?b1SXY
MSREG
MSreg/s2 =MSreg/MSE
Residual
n-2
SSE ? SSYY ?b1SXY
S2=MSE=SSE/n-2
__________________________________________________________.
SYY
Total corregido n-1
donde:
__ __ 2
(1.12)
(1.13)
__
2
Obteniéndose con el Minitab
MS F P
45.592 57.54 0.000
0.792
Source DF
Regression 1
Residual Error 23
Total corrected 24
SS
45.592
18.223
63.816
El estadístico F se calcula como F = MSEREG / S2 y se compara con la F de tablas con (1, n-2) grados
de libertad y área en 100(1-?)%, para determinar si el parámetro ?1 es significativo que es el caso de
Fcalc. > Ftablas.
En este caso Fc = 45.5924 / 0.7923 = 57.24 y F de tablas F(1, 23, 0.95) es igual a 4.28, por tanto se
rechaza H0 aceptando que existe una ecuación de regresión.
El área de la cola de Fc está descrita por el valor de p que debe ser menor o igual al valor de ?, en
este caso es casi cero.
1.2.3 Intervalos de confianza para
?0,?1
En base al error estándar para los parámetros se tiene:
?1
?
?
?
?X i2
? ?
? 2 ?
? ?n?(X i ? X) ? ?
?0?ta/2,n?2
?1
?
X ?
?
b0 ?t(n ?2,1? ?)
?X i2
? 2 ?
? ?n?(X i ? X) ? ?
?1?ta/2,n?2
t(n?2,1? ?).S
?
S
1/2
__
?
? ?
?
?
?
__ 2
X
SXX
S
SXX
?
se(b0) ? MSE? ?
?n
MSE
se(b1) ?
?
SXX
(1.14)
(1.15)
Del ejemplo, como s = 0.7963 y SXX = 7154.42
0.792
7154.42
? 0.0105
se(b1) ?
?0,?1, considerando que las observaciones y los errores
El intervalo de confianza 100 (1 – ?)% para
siguen un comportamiento normal, es:
Y Para el coeficiente ?o se tiene:
?
MSE? ?
?n
__ 2 ?
?
SXX ?
^
(1.16)
S
1/2
__
1
2
? ?
? ?
(1.16a)
Para el caso del coeficiente Beta 1:
El error estándar es:
MSE
SXX
MSE
SXX
se(?1) ?
^
(1.17ª)
b1 ?
1
2
__
(X i ? X)2
(1.17)
Suponiendo ? = 0.05, t(23,0.975) = 2.069, los límites de confianza para el parámetro
?1
son:
-0.798 ? (2.069)(0.0105) o sea -0.798 ? 0.0217
y ?1 se encuentra en el intervalo (-0.1015, -0.0581).
Para el caso de sigma, si los errores están distribuidos normalmente y son independientes, la
distribución del estadístico,
P??1 2 ?? /2,n?2 ?
?
? ?? 2/2,n?2? ?1??
?? /2,n?2
E(Y | X0) ?Y0 ? b0 ?b1X 0
Y0?ta/2,n?2
? ? ?
? ?
V(?) ?? ?1?
?
(n?2)MSE/? 2
es Chi-cuadrada con n 2 grados de libertad y de esta forma:
?
?
?
?
(n?2 )MSE
2
Por consecuencia un intervalo de confianza 100 (1 – ? ) % en ?2 es:
2
(n?2 )MSE
2
(n?2 )MSE
?1?? /2,n?2
?? 2 ?
(1.18)
1.2.4 Estimación del intervalo para la media de la respuesta
Una aplicación mayor del análisis de regresión es la estimación de la media de la respuesta E(Y) para
un valor particular de la variable regresora X. El valor esperado de la respuesta Y media para un cierto
valor de X = X0 es:
^
(1.19)
Para obtener un intervalo de confianza con 100(1 – ? )% para el coeficiente ?1 se aplica la fórmula
siguiente:
^
(x0 ? x)2 ?
Sxx ?
MSE ?1
SXX ?n
(1.20b)
Ver gráfica anterior del ejemplo.
1.2.5 Predicción de nuevas observaciones
Esta es otra de las aplicaciones del modelo de regresión, predecir nuevas observaciones Y
correspondientes a un nivel específico de la variable regresora X. La banda de predicción es más
ancha dado que depende tanto del error del modelo de ajuste y el error asociado con observaciones
futuras
(Y0 ?Y0).
El intervalo es mínimo en
__
X 0 ? X y se amplia conforme se incrementa la
diferencia entre
__
X 0 ? X .
La variable aleatoria,
? ?Y0 ?Y0
Está normalmente distribuida con media cero y varianza:
?
?
?
?
2
__
(X 0 ? X)2 ?
SXX ?
?
1
n
?
?Y0 ?Y 0 ?t? /2,n?2 MSE?1?
?
MSE?
?
?Y0 ?Y 0 ?t? /2,n?2 MSE?
?
t ?
?
Si se usa
Y0
para predecir a
Y0
entonces el error estándar de ? =
Y0 – Y0, es el estadístico
apropiado para establecer un intervalo de predicción probabilístico, en el caso de un intervalo 100 (1 –
? ) % sobre una observación futura en
X 0
se tiene:
?
?
?
?
?
__
(X 0 ? X)2 ?
SXX ?
?
1
n
__
(X 0 ? X)2 ?
SXX ?
?
1
n
?
MSE?1?
?
?
Y0 ?t? /2,n?2
(1.21
Se puede generalizar para encontrar un intervalo de predicción del 100(1-?) porciento para la media
de m observaciones futuras en X = Xo. Sea Ymedia la media de las observaciones futuras en X = Xo.
El intervalo de predicción estimado es:
?
?
?
?
__
(X0 ? X)2 ?
SXX ?
?
1
n
?
1
?m
?
__
(X0 ? X)2 ?
SXX ?
?
1
n
?
1
?m
?
Y0 ?t? /2,n?2
1.2.6 Pruebas de hipótesis para la pendiente e intersección
Prueba de Hipótesis para Ho:?0 = ?10 contra H1:?0 ? ?10
Calculando el estadístico t, considerando que ?10 = 0, se tiene:
b0
se(b0)
t ?
(1.22)
Probar la hipótesis para b0 no tiene interés práctico.
Ahora para probar la significancia de b1 se tiene:
SXX
b1
MSE
t0 ?
para (? /2,n?2) grados de libertad
(1.23)
Si
t0 ? t? /2,n?2 se rechaza la hipótesis nula, indicando que ?1 es significativo y se tiene regresión
? ?7.60
? 0.798
0.0105
lineal.
Del ejemplo:
b1
se(b1)
Como
t ? 7.60 excede el valor crítico de t = 2.069, se rechaza Ho (o sea el valor de p < < 0.05) .Por
tanto este coeficiente es significativo.
Es importante notar que el valor de F = t2.
La salida del Minitab es como sigue:
Predictor Coef SE Coef
Constant = b0 13.6230 0.5815
T P
23.43 0.000
n(? 0 ? ?0)2 ? 2?xi(? 0 ? ?0)(? 1 ? ?1)??x2i(? 1 ? ?1)
?1
E(Y Xi) ?YXi? ? MSE? ? ?
? ?
?
yxi ?YXi? ? MSE? ?1?
? ?
C2 = b1
-0.07983
0.01052
-7.59
0.000
1.2.7 Inferencia simultanea para los parámetros del modelo
Para una estimación conjunta de Beta0 y Beta1 en una región donde estemos seguros con 100(1-alfa)
porciento de que ambos estimados son correctos es:
n n
i?1 i?1
2MSE
? F?,2,n?2
,
1.2.8 Estimación simultanea de la respuesta media
La estimación simultanea de la respuesta media es:
Es posible construir m-intervalos de confianza de la respuesta media de un conjunto de m-valores
específicos X, vgr. X1, X2,
., Xm, que tengan un coeficiente de confianza conjunta de la menos
100(1-alfa) porciento.
Se puede utilizar el módulo t de Scheffé:
? ? u?,2,n?2
Donde u?,2,n?2 es el punto de la cola superior alfa de la distribución del valor máximo absoluto de dos
variables aleatorias t-student cada una basada en n-2 grados de libertad. Estos dan intervalos más
cortos. Para el caso de alfa = 0.10, m=2,n=18 se tiene de tablas (A.8):
t?/(2m),n?2 ?t0.02518 ? 2.101
u?,m,n ?u0.10,2,18 ? 2.082
La Delta de Boferroni como sigue:
? ?(2F ?,2,n?2)1/2 ?(2F0.10,2,18)1/2 ?(6.02)1/2 ? 2.454
?n
^
(xi ? x)2 ?
Sxx ?
Note que los intervalos del máximo módulo t son más angostos que los de Bonferroni. Sin embargo
cuando m > 2 los intervalos de máximo módulo t se siguen ampliando mientras que los de Bonferroni
no dependen de m.
1.2.9 Predicción de nuevas observaciones
El conjunto de intervalos de predicción para m nuevas observaciones en los niveles X1, X2,
, Xm
que tienen un nivel de confianza de al menos (1-alfa) es:
?
?
^
(xi ? x)2 ?
Sxx ?
1
n
? ?? y ?? ?2 ? x ??2 ? ??
? x??2 ?
? y ??1 ?
?? ?
? ? ?? ?
? ? ?2p? ?
? ? ?? ?
? ? ??
exp??
?? 2(1? p ) ?? ?1 ? ? ? 2 ? ? ?1 ? ? ? 2 ? ???
exp?? ? ?
? ? ?
? ? 2?
? ? ?
?1
?1 ? ?
b1 ? ? ? YY
? ?
?(Y?Y)
?(Y ?Y)
1.2.10 Correlación
Las discusiones anteriores de análisis de regresión han asumido que X es una variable controlable
medida con un error despreciable y que Y es una variable aleatoria. Muchas aplicaciones de análisis
de regresión involucran situaciones donde tanto X como Y son variables aleatorias y los niveles de X
no pueden ser controlados. En este caso se asume que las observaciones (Xi, Yi), i=1, 2,
,n son
variables aleatorias distribuidas conjuntamente. Por ejemplo suponiendo que se desea establecer la
relación entre los refrescos vendidos y la temperatura del día. Se asume que la distribución conjunta
de Y y X es la distribución normal divariada, que es:
2 2 2
2
1 1
1
2??1? 2
f (x, y) ?
Donde ?1 y ?12 corresponden a la media y la varianza de Y, y ?2 y ?22 corresponden a la media y la
varianza de X y
?12
?1? 2
?
? ?
E(y ??1)(x??2)
?1? 2
Es el coeficiente de correlación entre Y y X. ?12 es la covarianzade Y y X.
La distribución condicional de Y para un valor de X es:
1
2??12
? 1? y ? ?0 ? ?1x?2?
?12
f (y x) ?
?1
? 2
Donde:
?0 ? ?1 ??2?
? 2
2
? 212 ??1 (1??2)
La correlación es el grado de asociación que existe las variables X y Y, se indica por el estadístico ?
cuyo estimador es el coeficiente de correlación de la muestra r ó rxy. Donde:
SXY
SXX SYY
r ?
(1.24)
r
1/2
?
?
? S
? SXX
(1.25)
Un estadístico útil es el valor del ajuste de la regresión R2, coeficiente de determinación que se define
como:
r = rxy = (signo de b1)R
(1.26)
i
SSE
SYY
SSR
Syy
?
?
?1?
2
2
^ __
__
(SS.de.la.regresión.por.b0)
(SSTotal.corregido.para.la.media)
R2 ?
(1.27)
Página siguiente |