- Introducción
- Métodos de los mínimos
cuadrados - Error estándar en la
estimación - Coeficiente de
determinación - Coeficiente de
correlación - Regresión lineal
múltiple - Estimación de los
coeficientes - Inferencias en la regresión
lineal múltiple - Predicción
- Correlación
- Bibliografía
El presente trabajo forma
parte de los objetivos y
contenidos de aprendizaje de la
cátedra ESTADÍSTICA, que pretende desarrollar las
habilidades para la utilización de los métodos
lineales y estimación de mínimos
cuadrados.
Para lograr este fin, se realizo la consulta de una
bibliografía
básica la cual permitió desarrollar los conceptos y
ejemplos, como base para realizar una exposición
adecuada en el salón de clases.
En este trabajo básicamente se habla de
cómo desarrollar la aplicación de los
métodos lineales y estimación por mínimos
cuadrados, además de inferencia, predicción y
correlación.
Se desarrollaron una serie de ejemplos mediante los
cuales se trata de presentar manera mas sencilla usar estos
métodos.
El Equipo # 4
El procedimiento mas
objetivo para
ajustar una recta a un conjunto de datos presentados
en
un diagrama de
dispersión se conoce como "el método de
los mínimos cuadrados". La recta
resultante presenta dos características
importantes:
1. Es nula la suma de las desviaciones verticales de los
puntos a partir de la recta de ajuste
∑ (Yー – Y) = 0.
2. Es mínima la suma de los cuadrados de dichas
desviaciones. Ninguna otra recta daría
una suma menor de las desviaciones elevadas al
cuadrado ∑ (Yー – Y)²
→
0
(mínima).
El procedimiento consiste entonces en minimizar los
residuos al cuadrado Ci²
Re emplazando nos queda |
La obtención de los valores de
a y b que minimizan esta función es
un problema que se puede resolver recurriendo a la
derivación parcial de la función en términos
de a y b: llamemos G a la función que se va a
minimizar:
Tomemos las derivadas
parciales de G respecto de a y b que son las incógnitas y
las igualamos a cero; de esta forma se obtienen dos ecuaciones
llamadas ecuaciones normales del modelo que
pueden ser resueltas por cualquier método ya sea
igualación o matrices para
obtener los valores de a y
b.
Derivamos parcialmente la ecuación respecto de
a
Primera ecuación normal
Derivamos parcialmente la ecuación respecto de
b
Segunda ecuación normal
Los valores de a y b se obtienen resolviendo el sistema de
ecuaciones resultante. Veamos el siguiente ejemplo:
En un estudio económico se desea saber la
relación entre el nivel de instrucción de las
personas y el ingreso.
EJEMPLO 1
Se toma una muestra aleatoria
de 8 ciudades de una región geográfica de 13
departamentos y se determina por los datos del censo el
porcentaje de graduados en educación
superior y la mediana del ingreso de cada ciudad, los
resultados son los siguientes:
CIUDAD : 1 2 3 4 5 6 7 8
% de (X)
Graduados : 7.2 6.7 17.0 12.5 6.3 23.9 6.0
10.2
Ingreso (Y)
Mediana : 4.2 4.9 7.0 6.2 3.8 7.6 4.4 5.4
(0000)
Tenemos las ecuaciones normales
∑y = na + b∑x
∑xy = a∑x +
b∑x²
Debemos encontrar los términos de las
ecuaciones
∑y, ∑x, ∑xy, ∑ x² Por tanto
procedemos de la siguiente forma:
Y | X | XY | X² |
|
|
|
|
4.2 | 7.2 | 30.24 | 51.84 |
4.9 | 6.7 | 32.83 | 44.89 |
7.0 | 17.0 | 119.00 | 289.00 |
6.2 | 12.5 | 77.50 | 156.25 |
3.8 | 6.3 | 23.94 | 39.69 |
7.6 | 23.9 | 181.64 | 571.21 |
4.4 | 6.0 | 26.40 | 36.00 |
5.4 | 10.2 | 55.08 | 104.04 |
43.5 | 89.8 | 546.63 | 1292.92 |
Sustituyendo en las ecuaciones los resultados obtenidos
tenemos: 43.50 = 8a + 89.8b
546.63 = 89.8a + 1292.92b
multiplicamos la primera ecuación por (-89.8) y
la segunda por (8) así:
43.50 = 8a + 89.8b (-89.8) 546.63 = 89.8a + 1292.92b
(8)
-3906.30 = -718.4a – 8064.04b 4373.04 = 718.4a +
10343.36b
466.74 = -0- 2279.32b
Este valor de b lo
reemplazamos en cualquiera de las ecuaciones para obtener a
así:
Reemplazando b = 0.20477 en la primera ecuación
normal
43.5 = 8a + 89.8 (0.20477) 43.5 = 8a + 18.3880 43.5 –
18.3880 = 8a 25.1120 = 8a
Tenemos entonces que los coeficientes de
regresión son : a = 3.139 y b = 0.20477. Por tanto la
ecuación de regresión nos queda:
Significa entonces que por cada incremento en una unidad
en X el valor de se aumenta en 0.20477
Esta ecuación permite estimar el valor de
para cualquier
valor de X, por ejemplo: Una ciudad que tiene un porcentaje de
graduados a nivel superior del 28% la mediana de ingreso para la
ciudad será:
Los valores a y b también se pueden obtener de la
siguiente forma: partiendo de las ecuaciones normales
tenemos:
Si dividimos todos los términos de la
ecuación (1) entre n nos queda:
Tenemos entonces que el primer termino es el segundo termino es la
incógnita a y el tercer termino es la incógnita b
multiplicada por por tanto nos queda:
entonces
Reemplazando a en la ecuación (2)
tenemos
a = 5.4375 – 0.20477 (11.2250) = 5.4375 –
2.2985 = 3.139
Se debe tener presente la diferencia entre el valor de
obtenido con la
ecuación de regresión y el valor de Y observado.
Mientras es una
estimación y su bondad en la estimación depende de
lo estrecha que sea la relación entre las dos variables que
se estudian; Yー es el valor efectivo, verdadero
obtenido mediante la observación del investigador. En el ejemplo
Yー es el valor mediano del ingreso que
obtuvo el investigador
utilizando todos los ingresos
observados en cada ciudad y es el valor estimado con base en el modelo lineal
utilizado para obtener la ecuación de
regresión
Los valores estimados y observados pueden no ser iguales
por ejemplo la primera ciudad tiene un ingreso mediano observado
de Yー = 4.2 al reemplazar en la
ecuación el porcentaje
de graduados obtenemos un estimado de
Gráficamente lo anterior se puede mostrar
así:
Claramente se observa en la gráfica que hay una
diferencia entre el valor efectivo de Yー y
el valor estimado; esta diferencia se conoce como error en la
estimación, este error se puede medir. A
continuación se verá el procedimiento.
Error estándar en la
estimación
El error estándar de la estimación
designado por sYX mide la disparidad "promedio"
entre
los valores observados y los valores estimados de
. Se utiliza la
siguiente formula.
Debemos entonces calcular los valores de para cada ciudad
sustituyendo en la ecuación los valores de los porcentajes
de graduados de cada ciudad estudiada.
Y | X | |||
4.2 | 7.2 | 4.6 | -0.4 | 0.16 |
4.9 | 6.7 | 4.5 | 0.4 | 0.16 |
7.0 | 17.0 | 6.6 | 0.4 | 0.16 |
6.2 | 12.5 | 5.7 | 0.5 | 0.25 |
3.8 | 6.3 | 4.4 | -0.6 | 0.36 |
7.6 | 23.9 | 8.0 | -0.4 | 0.16 |
4.4 | 6.0 | 4.4 | 0.0 | 0.00 |
5.4 | 10.2 | 5.2 | 0.2 | 0.04 |
|
|
|
| 1.29 |
Syx = 0.46 (decenas de miles $)
Como esta medida trata de resumir la disparidad entre lo
observado y lo estimado, es decir, trata de medir la diferencia
promedio entre lo observado y lo estimado ó esperado de
acuerdo al modelo, puede considerarse como un indicador del grado
de precisión con que la ecuación de
regresión, describe la relación entre las dos
variables. Este error estándar se ve afectado por las
unidades y sus cambios ya que es una medida absoluta, pues, se da
en la misma unidad de medida que esta dada la variable Y; en el
ejemplo 0.46 serán decenas de miles de pesos, razón
por la cual no es posible comparar con las relaciones de
variables dadas en distinta unidad de medida. Es necesario
entonces calcular una medida que interprete o mida mejor el grado
de relación entre las variables.
El cambio de la
variable Y generalmente depende de muchos factores, en ocasiones,
difíciles de identificar; con el modelo lineal simple,
sólo tenemos presente uno. Por ejemplo, en nuestro caso la
mediana del ingreso depende no sólo del porcentaje de
graduados en el nivel superior, que es, el factor que tenemos
presente, pueden entrar a jugar factores tales como, la distribución de la edad en la población, la distribución por
sexo en la
población, la industrialización de la ciudad, el
numero de universidades y muchos otros.
El coeficiente de determinación mide o interpreta
la cantidad relativa de la variación que ha sido explicada
por la recta de regresión, es decir, la proporción
de cambio en Y explicado por un cambio en la variable X ( X es el
factor que se utiliza para calcular la recta de ajuste o
ecuación de regresión, en el ejemplo es el
porcentaje de graduados en el nivel superior en cada
ciudad).
Para el ejemplo el Coeficiente de determinación
va a medir la proporción del cambio en el ingreso mediano
de cada ciudad, debido o explicado por un cambio en el porcentaje
de graduados en el nivel superior.
Veamos algunos componentes de la variabilidad en el
análisis de regresión:
La diferencia entre cada valor de Yー
observado y media se denomina variación de Y.
La diferencia entre estimado y media , es la variación tenida en cuenta por la
ecuación de regresión, razón por la cual se
denomina variación explicada de Y.
La diferencia entre Yー
observado y estimado, son variaciones consideradas debidas a factores
diferentes al tenido presente por la ecuación de
regresión por eso se llama: variación no explicada
de Y.
La diferencia entre Yー
observado y estimado, son variaciones consideradas debidas a factores
diferentes al tenido presente por la ecuación de
regresión por eso se llama: variación no explicada
de Y.
La sumatoria de las diferencias en cada una de las
formas de variación la podemos representar
así:
Gráficamente esta relación se puede
representar así:
Se dijo anteriormente, que el coeficiente de
determinación es la proporción de cambio explicado
en Y, por cambio en X, es decir, la proporción que
representa la variación explicada de la variación
total. Recuerde una proporción es la relación de
una parte con el total, por tanto, el coeficiente de
determinación será:
En otras palabras el coeficiente de determinación
es la relación entre la variación explicada y la
variación total. Su valor siempre estará
Para su calculo se procede así:
4.2 | 5.44 | -1.24 | 1.54 | 4.6 | -0.84 | 0.71 | -0.4 | 0.16 |
4.9 | 5.44 | -1.24 | 0.29 | 4.5 | -0.84 | 0.88 | 0.4 | 0.16 |
7.0 | 5.44 | 1.56 | 2.43 | 6.6 | 1.16 | 1.35 | 0.4 | 0.16 |
6.2 | 5.44 | 0.76 | 0.58 | 5.7 | 0.26 | 0.07 | 0.5 | 0.25 |
3.8 | 5.44 | 1.64 | 2.69 | 4.4 | -1.04 | 1.08 | -0.6 | 0.36 |
7.6 | 5.44 | 2.16 | 4.66 | 8.0 | 2.56 | 6.55 | -0.4 | 0.16 |
4.4 | 5.44 | 1.04 | 1.08 | 4.4 | -1.04 | 1.08 | 0.0 | 0.00 |
5.4 | 5.44 | 0.4 | 0.001 | 5.2 | -0.24 | 0.06 | 0.2 | 0.04 |
|
|
|
|
|
|
|
|
|
43.5 |
|
| 13.271 |
|
| 11.78 |
| 1.29 |
Generalmente esta proporción se expresa como
porcentaje por tanto podemos decir que
r² = 88.76%
como conclusión podemos decir que el 88.76% de la
variación en el ingreso mediano de las ciudades de la
muestra esta relacionada o explicada por la variación en
el porcentaje de graduados en educación Superior en
cada ciudad.
Este Coeficiente como ya se dijo mide la fuerza de la
relación entre las variables. El coeficiente tiene el
signo que tiene b y su valor estará El signo menos en el
índice significa una relación negativa y un signo
más una correlación positiva. El coeficiente se
obtiene sacando la raíz cuadrada al coeficiente de
determinación y se simboliza con "r".
En este caso el coeficiente r tiene signo positivo ya
que toma el valor de b obtenido con las ecuaciones normales toma
valor positivo.
A continuación se da, a modo de
orientación , como podrían interpretarse los
valores de r (positivo o negativo)
0.0 | a | 0.2 | Correlación muy débil, |
0.2 | a | 0.4 | Correlación débil. bajo |
0.4 | a | 0.7 | Correlación moderada |
0.7 | a | 0.9 | Correlación fuerte, alto, |
0.9 | a | 1.0 | Correlación muy fuerte, muy alto |
La correlación entre los valores de dos variables
es un hecho. El que lo consideremos satisfactorio o no, depende
de la interpretación. Otro problema que
representa la correlación es cuando se pregunta si una
variable, de algún modo causa o determina a la otra. La
correlación no implica causalidad. Si las variables X e Y
están correlacionadas, esto puede ser por que X causa a Y,
o porque Y causa a X o porque alguna otra variable afecta tanto a
X como Y, o por una combinación de todas estas razones; o
puede ser que la relación sea una coincidencia.
Modelo de regresión
lineal con el uso de matrices.
Al ajustar un modelo de regresión lineal
múltiple, en particular cuando el número de
variables pasa de dos, el
conocimiento de la teoría
matricial puede facilitar las manipulaciones matemáticas de forma considerable. Suponga
que el experimentador tiene k variables independientes
x1,
x2,….,xk, y n observaciones y1,
y2,…., yn, cada una de las cuales se
pueden expresar por la ecuación
yi = b 0 +
b
1x1i +b 2x2i
+….+ b
kxki +e i
Este modelo en esencia representa n ecuaciones que
describen cómo se generan los valores de respuesta en el
proceso
científico. Con el uso de la notación matricial,
podemos escribir la ecuación
y=Xb + e |
donde
Entonces la solución de mínimos cuadrados
para la estimación de b que se ilustra en la sección
Estimación de coeficientes, "Regresión lineal
múltiple" implica encontrar b para la que
SSE = (y – Xb)'(y – Xb)
se minimiza. Este proceso de minimización implica
resolver para b en la ecuación
No presentaremos los detalles relacionados con las
soluciones de
las ecuaciones anteriores. El resultado se reduce a la
solución de b en
(X'X)b = X'y |
Nótese la naturaleza de
la matriz X.
Aparte del elemento inicial, el i-ésimo renglón
representa los valores x que dan lugar a la respuesta
yi. Al escribir
y
las ecuaciones normales se pueden escribir en la forma
matricial
AB=g
Si la matriz A es no singular, podemos escribir la
solución para el coeficiente de regresión
como
b = A-1g
=(X’X)-1X’y
De esta forma se puede obtener la ecuación de
predicción o la ecuación de regresión al
resolver un conjunto de k + 1 ecuaciones con un número
igual de incógnitas. Esto implica la inversión de la matriz X'X de k + 1 por k +
1. Las técnicas
para invertir esta matriz se explican en la mayoría de los
libros de
texto sobre
determinantes y matrices elementales. Por supuesto, se dispone de
muchos paquetes de computadora de
alta velocidad para
problemas de
regresión múltiple, paquetes que no sólo
imprimen estimaciones de los coeficientes de regresión,
sino que también proporcionan otra información relevante para hacer
inferencias respecto a la ecuación de
regresión.
Ejemplo 1
Se midió el porcentaje de sobrevivencia de cierto
tipo de semen animal, después del almacenamiento,
en varias combinaciones de concentraciones de tres materiales que
se utilizan para aumentar su oportunidad de sobrevivencia. Los
datos son los siguientes:
y(% sobrevivencia) | x1(peso %) | x2(peso %) | x3(peso %) |
25,5 | 1,74 | 5,30 | 10,80 |
31,2 | 6,32 | 5,42 | 9,40 |
25,9 | 6,22 | 8,41 | 7,20 |
38,4 | 10,52 | 4,63 | 8,50 |
18,4 | 1,19 | 11,60 | 9,40 |
26,7 | 1,22 | 5,85 | 9,90 |
26,4 | 4,10 | 6,62 | 8 |
25,9 | 6,32 | 8,72 | 9,10 |
32 | 4,08 | 4,42 | 8,70 |
25,2 | 4,15 | 7,60 | 9,20 |
39,7 | 10,15 | 4,83 | 9,40 |
35,7 | 1,72 | 3,12 | 7,60 |
26,5 | 1,70 | 5,30 | 8,20 |
Estime el modelo de regresión lineal
múltiple para los datos dados.
SOLUCIÓN:
Las ecuaciones de estimación de mínimos
cuadrados, (X'X)b = X'y, son
=
De los resultados de una computadora obtenemos los
elementos de la matriz inversa
y después, con el uso de la relación b =
(X’X)-1 X’y, los coeficientes estimados de
regresión son
b0= 39.1574, b1 =
1.0161, b2 = -1.8616, b3 =
-0.3433.
De aquí nuestra ecuación de
regresión estimada es
Para el caso de una sola variable independiente, el
grado del polinomio de mejor ajuste a menudo se puede determinar
al graficar un diagrama de dispersión de los datos que se
obtienen de un experimento que da n pares de observaciones de la
forma {(xi, yi); i = 1, 2, ….
n}.
=
Al resolver estas r + 1 ecuaciones, obtenemos las
estimaciones b0, b1,….., br y
por ello generamos la ecuación de predicción de
regresión polinomial
El procedimiento para ajustar un modelo de
regresión polinomial se puede generalizar al caso de
más de una variable independiente. De hecho, el estudiante
de análisis de regresión debe, en esta etapa, tener
la facilidad para ajustar cualquier modelo lineal en, digamos, k
variables independientes. Suponga, por ejemplo, que tenemos una
respuesta Y con k = 2 variables independientes y se postula un
modelo cuadrático del tipo
yi = b 0 +
b
1x1i + b 2x2i
+b
11x21i+
b
22x22i+b 12x1i
x2i+e
I
donde yi, i = 1, 2, …, n, es la respuesta
para la combinación (x1i, x2i) de
las variables independientes en el experimento. En esta
situación n debe ser al menos 6, pues hay seis
parámetros a estimar mediante el procedimiento de
mínimos cuadrados.
Además, como el modelo contiene términos
cuadráticos en ambas variables, se deben usar al menos
tres niveles de cada variable. El lector debe verificar con
facilidad que las ecuaciones normales de mínimos cuadrados
(X'X)b = X'y están dadas por:
=
Ejemplo 2
Los siguientes datos representan el porcentaje de
impurezas que ocurren a varias temperaturas y tiempos de
esterilización durante una reacción asociada con la
fabricación de cierta bebida.
Tiempo de esterilización, | Temperatura, x1 (°C) | ||
75 | 100 | 125 | |
15 | 14.05 | 10.55 | 7.55 |
| 14.93 | 9.48 | 6.59 |
20 | 16.56 | 13.63 | 9.23 |
| 15.85 | 11.75 | 8.78 |
25 | 22.41 | 18.55 | 15.93 |
| 21.66 | 17.98 | 16.44 |
Estimar los coeficientes de regresión en el
modelo
m
Y|x = b 0 + b 1 x1
+b 2
x2+b
11 x12+b 22
x22+ ……..+ b 12 x1
x2
SOLUCIÓN:
b0 = 56,4668 |
| b11 =0,00081 |
b1 = -0,36235 |
| b22 = 0,08171 |
b2 = -2,75299 |
| b12 = 0,00314 |
y nuestra ecuación de regresión estimada
es
Muchos de los principios y
procedimientos
asociados con la estimación de funciones de
regresión polinomial caen en la categoría de la
metodología de respuesta superficial, un
conjunto de técnicas que los científicos e
ingenieros han utilizado con bastante éxito
en muchos campos. Problemas como la selección
de un diseño
experimental apropiado, en particular para casos donde hay un
número grande de variables en el modelo, y la
elección de las condiciones "óptimas" de
operación sobre
x1,x2,…..,xk a menudo se
aproximan a través del uso de estos métodos. Para
una exposición más amplia se remite al lector a
Response Surface Methodology: Process and Product Optimization
Using Designed Experiments de Myers y Montgomery.
Regresión lineal múltiple.
En la mayor parte de los problemas de investigación donde se aplica el
análisis de regresión se necesita más de una
variable independiente en el modelo de regresión. La
complejidad de la mayor parte de los mecanismos
científicos es tal que para ser capaces de predecir una
respuesta importante se necesita un modelo de regresión
múltiple. Cuando este modelo es lineal en los coeficientes
se denomina modelo de regresión lineal múltiple.
Para el caso de k variables independientes X1,
X2,….,Xk, la media de Y| X1,
X2,….,XK está dada por el modelo
de regresión lineal múltiple
m
Y|x1, x2
,………, xk = b 0 +
b 1
x1 +……..+ b k xk
y la respuesta estimada se obtiene de la ecuación
de regresión de la muestra
donde cada coeficiente de regresión
b i se
estima por bi de los datos de la muestra con el uso
del método de mínimos cuadrados. Como en el caso de
una sola variable independiente, el modelo de regresión
lineal múltiple a menudo puede ser una
representación adecuada de una estructura
más complicada dentro de ciertos rangos de las variables
independientes.
Técnicas de mínimos cuadrados similares
también se pueden aplicar al estimar los coeficientes
cuando el modelo lineal involucra, digamos, potencias y productos de
las variables independientes. Por ejemplo, cuando k = 1, el
experimentador puede pensar que las medias m Y|x1 no
caen en una línea recta pero que se describen de forma
más apropiada con el modelo de regresión
polinomial
m
Y|x = b 0 + b 1 x +b 2 x2+
……..+ b
r xr
y la respuesta estimada se obtiene de la ecuación
de regresión polinomial
En ocasiones surge confusión cuando hablamos de
un modelo polinomial como de un modelo lineal. Sin embargo, los
estadísticos por lo general se refieren a un modelo lineal
como uno en el cual los parámetros ocurren linealmente,
sin importar cómo entran las variables independientes al
modelo. Un ejemplo de un modelo no lineal es la relación
exponencial
m
Y|x = a b
x,
que se estima con la ecuación de
regresión
Existen muchos fenómenos en la ciencia y
en la ingeniería que son inherentemente no
lineales por naturaleza y, cuando se conoce la estructura real,
desde luego se debe hacer un intento para ajustar el modelo
presente. La literatura sobre
estimación por mínimos cuadrados de modelos no
lineales es voluminosa. El estudiante que quiera una buena
explicación de algunos aspectos de este tema debe
consultar Classical and Modern Regression with Applications de
Myers.
Estimación de los
coeficientes.
En esta sección obtenemos los estimadores de
mínimos cuadrados de los parámetros
b 0 +
b 0,
b
1,…., b k mediante el ajuste del modelo de
regresión lineal múltiple
m
Y|x1 , x2,……,
xk = b
0 + b
1×1+ b 2×2+ b
kxk
a los puntos de datos
i=
1,2,….,n y n >k },
donde yi es la respuesta observada para los
valores x1i, x2i,………, xki,
de las k variables independientes x1 ,
x2,……, xk .Cada observación
(x1i, x2i,……,xki,
yi) satisface la ecuación
yi = b 0 +
b
1x1i +b 2x2i
+….+ b
kxki +e i
o
yi = b0 +
b1x1i +b2x2i
+….+ bkxki
+ei,
donde e
i y ei son el error aleatorio y
residual, respectivamente, asociados con la respuesta
yi . Al utilizar el concepto de
mínimos cuadrados para llegar a las estimaciones
b0, b1,…, bk, minimizamos la
expresión
Al diferenciar SSE a su vez con respecto a
b0,b1, b2,……,bk,
e igualar a cero, generamos un conjunto de k + 1 ecuaciones
normales
Estas ecuaciones se pueden resolver para b0,
b1,b2, …, bk mediante
cualquier método apropiado para resolver sistemas de
ecuaciones lineales.
Ejemplo 1
Se realizó un estudio sobre un camión de
reparto ligero a diesel para ver si la humedad, temperatura
del aire y
presión
barométrica influyen en la emisión de óxido
nitroso (en ppm). Las mediciones de las emisiones se tomaron en
diferentes momentos, con condiciones experimentales variantes.
Los datos son los siguientes:
Óxido nitroso, | Humedad | Temperatura | Presión | Óxido nitroso | Humedad | Temperatura | Presión | |
0,90 | 72,4 | 76,3 | 29,18 | 1,07 | 23,2 | 76,8 | 29,38 | |
0,91 | 41,6 | 70,3 | 29,35 | 0,94 | 47,4 | 86,6 | 29,35 | |
0,96 | 34,3 | 77,1 | 29,24 | 1,10 | 31,5 | 76,9 | 29,63 | |
0,89 | 35,1 | 68,0 | 29,27 | 1,10 | 10,6 | 86,3 | 29,56 | |
1,00 | 10,7 | 79,0 | 29,78 | 1,10 | 11,2 | 86,0 | 29,48 | |
1,10 | 12,9 | 67,4 | 29,39 | 0,91 | 73,3 | 76,3 | 29,40 | |
1,15 | 8,3 | 66,8 | 29,69 | 0,87 | 75,4 | 77,9 | 29,28 | |
1,03 | 20,1 | 76,9 | 29,48 | 0,78 | 96,6 | 78,7 | 29,29 | |
0,77 | 72,2 | 77,7 | 29,09 | 0,82 | 107,4 | 86,8 | 29,03 | |
1,07 | 24,0 | 67,7 | 29,60 | 0,95 | 54,9 | 70,9 | 29,37 |
El modelo es:
m
Y|x1, x2, x3
= b 0
+ b 1
x1 + b
2 x2 +……..+
b 3
x3
Ajuste este modelo de regresión lineal
múltiple a los datos dados y después estime la
cantidad de óxido nitroso para las condiciones donde la
humedad es 50%, la temperatura 76°F y la presión
barométrica 29,30.
SOLUCIÓN
Para las ecuaciones normales encontramos que
La solución de este conjunto de ecuaciones da las
estimaciones únicas
b0 = -3.507778, b1= -0.002625,
b2= 0.000799, b3= 0.154155.
Por tanto, la ecuación de regresión
es
Para 50% de humedad, una temperatura de 76 °F y una
presión barométrica 29,30, la cantidad estimada de
óxido nitroso es
Regresión polinomial.
Suponga ahora que deseamos ajustar la ecuación
polinomial
m
Y|x = b 0 + b 1 x +b 2 x2+
……..+ b
r xr
a los n pares de observaciones {(xi,
yi); i = 1,2,…, n}. Cada observación,
yi satisface la ecuación
yi = b 0 +
b
1xi +b 2xi2+
……..+ b
r xi2+e i
o
yi = b0 +
b1xi
+b2xi2+ ……..+
br xir+ei
donde r es el grado del polinomio, y e i, y ei
son de nuevo el error aleatorio y residual asociados con la
respuesta yi. Aquí, el número de pares,
n, debe ser al menos tan grande como r + 1, el número de
parámetros a estimar. Nótese que el modelo
polinomial se puede considerar como un caso especial del modelo
de regresión lineal múltiple más general,
donde hacemos x1 = x, x2 = x2,
…, xr. = xr. Las ecuaciones normales
toman la forma:
que se resuelve como antes para b0,
b1,………., br
Ejemplo 2 Dados los datos
x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
y | 9,1 | 7,3 | 3,2 | 4,6 | 4,8 | 2,9 | 5,7 | 7,1 | 8,8 | 10,2 |
Ajustar una curva de regresión de la
forma
m Y|x
= b 0
+ b 1
x +b
2 x2 y después estime
m
Y|x
SOLUCIÓN:
De los datos dados, encontramos que
Al resolver las ecuaciones normales obtenemos
b0=8,697 ,
b1=-2,341, b2= 0,288
Por tanto:
Inferencias en la
regresión lineal múltiple.
Una de las inferencias más útiles que se
pueden hacer con respecto a la calidad de la
respuesta pronosticada y0 que corresponde a los
valores x10, x20,…., xk0, es
el intervalo de confianza sobre la respuesta media
m | x10,
x20,…., xk0 . Nos interesa construir un
intervalo de confianza sobre la respuesta media para el conjunto
de condiciones dado por
X’0 = [x10,
x20,…., xk0]
Aumentamos las condiciones sobre las x por el
número 1 a fin de facilitar el uso de la notación
matricial. Como en el caso k = 1 si hacemos la suposición
adicional de que los errores son independientes y se distribuyen
de forma normal, entonces las Bj son normales, con
media, varianzas y convarianzas.
también está normalmente distribuida y es,
de hecho, un estimador insesgado para la respuesta media sobre el
que intentamos unir los intervalos de confianza. La varianza de
escrita en
notación matricial simplemente como función de
,
(X'X)1, y el vector de condición
x’0, es
Si esta expresión se expande para un caso dado,
digamos k = 2, se ve fácilmente que explica de manera
apropiada las varianzas y covarianzas de las Bi.
Después de reemplazar por s2, el intervalo de
confianza de 100(1 — α)% sobre m | x10,
x20,…., xk0 . se puede construir a partir
de la estadística:
que tiene una distribución t con n — k
— 1 grados de libertad.
Intervalo de confianza para: m | | Un intervalo de confianza de (1 —
donde ta |
La cantidad a menudo se llama error estándar de predicción
y por lo general aparece en el impreso de muchos paquetes de
regresión para computadora.
Ejemplo 1
Con el uso de los datos del ejemplo 1 correspondiente al
"Modelo de regresión lineal con el uso de matrices",
construya un intervalo de confianza de 95% para la respuesta
media cuando x1 = 3%, x2 = 8%, y
x3 = 9%.
SOLUCIÓN
De la ecuación de regresión del ejemplo 1
correspondiente al "Modelo de regresión lineal con el uso
de matrices", el porcentaje estimado de sobrevivencia cuando
x1 = 3%, x2 = 8%, y x3 = 9%
es
A continuación encontramos que:
Con el uso del cuadrado medio del error, s2 =
4.298 o s = 2.073, y de la tabla A.4, vemos que t0.025
= 2.262 para 9 grados de libertad. Por tanto, un
intervalo de confianza de 95% para el porcentaje medio de
sobrevivencia para x1 = 3%, x2 = 8%, y
x3= 9% está dado por
o simplemente
.
Como en el caso de la regresión lineal simple,
necesitamos hacer una clara distinción entre el intervalo
de confianza de la respuesta media y el intervalo de
predicción sobre una respuesta observada. Esta
última proporciona un límite dentro del cual
podemos decir con un grado de certeza preestablecido que
caerá una nueva respuesta observada.
Un intervalo de predicción para una sola
respuesta pronosticada se establece de nuevo al considerar las diferencias
de la variable
aleatoria .
Se puede mostrar que la distribución muestral es
normal con media
y varianza
De esta manera el intervalo de predicción de (1
— α)100% para un solo valor de predicción
y0 se puede construir a partir de la
estadística
que tiene una distribución t con n – k
– 1 grados de libertad.
Intervalo de predicción para | Un intervalo de predicción de donde tα/2 |
Ejemplo 2
Con el uso de los datos del ejemplo 1 correspondiente a
el tema "Modelo de regresión lineal con el uso de
matrices" construya un intervalo de predicción de 95% para
una respuesta individual del porcentaje de sobrevivencia cuando
x1 = 3%, x2 = 8%, y x3 =
9%.
SOLUCIÓN:
Con referencia a los resultados del ejemplo 1 de esta
sección, encontramos que el intervalo de predicción
de 95% para la respuesta y0 cuando x1= 3%,
x2 = 8%, y x3 = 9% es
que se reduce a . Nótese, como se espera, que el intervalo de
predicción es considerablemente menos estrecho que el
intervalo de confianza para el porcentaje de sobrevivencia media
en el ejemplo 1.
Un conocimiento
de las distribuciones de los estimadores de los coeficientes
individuales permite al experimentador construir intervalos de
confianza para los coeficientes y probar hipótesis acerca de ellos.
De esta manera podemos utilizar la
estadística
con n — k — 1 grados de libertad para probar
las hipótesis y
construir intervalos de confianza sobre βj. Por
ejemplo, si deseamos probar:
calculamos la estadística:
y no rechazamos H0 si donde tiene n — k — 1 grados de
libertad.
Ejemplo 3
Para el modelo del ejemplo 1 correspondiente al "Modelo
de regresión lineal con el uso de matrices", pruebe la
hipótesis de que β2 = -2,5 en el nivel de
significancia 0.05 contra la alternativa de que
β2> -2,5.
SOLUCIÓN:
Cálculos:
Decisión : rechazar
H0 y concluir que
β2> -2,5
Existen varias razones para construir una
regresión lineal. Una, por supuesto, es predecir valores
de respuesta a uno o mas valores de la variable independiente. En
este aparte nos enfocamos en los errores asociados con la
predicción.
La ecuación ŷ= a +bx se puede usar para
predecir o estimar la respuesta media µyןxס en
x = xo no es necesariamente uno de los valores preseleccionados,
o se puede utilizar para predecir un solo valor ỵo de la
variable Yo cuando x = xo. Esperaríamos que el error de
predicción fuese mas alto en el caso de un solo valor
predicho en el caso donde se predice una media. Esto, entonces,
afectara el ancho de nuestros intervalos para valores que se
predicen.
Suponga que el experimentador desea construir un
intervalo de confianza para µyןxס. Utilizaremos
el estimador puntual Ŷo = A + Bxo para estimar
µyןxס. = a + b
c o se puede mostrar que la distribución
muestral de Ŷo es normal con media:
Y
varianza:
La ultima se sigue del hecho que Cov(Ŷ, B) = 0. De
esta forma el intervalo de confianza de (1 – a )100% sobre la respuesta media
µyןxס. Se puede construir a partir de la
estadística :
Que tiene una distribución t con n – 2
grados de libertad
Intervalo de confianza para
µyןxס.:
Hasta este punto hemos supuesto que la variable de
regresión independiente x es una variable física o
científica pero no una variable aleatoria. De hecho, en
este contexto , x a menudo se llama variable matemática, que, en el proceso de muestreo, se mide
con un error insignificante. En muchas aplicaciones de las
técnicas de regresión es mas realista suponer que X
y Y son variables aleatorias y que las mediciones {(Xi, Yi) ; i=
1, 2, …, n} son observaciones de una población que tiene
la función de densidad conjunta
f(x, y). Consideremos el problema de medir la relación
entre las dos variables X y Y. Por ejemplo, si X y Y representan
la longitud y circunferencia de una clase
particular de hueso en el cuerpo de un adulto, podemos realizar
un estudio antropológico para determinar si los valores
grandes de X se asocian con valores grandes de Y, y viceversa. El
análisis de correlación intenta medir la fuerza de
tales relaciones entre dos variables por medio de un solo numero
llamado coeficiente de correlación.
En
teoría a menudo se supone que la distribución
condicional f(y½ x) de Y, para valores fijos de X, es
normal con una media µyןx = a + b c
o y varianza
s ²yןx
= s ² y X
también se distribuye con normalmente con µx y
varianza s
²x. La densidad conjunta de X y Y es
entonces:
Donde X es ahora una variable aleatoria independiente
del error aleatorio E. Como la media del error aleatorio E es
cero, se sigue que:
Al sustituir para a y s
² en la expresión anterior para f( x, y),
obtenemos la distribución normal bivariada:
La constante r (rho) se llama coeficiente de
correlación poblacional y juega un papel importante en
muchos problemas de análisis de datos de dos variables. El
valor de r es 0
cuando b = 0 ,
que resulta cuando en esencia no hay una regresión lineal;
es decir, la línea de regresión es horizontal y
cualquier conocimiento de X no es de utilidad para
predecir Y. Como debemos tener s ²y ³ s
², y r
² £
1 por ello -1£ r
£ 1. Los valores
de r =
± 1 solo ocurren
cuando s ²
= 0, en cuyo caso tenemos una relación lineal perfecta
entre las dos variables. de esta manera un valor de
r igual a +1 implica
una relación lineal perfecta con una pendiente positiva,
mientras que un valor de r igual a –1 resulta de una
relación lineal perfecta con pendiente negativa. Se puede
decir entonces que las estimaciones muéstrales de
r cercanas a la unidad
en magnitud implican una buena correlación o una
asociación lineal entre X y Y, mientras que valores
cercanos a cero indican poca o ninguna
correlación.
Se debe
señalar que en estudios de correlación, como en
problemas de regresión lineal, los resultados que se
obtienen solo son tan buenos como el modelo que se supone. En las
técnicas de correlación que aquí se estudian
se supone una densidad normal bivariada para las variables X y Y,
con el valor medio de Y en cada valor x linealmente relacionado
con x. Para observar la conveniencia de la suposición de
linealidad, a menudo es útil una graficación
preliminar de los datos experimentales. Un valor del coeficiente
de correlación muestral cercano a cero resultara de datos
que muestren un efecto estrictamente aleatorio como se indica en
la figura a :
en donde se puede observar poca o ninguna
relación causal. Es importante recordar que el coeficiente
de correlación entre dos variables es una media de su
relación lineal, y que un valor de r* = 0 implica una falta de
linealidad y no una falta de asociación. Por ello, si
existe una fuerte relación cuadrática entre X y Y
como se indica en la figura b, podemos aun obtener una
correlación cero que indique una relación no
lineal.
*
formula del calculo de r
Casuso, Rafael L. "Cálculo de
probabilidades e inferencia
estadística", UCAB. Caracas. 1996.
Mendenhall, Schaeffer y Wackely. "Estadística
matemática con aplicaciones", Edit. Iberoamérica.
México.
1986.
Mendelhall, William y Sincich. "Probabilidad y
estadística para ingeniería y ciencias",
Edit. Prentice may. México. 1997.
Miller, Irwin y otros. "Probabilidad y estadísticas para ingenieros", Edit.
Prentice may. 4ta edición. México. 1992.
Ross, Sheldon. "Probabilidad y estadísticas para
ingeniería y ciencias", Edit. Mc Graw Hill. México.
2001.
Universidad Simón Bolívar ,
Por: Hernando Sánchez Santibáñez
http://www.usb.edu.co/facultades/administracion/publicaciones/regresion_correlacion.pdf
WALPOLE, Myers y Myers (1998), "Probabilidad y
Estadística para Ingenieros", Edit. Prentice Hall,
México.
Víctor José Mata.
Alexander Sánchez.
Caracas 27 de Mayo de 2004