Análise de regressão e correlação
Quando se consideram observações de 2 ou mais variáveis surge um ponto novo: “O estudo das relações porventura existentes entre as variáveis.”
A análise de regressão e correlação compreendem a análise de dados amostrais para saber se e como um certo conjunto de variáveis está relacionado com outra variável.
Análise de regressão: estuda o relacionamento entre uma variável chamada a variável dependente e outras variáveis chamadas variáveis independentes. Este relacionamento é representado por um modelo matemático , isto é, por uma equação que associa a variável dependente com as variáveis independentes. Este modelo é designado por modelo de regressão linear simples se define uma relação linear entre …exibir mais conteúdo…
Por análise do Diagrama de Dispersão pode-se também concluir (empiricamente) se o grau de relacionamento linear entre as variáveis é forte ou fraco, conforme o modo como se situam os pontos em redor de uma recta imaginária que passa através do enxame de pontos. A correlação é tanto maior quanto mais os pontos se concentram, com pequenos desvios, em relação a essa recta. A partir dos dados disponíveis estimamos β0 e β1 e substituímos estes parâmetros teóricos pelas suas estimativas b0 e b1 para obter a equação de regressão estimada:
5
ˆ ˆ y = µ Y / x = b 0 + b1x
Esta equação estima o valor médio de Y para um dado valor x de X, mas é usada para estimar o próprio valor de Y. De facto, o senso comum diz-nos que uma escolha razoável para predizer o valor de Y para um
ˆ dado x de X, é o valor médio estimado µ Y / x . Por exemplo, se
quiséssemos predizer a temperatura da água do mar a uma profundidade de 1000 metros uma escolha lógica é a temperatura média a esta profundidade:
ˆ ˆ y = µ Y / x =1000 = b 0 + b1 × 1000
Estimação pelo método dos mínimos quadrados
Cada par (xi,yi) satisfaz a y i = b 0 + b1x i + d i
onde ˆ d i = y i − y i = y i − (b 0 + b1x i ) é o i-ésimo resíduo, isto é, a distância vertical do ponto (xi,yi) à recta de regressão estimada. Este método consiste em escolher b0 e b1 de modo a minimizar a soma dos quadrados dos resíduos di. Desta forma estamos
6
essencialmente a escolher a recta que se aproxima o mais