Aula 15a: Análise de regressão - Introdução

Equipe de autores: Alcinei Mistico Azevedo; 

 Karla Sabrina Magalhães Andrade Padilha; 

Nermy Ribeiro Valadares;

Rafaela Pereira de Lima; 

Sabrina Maihave Barbosa Ramos.



Aula 15a: Análise de regressão - Introdução

A análise de regressão é uma técnica que permite determinar, a partir de estimativas de parâmetros, como uma variável independente (tratamento) exerce influência sobre uma variável dependente (variável resposta). A análise de regressão é utilizada sempre que ambas as variáveis são quantitativas e dessa forma é possível construir um gráfico de dispersão em que no eixo x têm-se os tratamentos e no eixo y a variável resposta. Suponha que o gráfico a seguir (Figura 1) representa a produtividade da cultura da soja em função de diferentes doses de nitrogênio. 

A análise de regressão permite a determinação de uma curva que, nesse caso, é capaz de modelar a produtividade da soja em função de diferentes doses de nitrogênio. Para isso, a curva de regressão, que seria a reta tracejada na figura 1 deve estar a uma altura e inclinação que faça com que seu desvio em relação aos pontos de dispersão seja o menor possível.  A altura da reta depende do valor de coeficiente que chamamos de intercepto (a), e sua inclinação com o coeficiente angular da reta (b). Desta forma, estimando-se os valores de “a” e de “b” é possível estimar a produtividade (y) por meio das doses de nitrogênio (x) a partir do seguinte modelo: yi=a+bxi+ei. Em que:yi é o valor observado no indivíduo i; a é o intercepto; b é ocoeficiente angular da reta; xi e a dose utilizada no indivíduo i; e, ei é o erro experimental no indivíduo i. Denominamos esse modelo como regressão linear, ou regressão polinomial de primeiro grau.

Neste modelo de regressão, os coeficientes têm interpretação biológica. O intercepto indica o valor que teremos em nossa variável resposta (produtividade) caso a variável explicativa (dose) tenha valor igual a zero. Já o coeficiente angular da reta indica uma taxa de acréscimo (b>0) ou decréscimo (b<0). Em outras palavras indica quantas unidades da variável resposta (produtividade) vai aumentar ou diminuir com o acréscimo de uma unidade da variável explicativa (dose).

Neste caso quando se tem uma única variável explicativa, dizemos que a regressão é simples. Por outro lado, se houvesse mais de dois fatores sendo estudados simultaneamente, como doses de nitrogênio e potássio, por exemplo, teríamos uma regressão múltipla. Estudaremos sobre regressão múltipla em capítulos posteriores. É importante acrescentar que existe vários modelos de regressão simples além da regressão linear (Figura 2a), como a regressão quadrática, também conhecida como regressão polinomial de segundo grau (yi=a+bxi+cxi²+ei) e a regressão cúbica, como a regressão polinomial de terceiro grau (yi=a+bxi+cxi²+dxi²+ei).

 

1.1.   Estimação de coeficientes de regressão pelo método dos quadrados mínimos

Ao tratar da análise de regressão de um modelo linear uma das formas de estimar os coeficientes é através do método dos quadrados mínimos. Para o melhor entendimento, veja a figura 1. Como já dizemos, neste exemplo de regressão linear, nosso objetivo é estimar um intercepto e um coeficiente angular da reta que fará com que os desvios dos pontos de dispersão e a curva seja o menor possível. Estes desvios (erros) podem ser obtidos por: ei = yi-a-bxi. Se quisermos obter uma medida que represente os erros de todas as observações poderíamos fazer a soma de todos esses erros:

 Porém, pode-se observar pelo gráfico que existem desvios positivos e negativos para o erro e se somados resultarão em um valor nulo. Portanto uma opção viável seria elevar os valores do erro ao quadrado para depois somá-los, evitando a obtenção de um valor nulo:

Dessa forma, é possível chegar ao seguinte estimador:

Desenvolvendo mais equação temos:

Esta estimativa () nos retorna a soma dos quadrados do desvio ou soma dos quadrados do resíduo, encontrada também na análise de variância. Como o objetivo é estimar valores para a e b de forma que esta soma dos quadrados seja a menor possível (ponto de mínimo), pode-se realizar a derivada em função de cada um dos coeficientes, possibilitando estimá-los. Começando pela derivada do modelo em função de a:

Derivando o modelo em função de b, temos:

Portanto, através desses estimadores será possível determinar os coeficientes de regressão. Chamamos essa metodologia de método dos quadrados mínimos ordinários.