Aula 15a: Análise de regressão - Introdução
Equipe de autores: Alcinei Mistico Azevedo;
Karla Sabrina Magalhães Andrade Padilha;
Nermy Ribeiro Valadares;
Rafaela Pereira de Lima;
Sabrina Maihave Barbosa Ramos.
Aula 15a: Análise de regressão - Introdução
A análise de regressão é uma técnica que permite determinar, a partir de estimativas de parâmetros, como uma variável independente (tratamento) exerce influência sobre uma variável dependente (variável resposta). A análise de regressão é utilizada sempre que ambas as variáveis são quantitativas e dessa forma é possível construir um gráfico de dispersão em que no eixo x têm-se os tratamentos e no eixo y a variável resposta. Suponha que o gráfico a seguir (Figura 1) representa a produtividade da cultura da soja em função de diferentes doses de nitrogênio.
A análise de regressão permite a determinação de uma curva que, nesse caso, é capaz de modelar a produtividade da soja em função de diferentes doses de nitrogênio. Para isso, a curva de regressão, que seria a reta tracejada na figura 1 deve estar a uma altura e inclinação que faça com que seu desvio em relação aos pontos de dispersão seja o menor possível. A altura da reta depende do valor de coeficiente que chamamos de intercepto (a), e sua inclinação com o coeficiente angular da reta (b). Desta forma, estimando-se os valores de “a” e de “b” é possível estimar a produtividade (y) por meio das doses de nitrogênio (x) a partir do seguinte modelo: yi=a+bxi+ei. Em que:yi é o valor observado no indivíduo i; a é o intercepto; b é ocoeficiente angular da reta; xi e a dose utilizada no indivíduo i; e, ei é o erro experimental no indivíduo i. Denominamos esse modelo como regressão linear, ou regressão polinomial de primeiro grau.
Neste modelo de regressão, os coeficientes têm interpretação biológica. O intercepto indica o valor que teremos em nossa variável resposta (produtividade) caso a variável explicativa (dose) tenha valor igual a zero. Já o coeficiente angular da reta indica uma taxa de acréscimo (b>0) ou decréscimo (b<0). Em outras palavras indica quantas unidades da variável resposta (produtividade) vai aumentar ou diminuir com o acréscimo de uma unidade da variável explicativa (dose).
Neste caso quando se tem uma única variável explicativa, dizemos que a regressão é simples. Por outro lado, se houvesse mais de dois fatores sendo estudados simultaneamente, como doses de nitrogênio e potássio, por exemplo, teríamos uma regressão múltipla. Estudaremos sobre regressão múltipla em capítulos posteriores. É importante acrescentar que existe vários modelos de regressão simples além da regressão linear (Figura 2a), como a regressão quadrática, também conhecida como regressão polinomial de segundo grau (yi=a+bxi+cxi²+ei) e a regressão cúbica, como a regressão polinomial de terceiro grau (yi=a+bxi+cxi²+dxi²+ei).
1.1. Estimação de coeficientes de regressão pelo método dos quadrados mínimos
Ao tratar da análise de regressão de um modelo linear uma das formas de estimar os coeficientes é através do método dos quadrados mínimos. Para o melhor entendimento, veja a figura 1. Como já dizemos, neste exemplo de regressão linear, nosso objetivo é estimar um intercepto e um coeficiente angular da reta que fará com que os desvios dos pontos de dispersão e a curva seja o menor possível. Estes desvios (erros) podem ser obtidos por: ei = yi-a-bxi. Se quisermos obter uma medida que represente os erros de todas as observações poderíamos fazer a soma de todos esses erros:
Porém, pode-se observar pelo gráfico que existem desvios positivos e negativos para o erro e se somados resultarão em um valor nulo. Portanto uma opção viável seria elevar os valores do erro ao quadrado para depois somá-los, evitando a obtenção de um valor nulo:
Dessa forma, é possível chegar ao seguinte estimador:
Desenvolvendo mais equação temos:
Esta estimativa () nos retorna a soma dos quadrados do desvio ou soma dos quadrados do resíduo, encontrada também na análise de variância. Como o objetivo é estimar valores para a e b de forma que esta soma dos quadrados seja a menor possível (ponto de mínimo), pode-se realizar a derivada em função de cada um dos coeficientes, possibilitando estimá-los. Começando pela derivada do modelo em função de a:
Derivando o modelo em função de b, temos:
Portanto, através desses estimadores será possível determinar os coeficientes de regressão. Chamamos essa metodologia de método dos quadrados mínimos ordinários.