Aula 5: Análise de variância e teste F

Aula 5: Análise de variância e teste F

Equipe de autores: Alcinei Mistico Azevedo; 

 Karla Sabrina Magalhães Andrade Padilha; 

Rafaela Pereira de Lima; 

Sabrina Maihave Barbosa Ramos.

     A análise de variância (ANAVA) é um teste estatístico utilizado para a avaliação de experimentos, sendo um dos métodos de maior popularidade e utilidade na pesquisa científica. Essa análise foi desenvolvida por Ronald Fisher e destaca-se por ser um procedimento aritmético simples, por meio do qual os resultados podem ser dispostos e apresentados em uma única tabela compacta, que mostra tanto a estrutura do experimento quanto os resultados relevantes, de forma a facilitar os testes de hipóteses.

    A análise de variância tem como principal objetivo a obtenção de uma variância (quadrado médio) associada a cada uma das fontes de variação. Em outras palavras, a metodologia decompõe a variação total dos dados experimentais em uma “parte conhecida”, que é aquela cujo os efeitos são controlados pelo pesquisador (Ex.: tratamentos e o controle local) e outra parte desconhecida, chamada resíduo ou erro experimental que não pode ser controlada. Para cada delineamento experimental as fontes de variação que constituem as linhas da tabela da análise de variância são diferentes. Para o DIC têm-se as fontes de variação “Tratamentos”, “Resíduo” e “Total”. Para o DBC tem as fontes de variação “Tratamentos”, “Blocos”, “Resíduo” e “Total”. Já para o DQL as fontes de variação “Tratamentos”, “Linhas”, “Colunas”, “Resíduo” e “Total”. Embora as linhas da tabela da ANOVA sejam diferentes dependendo do delineamento, as colunas são as mesmas, contendo os “Graus de liberdade” (GL), “Somas de quadrado” (SQ), “quadrado médio” (QM) e “F calculado” (F).

A soma de quadrados, também chamada de soma de quadrado dos desvios é uma medida de variação. Já o grau de liberdade é um denominador utilizado para transformar uma soma de quadrados em uma variância (QM) não viesada.

Assim, é possível estimar a variância associada à fonte de variação “Tratamentos” e ao “Resíduo”. Quanto maior for a estimativa da variância associada aos tratamentos (QMtratamento) mais diferentes são os tratamentos. Já o quadrado médio do resíduo representa a variação que não é controlada pelo pesquisador, como variações aleatórias de umidade, fertilidade, luminosidade, vento, ataque de insetos, pragas, etc. Portanto, se o QMtratamento for muito próximo ao QMresíduo, pode-se dizer que a diferença entre os tratamentos se deve a obra do acaso (Figura 1A). Por outro lado, se o QMtratamento for muito maior que o QMresíduo, as diferenças entre os tratamentos não se devem a obra do acaso, ou seja, os tratamentos são mesmo diferentes (Figura 1B).


Para chegar na conclusão se o quadrado médio do tratamento é estatisticamente maior que o do resíduo, pode-se recorrer ao teste F. O teste F é uma metodologia para verificar se duas variâncias são iguais ou diferentes. Para isso, obtêm-se o valor de “F calculado”, que nada mais é que a razão entro o quadrado médio do tratamento e do resíduo: Neste caso, se as duas variâncias forem próximas teremos uma estimativa de F próximo de 1. Já se o quadrado médio do tratamento foi muito maior que a do resíduo teremos um valor de F muito maior que 1.

Neste teste de podemos assumir as seguintes hipóteses:

·   Hipótese nula (Ho): Não há diferença entre as médias dos tratamentos (A diferença entre as médias dos tratamentos deve-se ao acaso).

·   Hipótese alternativa (Ha): Pelo menos a média de um dos tratamentos se diferem dos demais (A diferença entre as médias dos tratamentos se devem ao acaso).

Para saber se o valor de F é alto o suficiente para considerarmos os tratamentos como diferentes estatisticamente (ou seja, o quadrado médio dos tratamentos diferente dos quadrados médios dos resíduos), devemos considerar a distribuição de probabilidade da distribuição F.

O “Erro do tipo I” refere-se à rejeição da hipótese nula quando ela é verdadeira (Tabela 1). Ou seja, a conclusão de que os tratamentos são diferentes em uma situação onde não é. Este é o erro mais perigoso, pois caso ocorra pode levar a mudança de todo um sistema produtivo desnecessariamente, levando a prejuízos financeiros. Logo, nas pesquisas definimos um nível de significância (α) que se refere a probabilidade máxima que nós nos submetemos a cometer o erro do tipo I. Essa probabilidade geralmente é adotada como sendo 5%. Níveis de significância menores podem ser utilizados em uma pesquisa, sendo indicado para experimentos de alta precisão. Porém, embora não seja complementar, o erro do tipo II pode aumentar com a redução no nível de significância.



Lista de exercícios

1) Qual é o objetivo da análise de variância (ANAVA)?

2)  Defina o que é o F calculado e o objetivo do teste F.

3) Diga quando se rejeita ou não a hipótese nula considerando o valor de F calculado e de F tabelado.