Aula 15b1: Erros frequentes na interpretação da correlação de Pearson.
Equipe de autores: Alcinei Mistico Azevedo;
Karla Sabrina Magalhães Andrade Padilha;
Nermy Ribeiro Valadares;
Rafaela Pereira de Lima;
Sabrina Maihave Barbosa Ramos.
Aula 15b1: Erros frequentes na interpretação da correlação de Pearson.
Existem alguns erros frequentes na análise de um conjunto de dados e na interpretação do coeficiente de correlação de Pearson que podem levar a conclusões equivocadas.
Confundir correlação com causalidade: alta correlação não é indicativo de causa e efeito, ou seja, que uma variável se comporta de determinado modo em função da ação da outra. Deve-se considerar a influência de outras variáveis no fenômeno avaliado.
Ignorar a possibilidade de uma relação não linear: o valor de r de Pearson próximo de zero não significa que não há associação entre as variáveis, mas sim que não há correlação linear, podendo ser de outra natureza.
Considerar apenas a significância estatística da correlação: Elevado tamanho amostral pode levar a estimativas de correlação equivocadas, uma vez que mesmo as muito pequenas são estatisticamente significativas. Embora a significância estatística seja importante, ela não é suficiente para determinar a relevância prática da correlação. Isso porque a significância está relacionada com o número de graus de liberdade. À medida que se eleva o número de graus de liberdade eleva-se também a probabilidade de haver significância estatística mesmo para valores de correlação bem pequenos. Para contornar esse problema, além de considerar a significância considerar a magnitude. Ademais, muitas literaturas indicam considerar correlações acima de 0,77, que resultam em coeficiente de determinação que ajude a explicar ao menos 50 % da variação de y em função de x.
Normalidade dos dados: O coeficiente de correlação de Pearson assume que os dados seguem uma distribuição normal. A presença de outliers pode superestimar ou subestimar a correlação.
Homogeneidade da variância: O coeficiente de correlação de Pearson também assume que a variância das duas variáveis é homogênea. Se a variância não for homogênea, o coeficiente de correlação de Pearson pode não ser uma medida adequada.