Aula 15b2: Correlação- O problema de considerar a significância estatística
Equipe de autores: Alcinei Mistico Azevedo;
Karla Sabrina Magalhães Andrade Padilha;
Nermy Ribeiro Valadares;
Rafaela Pereira de Lima;
Sabrina Maihave Barbosa Ramos.
Aula 16a: Teste qui-quadrado (Teoria, contas e análise no R)
A seleção da análise estatística apropriada está intrinsecamente vinculada à natureza das variáveis envolvidas, a saber, as variáveis explicativas (X) e as variáveis dependentes - resposta (Y). O teste qui-quadrado emerge como a escolha preferencial quando ambas as variáveis, explicativas e de resposta, são de natureza qualitativa. Em diversas instâncias de pesquisa, particularmente quando os dados são coletados em termos de contagens, o teste qui-quadrado se configura como uma alternativa viável à análise de variância (ANOVA), eliminando a necessidade de cumprir as pressuposições associadas à ANOVA. Este teste adquire aplicabilidade em dois cenários distintos: primeiro, para avaliar a concordância com uma hipótese predefinida, e segundo, para investigar a independência entre duas variáveis, ou seja, para determinar se as variáveis qualitativas estão ou não correlacionadas.
Deve ser salientado que esse teste é fundamentalmente um procedimento de teste de hipóteses, cujo objetivo principal é quantificar a dispersão entre duas variáveis categóricas nominais e avaliar a presença de associação entre variáveis qualitativas. Sendo uma análise não paramétrica, o teste qui-quadrado não se apoia em parâmetros populacionais, como médias e variâncias, sendo que sua base fundamental reside na comparação de proporções, isto é, na identificação de discrepâncias potenciais entre as frequências observadas e as frequências esperadas para um evento específico.
Uma aplicação típica desse teste envolve a comparação das distribuições de diversos eventos em diferentes amostras, com o objetivo de determinar se as proporções observadas desses eventos exibem diferenças estatisticamente significativas ou se as amostras se distinguem substancialmente quanto às proporções desses eventos. Além disso, o teste qui-quadrado também é utilizado para investigar se a frequência de ocorrência de um evento particular em uma amostra desvia-se de maneira estatisticamente significativa da frequência esperada para o mesmo evento.
Abaixo verificamos o estimador do teste qui-quadrado:
Sendo que:
X² = Teste qui-quadrado
Fobs = Frequências observadas
Fesp = Frequências esperadas
OBS: A frequência não pode estar em porcentagem.
Teste de aderência
É utilizado para testar a natureza da distribuição amostral. Quando queremos verificar a boa ou má aderência dos dados da amostra a um determinado modelo. Tem como objetivo principal testar a adequabilidade de um modelo probabilístico a um conjunto de dados observados. Existem vários tipos de testes de aderência, aos quais comparam a distribuição teórica com a distribuição empírica dos dados e geram uma estatística de teste que é comparada com um valor crítico para determinar se a hipótese nula deve ser rejeitada ou não. É importante ressaltar que o teste de aderência não garante que a amostra de dados segue a distribuição normal em questão, apenas indica se há evidências suficientes para rejeitar a hipótese nula de que a amostra não segue a distribuição normal. Além disso, é necessário ter cuidado ao interpretar os resultados do teste, pois a rejeição da hipótese nula pode ser devida a um tamanho de amostra insuficiente, erros de medição ou outros fatores que podem afetar a distribuição empírica dos dados.
Podemos citar vários testes de aderência que podem ser utilizados, como:
Teste de Kolmogorov-Smirnov (KS): Compara a função de distribuição empírica dos dados com a função de distribuição cumulativa teórica e gera uma estatística de teste baseada na maior diferença entre as duas funções.
Teste de Anderson-Darling (AD): Compara a função de distribuição empírica dos dados com a função de distribuição cumulativa teórica, mas dá mais peso às caudas da distribuição, o que o torna mais sensível a desvios nessas regiões.
Teste de Shapiro-Wilk: Utilizado para avaliar se os dados seguem uma distribuição normal. Ele compara a distribuição empírica com a distribuição normal teórica e gera uma estatística de teste baseada na covariância entre os valores ordenados dos dados e os valores esperados de uma distribuição normal.
Teste de independência
Utilizado para avaliar se duas variáveis são independentes ou se há uma associação entre elas. É comumente utilizado em pesquisas e análises de dados para explorar a relação entre duas variáveis categóricas. Para realizar este teste, é necessário criar uma tabela de contingência que apresente as frequências observadas para cada combinação das duas variáveis. A partir dessa tabela, é possível calcular uma medida de associação, como o coeficiente de contingência ou o coeficiente de correlação. Posteriormente a criação da tabela de contingência, compara-se essa medida de associação com um valor crítico para determinar se a hipótese nula de que as variáveis são independentes deve ser rejeitada ou não. Se a medida de associação for maior que o valor crítico, então conclui-se que as variáveis estão associadas e a hipótese nula é rejeitada. O teste de independência indica se há uma associação estatisticamente significativa entre estas variáveis. Vários testes de independência podem ser utilizados para avaliar se duas variáveis são independentes ou se há uma associação entre elas. Dentre eles podemos citar:
Teste de Fisher: Utilizado para avaliar a associação entre duas variáveis categóricas em amostras pequenas. Ele é baseado na distribuição exata da estatística de teste e leva em consideração todas as possíveis tabelas de contingência para as duas variáveis.
Teste de correlação de Spearman: Utilizado para avaliar a associação entre duas variáveis quantitativas ordinais ou categóricas. Ele mede a correlação entre as classificações das duas variáveis e gera uma estatística de teste baseada nessa correlação.
Teste de correlação de Pearson: Utilizado para avaliar a associação entre duas variáveis quantitativas contínuas. Ele mede a correlação linear entre as duas variáveis e gera uma estatística de teste baseada nessa correlação.