O QUE É COEFICIENTE DE CORRELAÇÃO E ASSOCIAÇÃO?

A correlação é um indicador para medir o comportamento conjunto de variáveis aleatórias.

O que é correlação?

Uma fórmula matemática que tenta medir o comportamento de uma variável aleatória em relação ao comportamento de outra. Por exemplo, é razoável pensar que existe uma relação entre o peso de uma pessoa e a altura, certo? 


A correlação é a fórmula matemática criada para medir o quão forte é essa relação e também se ela é positiva ou negativa, isto é, se a correlação é significativa, quando a altura aumenta nós devemos esperar um aumento do peso ou uma queda?



Vamos ver alguns dos principais coeficientes de correlação:


  • Coeficiente de correlação de Pearson (ou ρ de spearman)



O coeficiente de Pearson é um teste que utiliza a média e o desvio padrão das variáveis aleatória para quantificar a relação entre elas, é por isso que chamamos de teste paramétrico, isto é, quanto menor a amostra menos poder tem o coeficiente. 


Além disso, tem como suposição que a relação das variáveis é linear, se houver qualquer outro tipo de relação o coeficiente de Pearson não será eficiente.


Devido a estas características, é indicado para amostras razoavelmente grandes onde a relação das variáveis é linear, como a média e o desvio padrão são sensíveis a outliers, também é um estimador sensível a outliers.



  • Coeficiente de correlação de Spearman


O coeficiente de Spearman é um teste um pouco diferente, ele os postos das variáveis aleatórias ao invés de média e desvio padrão, por isso chamamos de coeficiente não paramétrico. O objetivo é o mesmo que o coeficiente de Pearson, quantificar a relação entre as variáveis.


Por não utilizar parâmetros, não é sensível a outliers e é eficiente em amostras pequenas, por isso é indicado para pequenas amostras ou quando acredita-se que a relação entre as variáveis aleatórias não é linear.

Como interpretar a correlação?


Os resultados dos dois coeficientes estarão sempre entre -1 e 1, isto é, o valor máximo do coeficiente de Pearson e do coeficiente de Spearman é 1 e o valor mínimo é -1.


Além disso, os dois coeficientes podem ser interpretados da mesma forma, quando o valor é maior que 0, dizemos que a correlação das variáveis é positiva, isto é, quando uma variável aumenta a outra também aumenta. 


Quando o valor dos coeficientes é menor que 0, dizemos que a correlação das variáveis é negativa, isto é, quando os valores de uma variável aumentam os valores da outra variável diminui.


Além disso, quanto mais próximo dos limites (-1 e 1), dizemos que a relação é mais forte ou mais fraca, não existe uma regra baseada em nenhum teste, mas convencionalmente podemos dizer que:



Muito Fraca

Entre -0,2 e 0,2

Fraca

0,21 a 0,4 ou -0,2 a -0,4

Moderada

0,41 a 0,6 ou -0,41 a -0,6

Forte

0,61 a 0,8 ou -0,61 a -0,8

Muito forte

De 0,81 a 1 ou -0,81 a -1


Como calcular a associação entre variáveis categóricas?

Existem várias maneiras de medir a associação entre variáveis ​​categóricas, também conhecidas como variáveis ​​nominais. Uma maneira é usar o teste qui-quadrado de Pearson, que é um teste estatístico que pode ser usado para determinar se existe uma associação significativa entre duas variáveis ​​categóricas.


O teste qui-quadrado calcula a diferença entre as frequências esperadas e as frequências observadas em uma tabela de contingência, e a estatística qui-quadrada resultante pode ser usada para determinar a força da associação entre as duas variáveis.


Outra forma de medir a correlação entre variáveis ​​categóricas é usar o coeficiente Phi, que é semelhante ao coeficiente de correlação de Pearson, mas é projetado especificamente para uso com variáveis ​​categóricas. O coeficiente Phi varia de -1 a 1, e pode ser interpretado da mesma forma que o coeficiente de correlação de Pearson.


Você também pode usar outras medidas de associação, como o coeficiente V de Cramer, que é semelhante ao coeficiente Phi, mas é ajustado para o número de categorias nas variáveis.


É importante observar que esses métodos são apropriados apenas para variáveis ​​categóricas e não podem ser usados ​​para medir a correlação entre variáveis ​​contínuas.

Correlação e Causalidade

É bom lembrar que correlação não implica causalidade, isto é, uma variável ter correlação forte com outra não significa que a alteração em uma causa alteração em outra. A correlação é apenas um indicador da força e direção do relacionamento das duas variáveis, mas não consegue deixar claro os motivos desse relacionamento.


Quando existe uma correlação forte ou muito forte entre as variáveis e claramente elas não tem nenhuma relação devido a natureza das mesmas, chamamos de correlação espúria.


Uma correlação espúria, também conhecida como correlação falsa ou correlação acidental, é uma correlação que parece existir entre duas variáveis, mas na realidade não existe


Correlações espúrias podem ocorrer quando há uma terceira variável que está causando a aparente relação entre as duas variáveis. Por exemplo, se você plotar o número de vendas de sorvete em relação ao número de afogamentos em uma praia, poderá encontrar uma forte correlação positiva entre os dois


No entanto, essa correlação não é real e é simplesmente o resultado de uma terceira variável - o clima. Quando o tempo está quente e ensolarado, as pessoas ficam mais propensas a comprar sorvete e ir à praia e, portanto, há mais afogamentos.


Nesse caso, o clima é a verdadeira causa da relação entre vendas de sorvete e afogamentos, e a correlação entre os dois é espúria.


Alguns exemplos de correlação espúria:


  1. Há uma correlação 0,99 entre a redução no consumo de margarina por pessoa e a diminuição de divórcios para cada mil pessoas no Estado do Maine (EUA).

  2. A correlação entre o número de norte-americanos que se afogam (por ano) ao caírem de barco quando pescavam e a taxa de casamentos em Kentucky (EUA) é de 0,95.

  3. A correlação entre o consumo de queijo per capita e o número de pessoas mortas enroladas em lençóis é de 0,95 nos EUA.

Comentários