A correlação é um indicador para medir o comportamento conjunto de variáveis aleatórias.
O que é correlação?
Uma fórmula matemática que tenta medir o comportamento de uma variável aleatória em relação ao comportamento de outra. Por exemplo, é razoável pensar que existe uma relação entre o peso de uma pessoa e a altura, certo?
A correlação é a fórmula matemática criada para medir o quão forte é essa relação e também se ela é positiva ou negativa, isto é, se a correlação é significativa, quando a altura aumenta nós devemos esperar um aumento do peso ou uma queda?
Vamos ver alguns dos principais coeficientes de correlação:
Coeficiente de correlação de Pearson (ou ρ de spearman)
O coeficiente de Pearson é um teste que utiliza a média e o desvio padrão das variáveis aleatória para quantificar a relação entre elas, é por isso que chamamos de teste paramétrico, isto é, quanto menor a amostra menos poder tem o coeficiente.
Além disso, tem como suposição que a relação das variáveis é linear, se houver qualquer outro tipo de relação o coeficiente de Pearson não será eficiente.
Devido a estas características, é indicado para amostras razoavelmente grandes onde a relação das variáveis é linear, como a média e o desvio padrão são sensíveis a outliers, também é um estimador sensível a outliers.
Coeficiente de correlação de Spearman
O coeficiente de Spearman é um teste um pouco diferente, ele os postos das variáveis aleatórias ao invés de média e desvio padrão, por isso chamamos de coeficiente não paramétrico. O objetivo é o mesmo que o coeficiente de Pearson, quantificar a relação entre as variáveis.
Por não utilizar parâmetros, não é sensível a outliers e é eficiente em amostras pequenas, por isso é indicado para pequenas amostras ou quando acredita-se que a relação entre as variáveis aleatórias não é linear.
Como interpretar a correlação?
Os resultados dos dois coeficientes estarão sempre entre -1 e 1, isto é, o valor máximo do coeficiente de Pearson e do coeficiente de Spearman é 1 e o valor mínimo é -1.
Além disso, os dois coeficientes podem ser interpretados da mesma forma, quando o valor é maior que 0, dizemos que a correlação das variáveis é positiva, isto é, quando uma variável aumenta a outra também aumenta.
Quando o valor dos coeficientes é menor que 0, dizemos que a correlação das variáveis é negativa, isto é, quando os valores de uma variável aumentam os valores da outra variável diminui.
Além disso, quanto mais próximo dos limites (-1 e 1), dizemos que a relação é mais forte ou mais fraca, não existe uma regra baseada em nenhum teste, mas convencionalmente podemos dizer que:
Como calcular a associação entre variáveis categóricas?
Existem várias maneiras de medir a associação entre variáveis categóricas, também conhecidas como variáveis nominais. Uma maneira é usar o teste qui-quadrado de Pearson, que é um teste estatístico que pode ser usado para determinar se existe uma associação significativa entre duas variáveis categóricas.
O teste qui-quadrado calcula a diferença entre as frequências esperadas e as frequências observadas em uma tabela de contingência, e a estatística qui-quadrada resultante pode ser usada para determinar a força da associação entre as duas variáveis.
Outra forma de medir a correlação entre variáveis categóricas é usar o coeficiente Phi, que é semelhante ao coeficiente de correlação de Pearson, mas é projetado especificamente para uso com variáveis categóricas. O coeficiente Phi varia de -1 a 1, e pode ser interpretado da mesma forma que o coeficiente de correlação de Pearson.
Você também pode usar outras medidas de associação, como o coeficiente V de Cramer, que é semelhante ao coeficiente Phi, mas é ajustado para o número de categorias nas variáveis.
É importante observar que esses métodos são apropriados apenas para variáveis categóricas e não podem ser usados para medir a correlação entre variáveis contínuas.
Correlação e Causalidade
É bom lembrar que correlação não implica causalidade, isto é, uma variável ter correlação forte com outra não significa que a alteração em uma causa alteração em outra. A correlação é apenas um indicador da força e direção do relacionamento das duas variáveis, mas não consegue deixar claro os motivos desse relacionamento.
Quando existe uma correlação forte ou muito forte entre as variáveis e claramente elas não tem nenhuma relação devido a natureza das mesmas, chamamos de correlação espúria.
Uma correlação espúria, também conhecida como correlação falsa ou correlação acidental, é uma correlação que parece existir entre duas variáveis, mas na realidade não existe.
Correlações espúrias podem ocorrer quando há uma terceira variável que está causando a aparente relação entre as duas variáveis. Por exemplo, se você plotar o número de vendas de sorvete em relação ao número de afogamentos em uma praia, poderá encontrar uma forte correlação positiva entre os dois.
No entanto, essa correlação não é real e é simplesmente o resultado de uma terceira variável - o clima. Quando o tempo está quente e ensolarado, as pessoas ficam mais propensas a comprar sorvete e ir à praia e, portanto, há mais afogamentos.
Nesse caso, o clima é a verdadeira causa da relação entre vendas de sorvete e afogamentos, e a correlação entre os dois é espúria.
Alguns exemplos de correlação espúria:
Há uma correlação 0,99 entre a redução no consumo de margarina por pessoa e a diminuição de divórcios para cada mil pessoas no Estado do Maine (EUA).
A correlação entre o número de norte-americanos que se afogam (por ano) ao caírem de barco quando pescavam e a taxa de casamentos em Kentucky (EUA) é de 0,95.
A correlação entre o consumo de queijo per capita e o número de pessoas mortas enroladas em lençóis é de 0,95 nos EUA.
Há uma correlação 0,99 entre a redução no consumo de margarina por pessoa e a diminuição de divórcios para cada mil pessoas no Estado do Maine (EUA).
A correlação entre o número de norte-americanos que se afogam (por ano) ao caírem de barco quando pescavam e a taxa de casamentos em Kentucky (EUA) é de 0,95.
A correlação entre o consumo de queijo per capita e o número de pessoas mortas enroladas em lençóis é de 0,95 nos EUA.
Comentários
Postar um comentário