A regressão linear é uma abordagem estatística para modelar a conexão entre uma ou mais variáveis independentes e uma variável dependente. Um modelo de regressão linear básico é aquele que leva em conta apenas uma variável independente.
Um modelo básico de regressão linear implica que a conexão entre a variável dependente e a variável independente é linear, o que indica que as mudanças na variável independente estão linearmente relacionadas às mudanças na variável dependente.
O objetivo da regressão linear é descobrir a equação da reta que melhor se ajusta aos dados, ou a reta que minimiza a diferença entre os valores previstos e reais da variável dependente.
Um modelo de regressão linear simples tem a equação Y = B0 + B1*X, onde Y é a variável dependente, X é a variável independente, B0 é a interceptação da linha (o valor de Y quando X=0) e B1 é o efeito da variável X na variável Y, esse coeficiente que determina a inclinação da reta (a mudança esperada em Y para uma mudança de unidade em X).
Os valores de B0 e B1 são estimados a partir dos dados usando a abordagem dos mínimos quadrados, que minimiza a soma das diferenças quadradas entre os valores antecipados e reais.
A regressão linear também pode ser expandida para modelos de regressão linear múltipla que levam em conta mais de uma variável independente, bem como modelos de regressão não linear que levam em conta correlações não lineares entre variáveis.
Porque a regressão linear é importante?
Os modelos de regressão linear são relativamente simples e fornecem uma fórmula matemática fácil de interpretar para gerar previsões. É uma técnica estatística estabelecida e se aplica facilmente em softwares e à computação.
Veja 5 formas de utilizar essa ferramenta para entender melhor seus dados e tomar decisões:
Predição
Modelos de regressão linear podem ser usados para prever o valor da variável dependente dado o valor da variável independente. Isso pode ser usado para diversos fins, incluindo projeção de vendas, previsão de preços de ações e avaliação do impacto de um esforço de marketing.
Análise de relação
Os modelos de regressão linear são úteis para examinar a conexão entre as variáveis dependentes e independentes. Isso pode ajudar na identificação de padrões e tendências nos dados, bem como determinar se existe um vínculo substancial entre as variáveis.
Seleção de variáveis
Modelos de regressão linear podem ser usados para determinar quais fatores são mais relevantes na previsão da variável dependente. Isso pode ajudar a determinar quais fatores têm mais influência na variável dependente e direcionar recursos para essas variáveis.
Detectar outlier
Outliers nos dados, que são pontos de dados que não se ajustam à tendência principal dos dados, podem ser identificados usando modelos de regressão linear.
Construção de modelos
Modelos de regressão linear podem ser usados para construir modelos mais complicados, por exemplo, vários modelos de regressão podem ser usados para examinar a relação entre uma variável dependente e vários fatores independentes, enquanto modelos de regressão não lineares podem ser usados para representar correlações não lineares entre variáveis.
Quais são os tipos de regressão?
Existem diferentes tipos de regressão linear, pode ser pelo número de variáveis preditoras, um parâmetro adicional para controlar o super ajuste ou até mesmo uma diferença na função final. Veja alguns tipos de regressão:
Regressão Linear simples: Na regressão linear simples, há uma variável dependente e uma variável independente. A relação entre as duas variáveis é modelada por uma linha reta.
Regressão Linear múltipla: Na regressão linear múltipla, há uma variável dependente e duas ou mais variáveis independentes. A relação entre a variável dependente e as variáveis independentes é modelada por uma equação linear.
Regressão Polinomial: Na regressão polinomial, a relação entre a variável dependente e a(s) variável(is) independente(s) é modelada por uma equação polinomial.
Regressão Ridge: A regressão Ridge é um tipo de regressão linear usada quando as variáveis independentes são altamente correlacionadas umas com as outras. Ele adiciona um termo de penalidade à equação de regressão para evitar o overfitting.
Regressão Lasso: A regressão Lasso é outro tipo de regressão linear usada para evitar o overfitting. Acrescenta um termo de penalidade à equação de regressão que reduz os coeficientes das variáveis independentes para zero.
Regressão Elastic net: A regressão Elastic net é uma combinação de regressão Ridge e regressão de Lasso. Ele adiciona os dois termos de penalidade à equação de regressão para equilibrar os benefícios de ambas as técnicas.
Quais são as diferenças entre as regressões?
As diferenças entre os modelos de regressão linear devem-se principalmente à forma específica da equação linear usada para modelar a relação entre as variáveis dependentes e independentes, bem como às técnicas específicas usadas para estimar os coeficientes da equação.
A regressão linear simples envolve modelar a relação entre uma variável dependente e uma única variável independente usando uma linha reta. A regressão linear múltipla, por outro lado, permite a modelagem de relações entre uma variável dependente e múltiplas variáveis independentes.
A regressão polinomial inclui o emprego de uma equação polinomial para representar a conexão entre uma variável dependente e uma variável independente, permitindo que correlações não lineares mais complicadas sejam registradas.
A regressão Ridge e a regressão Lasso são técnicas usadas para resolver problemas de super ajuste na regressão linear múltipla. A regressão de Ridge adiciona um termo de penalidade à equação de regressão que reduz os coeficientes das variáveis independentes para zero, enquanto a regressão de Lasso reduz alguns dos coeficientes para exatamente zero, removendo efetivamente algumas variáveis independentes da equação.
A regressão Elastic Net é um híbrido da regressão Ridge e Lasso, permitindo o emprego de ambos os tipos de penalidades ao mesmo tempo. Quando muitas variáveis independentes estão altamente associadas umas às outras, isso pode ajudar a escolher as variáveis mais relevantes, ao mesmo tempo em que fornece alguma regularização para minimizar o overfitting.
Quais são as suposições do modelo?
Os modelos lineares fazem certas suposições sobre os dados e a relação entre as variáveis de previsão e a variável de resposta. Essas suposições são importantes para garantir que os resultados obtidos com o modelo sejam confiáveis e precisos, são elas:
Linearidade: A relação entre a variável dependente e a(s) variável(is) independente(s) deve ser linear. Em outras palavras, a mudança na variável dependente deve ser proporcional à mudança na(s) variável(is) independente(s).
Independência: As observações no conjunto de dados devem ser independentes umas das outras. Isso significa que o valor de uma observação não deve ser influenciado pelo valor de outra observação.
Homocedasticidade: A variância dos resíduos (isto é, a diferença entre os valores observados e previstos) deve ser constante em todos os níveis da(s) variável(is) independente(s). Isso também é conhecido como variância constante ou homogeneidade de variância.
Essas suposições devem ser verificadas ao ajustar um modelo linear, caso alguma delas seja violada, medidas corretivas apropriadas devem ser tomadas.
O que são resíduos e porque são importantes?
Os resíduos nas estatísticas são as diferenças entre os valores observados e previstos em um estudo de regressão. Em outras palavras, os resíduos são os erros cometidos pelo modelo ao tentar prever a variável de resultado.
Os resíduos são significativos na análise de regressão porque são usados para testar as suposições do modelo. A suposição de linearidade, por exemplo, pode ser testada exibindo os resíduos versus os valores ajustados.
A função de autocorrelação (ACF) dos resíduos pode ser usada para testar a suposição de independência. Ao exibir os resíduos em relação aos valores ajustados e procurar um padrão (por exemplo, uma forma de funil), a suposição de homocedasticidade pode ser testada. Um histograma ou um gráfico Q-Q dos resíduos pode ser usado para testar a suposição de normalidade.
A análise de resíduos é uma fase crucial na análise de regressão, pois nos ajuda a verificar se as suposições do modelo estão corretas e se o modelo se ajusta bem aos dados. Linearidade, independência, homocedasticidade e normalidade residual são os quatro pressupostos essenciais da regressão linear. Cada uma dessas suposições deve ser testada usando a análise residual.
Plotar os resíduos em relação aos valores esperados ou às variáveis independentes é um procedimento típico na análise de resíduos, assim como fazer um histograma ou mapa de densidade dos resíduos e aplicar testes estatísticos de normalidade ou independência.
Os gráficos residuais também podem ser usados para descobrir outliers, pontos de dados influentes ou tendências de dados que podem sugerir que o modelo não é uma boa correspondência.

Comentários
Postar um comentário