O que é um modelo estatístico?
Um modelo pode ser representado por uma função matemática com o seguinte formato:
Y = βx1* X1 +βx2* X2 + ... +βxn* Xn + ɛi
Onde Y é a variável resposta, os valores X são as variáveis explicativas, β são os efeitos das variáveis explicativas e ɛo erro aleatório.
O objetivo de um modelo pode ser explicado como um grupo de variável se relaciona, prever o valor de uma variável com base em um conjunto de outras variáveis ou até segmentar pessoas. Os modelos estatísticos mais conhecidos são:
Regressão Linear:
É um modelo estatístico utilizado para prever um resultado numérico (ou variável dependente) a partir de uma ou mais variáveis explicativas (ou variáveis independentes). Ela é chamada de "linear" porque o modelo assume que a relação entre as variáveis é linear, ou seja, o modelo pode ser representado por uma reta.
Por exemplo, imagine que você quer prever o preço de um imóvel a partir de suas características, como tamanho, localização e idade. Neste caso, o preço do imóvel seria a variável dependente e tamanho, localização e idade seriam as variáveis independentes.
O modelo de regressão linear estima os efeitos dessas variáveis explicativas que melhor se ajustam aos dados, de forma a minimizar o erro entre os valores previstos pelo modelo e os valores observados nos dados.
Regressão Logística:
É uma regressão utilizada para prever a probabilidade de ocorrência de um evento binário (por exemplo, "sucesso" ou "fracasso"). Ela é chamada de "logística" porque utiliza a função logística, que é uma função de ligação para transformar a resposta da regressão na probabilidade do evento ocorrer.
Por exemplo, imagine que você quer prever a probabilidade de um cliente fazer uma compra em sua loja online a partir de características como idade, gênero e localização.
Neste caso, a variável dependente é uma variável binária que representa a compra ou não do produto e idade, gênero e localização seriam as variáveis independentes. O modelo de regressão linear logística vai estimar qual é a probabilidade de cada indivíduo comprar ou não o produto.
Um dos principais aspectos dos modelos estatísticos é a sua capacidade de generalização, ou seja, a habilidade de prever resultados para dados que não fazem parte do conjunto de treinamento utilizado para construir o modelo. Isso é importante para fazer previsões ou classificações no futuro, com dados que ainda não existem.
É importante dizer que todo modelo estatístico tem uma componente em sua função chamado erro aleatório, esse componente é importante porque ela representa a parte da variabilidade dos dados que não pode ser explicada pelo modelo. Em outras palavras, é a diferença entre o valor observado e o valor previsto pelo modelo para cada ponto de dados.
Independente se a observação foi usada para os dados de treinamento ou é uma nova observação, sempre haverá o erro aleatório.
Erro aleatório
A componente de erro é importante porque nos permite avaliar a qualidade do modelo. Quando essa componente do modelo é pequena, isso indica que o modelo está fazendo boas previsões e explicando bem a variabilidade dos dados.
Por outro lado, se a componente de erro é grande, isso pode indicar que o modelo não está performando bem e é necessário ajustá-lo ou construir um novo modelo. Além disso, a componente de erro também pode ser usada para estimar a incerteza nas previsões do modelo.
Modelos de Classificação e Regressão
Os modelos de classificação são usados para prever a qual classe pertence uma amostra, baseando-se nas variáveis de entrada. Por exemplo, um modelo de classificação pode ser usado para estimar a probabilidade de uma pessoa ter ou não uma doença com base em sintomas e exames médicos. O modelo de regressão logística comentado acima é um modelo de classificação.
Já os modelos de regressão são usados para prever um valor numérico. Por exemplo, um modelo de regressão pode ser usado para estimar o preço de uma ação com base em características da empresa. Neste caso, a variável de saída é contínua (por exemplo, o preço pode ser qualquer valor maior ou igual a 0).
Em resumo, os modelos de classificação são usados para estimar a probabilidade de pertencer a classes (por exemplo, sim/não, doente/saudável), enquanto os modelos de regressão são usados para estimar quantidades (por exemplo, preço, idade).
Performance de modelos
Existem vários indicadores de performance do modelo que podem ser utilizados para avaliar modelos de classificação e modelos de regressão. Alguns dos principais indicadores de qualidade para cada um dos tipos de modelo são:
Modelos de regressão
Erro quadrático médio (MSE)
A média dos quadrados das diferenças entre os valores observados e os valores previstos pelo modelo, ou seja, dos erros aleatórios.
Erro absoluto médio (MAE)
A média das diferenças absolutas entre os valores observados e os valores previstos pelo modelo.
Erro médio percentual (MAPE)
A média dos erros absolutos em relação aos valores observados, expressa em porcentagem.
Modelos de classificação
Acurácia
A proporção de previsões corretas do modelo em relação ao total de previsões feitas.
Curva ROC
Um gráfico que mostra a relação entre a taxa de verdadeiros positivos e a taxa de falsos positivos para diferentes pontos de corte do modelo.
Área sob a curva (AUC)
A área sob a curva ROC. Valores próximos de 1 indicam um bom modelo, enquanto valores próximos de 0,5 indicam um modelo aleatório.
Modelos estatísticos e Machine Learning
Os modelos de machine learning e os modelos estatísticos são duas abordagens diferentes para a construção de modelos a partir de dados. A principal diferença entre eles é o grau de intervenção humana no processo de modelagem.
Os modelos estatísticos são construídos com base em pressupostos explícitos sobre a forma como os dados foram gerados e geralmente requerem uma intervenção humana mais ativa na seleção e especificação do modelo.
Por exemplo, ao construir um modelo de regressão linear, um cientista de dados pode escolher quais variáveis incluir no modelo e especificar a forma como elas são combinadas para estimar a variável de saída.
Já os modelos de machine learning são construídos de forma automatizada, usando algoritmos que aprendem a partir dos dados. Não requer uma especificação explícita da forma como as variáveis de entrada são combinadas para prever a variável de saída e podem ser usados para encontrar padrões complexos nos dados de forma automatizada.
Na área de machine learning, os modelos estatísticos são utilizados para a construção de sistemas que são capazes de realizar tarefas de aprendizado de máquina, como a classificação de objetos, a previsão de resultados ou a detecção de padrões em conjuntos de dados.



Comentários
Postar um comentário