O pensamento analítico de dados eficaz permitirá a você avaliar potenciais projetos de mineração de dados.
O livro 'Data science for business' fornece visões poderosas para desenvolver soluções de machine learning confiáveis e integrá-las aos problemas de negócios. Ao final, o livro apresenta um guia para projetos/soluções, nesse artigo eu coloco basicamente esse guia com pequenas edições que identifico como importante para gerar valor a solução.
A todos recomendo a leitura do livro, para quem está buscando um guia prático do passo a passo de desenvolvimento de um projeto de ciência de dados, este artigo será seu melhor amigo. Vamos ao guia.
Passo 1: Negócios e compreensão dos dados
O primeiro passo de qualquer projeto de ciência de dados é a compreensão do negócio e dos dados que serão utilizados na solução, para realizar esse passo de forma completa, é necessário responder algumas perguntas, são elas:
Qual é exatamente o problema a ser resolvido?
A solução de data science foi adequadamente formulada para resolver este problema de negócio?
A qual entidade de negócios o exemplo corresponde?
O problema é supervisionado ou não supervisionado? Caso supervisionado, tem uma variável alvo definida? Caso positivo, é definida com precisão? Pense sobre os valores que pode adotar.
Os atributos são definidos com precisão? Pense sobre os valores que pode adotar.
Para problemas supervisionados: modelar esta variável alvo melhora o problema de negócios? Um subproblema importante? No último caso, o restante do problema de negócios foi abordado?Dispor o problema em termos de valor esperado ajuda a estruturar as subtarefas que precisam ser resolvidas?
Caso não seja supervisionado, existe um caminho de "análise exploratória de dados" bem definido? (Ou seja, qual objetivo da análise?)
Existe um montante financeiro passivo de conquista/recuperação?
Passo 2: Preparação dos dados
O segundo passo são os dados, aqui queremos chegar nas melhores transformações, filtros e outras ferramentas que deixem os dados prontos e otimizados para a projeto que resultará na melhor solução do problema, para tal, vamos novamente as perguntas:
Será prático obter valores para atributos, criar vetores de características e colocá-los em uma única tabela?
Em caso negativo, um formato de dados alternativo foi definido com clareza e precisão? Isso é levado em conta nas fases posteriores do projeto? (Muitos dos métodos posteriores assumem que o conjunto de dados está no formato de vetor de característica).
Se a modelagem será supervisionada, a variável alvo está disponível? Está claro como obter valores e colocá-los na tabela?
Como exatamente os valores para a variável alvo são adquiridos? Existem custos envolvidos? Caso positivo, os custos são levados em consideração na solução final?
Os dados estão sendo extraídos de uma população semelhante à que o modelo será aplicado? Se houver discrepâncias, alguma tendência de seleção foi claramente observada? Existe um plano para saber como compensá-las?
Passo 3: Modelagem
Escolher o melhor modelo e encontrar os hiperparâmetros que otimizam a função objetivo é um trabalho que necessita de clareza sobre a solução completa, é necessário levar em consideração algumas perguntas nesse passo, são elas:
A escolha do modelo é adequada para a escolha da variável alvo? Classificação, avaliação, regressão, agrupamento, etc.
A técnica de modelo atende a outros requisitos da tarefa?
Desempenho de generalização, compreensão, velocidade de aprendizagem, velocidade de aplicação, quantidade de dados necessários, tipo de dados, valores faltando?
Definir técnicas que vão lidar com missing, outliers, escalas e variáveis correlacionadas são de extrema importância para garantir a performance do modelo e consequentemente da solução.Foram testados vários modelos e avaliados com métricas eficazes para o problema? Os tipos de erros são igualmente importantes? Foi avaliado o tamanho dos dados de treino para evitar underfitting ou overfitting?
Para técnicas de agrupamento, existe uma métrica de semelhança definida? Ela faz sentido para o problema de negócios e para os atributos?
Passo 4: Avaliação e implementação
O processo de avaliação e implementação do modelo deve ser pensado cuidadosamente para que fique claro porque um modelo é preferível a outro. Além das formas comuns de mensurar a performance de um modelo, é interessante sempre criar simulações do impacto financeiro esperado por cada modelo, algumas perguntas importantes nesse passo são:
Especialistas no problema ou investidores querem conhecer a solução/modelo antes da implantação? Em caso positivo, o modelo estará em um formato que eles possam compreender?
A configuração e a métrica de avaliação são adequadas para a solução de negócios?
Os custos de negócios e os benefícios são levados em consideração?
Para classificação, como os limiares de classificação são escolhidos?
As estimativas de probabilidade podem ser usadas na construção de um retorno financeiro esperado?
A escolha do melhor modelo é baseada em algum retorno esperado? Existe limitação financeira?
Qual é a função objetivo que o modelo deve otimizar? Por que isso faz sentido no contexto do problema real a ser resolvido?
Para técnicas de agrupamento, como ele será entendido e qual será a função dos grupos?
Se a despesa de projeto tem que ser justificada para os investidores, qual é o plano para medir o impacto do negócio final (implantado)?
Narrativa
Além do guia, deixo um passo extra baseado no livro, 'storytelling with data', julgo tão importante quanto os outros passos para que seu projeto possa ser visto como uma solução com valor. Estou falando da forma de apresentação dos modelos e solução.
Qual é o público para quem será apresentado?
A ordem dos fatores alteram o resultado quando o assunto é storytelling, qual a melhor forma de ordenar a solução?
As representações gráficas são adequadas? A informação está detalhada?
Qual será a narrativa utilizada?
Conclusão
Este artigo destaca a importância de uma abordagem estruturada e questionadora na ciência de dados. Desde a compreensão do problema e dos dados até a modelagem e implementação, cada passo requer um pensamento crítico profundo.
As perguntas guiadas aqui servem como uma bússola para navegar por esses desafios, garantindo que cada projeto de data science seja tanto tecnicamente sólido quanto alinhado aos objetivos de negócios. Este guia prático é um ponto de partida essencial para aqueles que buscam excelência em projetos de ciência de dados.
.jpg)
Comentários
Postar um comentário