Notícias

Não se apresse para implementar o Machine Learning

Acontece que a melhor maneira de fazer Machine Learning (ML), às vezes, é não fazer nenhum. Mesmo. Na verdade, de acordo com o Cientista Aplicado da Amazon, Eugene Yan, “A primeira regra do aprendizado de máquina [é] começar sem o aprendizado de máquina”.

Sim, é legal apresentar modelos de ML meticulosamente elaborados ao longo de meses de árduo esforço. Também não é necessariamente a abordagem mais eficaz. Não quando existem métodos mais simples e acessíveis.

As melhores notícias de tecnologia B2B

Acompanhe todas as novidades diretamente na sua caixa de entrada

Pode ser uma simplificação exagerada dizer, como o cientista de dados Noah Lorang fez anos atrás, que “os cientistas de dados, em sua maioria, apenas fazem aritmética”. Mas ele não está muito longe, e certamente ele e Yan estão certos de que, por mais que possamos complicar o processo de colocar os dados para funcionar, na maioria das vezes é melhor começar pequeno.

Complexidade exagerada

Cientistas de dados são muito bem pagos. Portanto, talvez seja tentador tentar justificar esse pagamento envolvendo coisas como análise preditiva em jargões complicados e modelos pesados. Mas não. O insight de Lorang sobre a ciência de dados é tão verdadeiro hoje quanto quando ele o proferiu há alguns anos: “Há um subconjunto muito pequeno de problemas de negócios que são mais bem resolvidos pelo aprendizado de máquina; a maioria deles só precisa de bons dados e uma compreensão do que isso significa.” Lorang recomenda métodos mais simples, como “consultas SQL para obter dados,… aritmética básica sobre esses dados (calcular diferenças, percentis, etc.), representar graficamente os resultados e [escrever] parágrafos de explicação ou recomendação”.

Não estou sugerindo que seja fácil. Estou dizendo que o aprendizado de máquina não é onde você começa ao tentar obter insights dos dados. Nem é o caso que grandes quantidades de dados são necessariamente necessárias. Na verdade, como argumenta a CEO elegível Katelyn Gleason, é importante “começar com os pequenos dados [porque] são as anomalias oculares que me levaram a algumas das minhas melhores descobertas”. Às vezes, pode ser suficiente plotar distribuições para verificar padrões óbvios.

Sim, é isso mesmo: os dados podem ser “pequenos o suficiente” para que um humano possa detectar padrões e descobrir insights.

Não é de se admirar, então, que o cientista de dados da iRobot Brandon Rohrer sugira descaradamente: “Quando você tiver um problema, crie duas soluções – um transformador bayesiano profundo em execução em Kubernetes com várias nuvens e uma consulta SQL baseada em uma pilha de suposições extremamente simplificadoras. Coloque um em seu currículo e o outro em produção. Todo mundo vai para casa feliz. ”

Novamente, isso não quer dizer que você nunca deve usar Machine Learning, e definitivamente não é um argumento de que o ML não oferece valor real. Longe disso. É apenas um argumento contra começar com ML.

Humanos conhecendo dados

Primeiro, Yan observa, é importante reconhecer o quão difícil é extrair significado dos dados, dados os ingredientes essenciais: “Você precisa de dados. Você precisa de um pipeline robusto para suportar seus fluxos de dados. E, acima de tudo, você precisa de etiquetas de alta qualidade. ”

Em outras palavras, as entradas são complicadas o suficiente que pode não ser particularmente útil começar jogando modelos de ML no problema. Nesse ponto, você está apenas começando a conhecer seus dados. Tente resolver o problema manualmente ou com heurísticas (métodos práticos ou atalhos). Yan destaca esse raciocínio de Hamel Hussain, engenheiro de Machine Learning do GitHub: “Isso o forçará a se familiarizar intimamente com o problema e os dados, que é a primeira etapa mais importante”.

Supondo que você esteja lidando com dados tabulares, Yan diz que vale a pena começar com uma amostra dos dados para executar estatísticas, começando com correlações simples, e visualizar os dados, talvez usando gráficos de dispersão. Por exemplo, em vez de construir um modelo complicado de aprendizado de máquina para recomendações, você poderia simplesmente “recomendar itens de melhor desempenho do período anterior”, argumenta Yan, e procurar padrões nos resultados. Isso ajuda o praticante de ML a se familiarizar mais com seus dados, o que, por sua vez, o ajudará a construir modelos melhores, se for necessário.

Quando o aprendizado de máquina se torna necessário ou pelo menos aconselhável?

De acordo com Yan, o Machine Learning começa a fazer sentido quando manter seu sistema heurístico não-ML se torna excessivamente complicado. Em outras palavras, “depois de ter uma linha de base não ML que funciona razoavelmente bem, e o esforço de manter e melhorar essa linha de base supera o esforço de construir e implantar um sistema baseado em ML”.

Não há ciência de quando isso acontece, é claro, mas se suas heurísticas não são mais atalhos práticos e, em vez disso, continuam quebrando, é hora de considerar o aprendizado de máquina, especialmente se você tiver pipelines de dados sólidos e rótulos de dados de alta qualidade, indicando bom dados.

Sim, é tentador começar com modelos complexos de Machine Learning, mas sem dúvida uma das habilidades mais importantes que um cientista de dados pode ter é o bom senso, saber quando confiar na análise de regressão ou em algumas declarações se/então, em vez de ML.

Next B3 e {reprograma} farão curso de programação para meninas de 14 a 17 anos »

Previous « Pedro Oliveira é o novo head de ERP da Senior Sistemas

83% dos CIOs já adiaram projetos estratégicos por restrições de orçamento

A pressão por controle de custos vem alterando a dinâmica das áreas de tecnologia nas…

6 dias ago

Estudos

Fintechs brasileiras captam US$ 2,77 bi em 2025 e entram em nova fase de maturidade

O mercado brasileiro de fintechs passou por uma transformação no perfil dos investimentos em 2025.…

6 dias ago

Notícias

Sioux aposta em IA e dados para nova fase de experiências digitais e expande atuação para a Europa

O avanço da inteligência artificial e o uso estratégico de dados vêm transformando a forma…

7 dias ago

Artigos

Qual é o risco do desenvolvimento de software com IA?

Por Ramon Ribeiro Quase metade do código produzido por assistentes de inteligência artificial contém vulnerabilidades…

7 dias ago

Notícias

Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati

Peça a um modelo de inteligência artificial que gere a imagem de uma cidade, sem…

7 dias ago

Notícias

Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais

O IT Forum apresenta, semanalmente, os novos executivos e os principais anúncios de contratações, promoções e mudanças…

7 dias ago

Não se apresse para implementar o Machine Learning

Complexidade exagerada

Humanos conhecendo dados

Quando o aprendizado de máquina se torna necessário ou pelo menos aconselhável?

Related Post

Recent Posts

83% dos CIOs já adiaram projetos estratégicos por restrições de orçamento

Fintechs brasileiras captam US$ 2,77 bi em 2025 e entram em nova fase de maturidade

Sioux aposta em IA e dados para nova fase de experiências digitais e expande atuação para a Europa

Qual é o risco do desenvolvimento de software com IA?

Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati

Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais