All Rights ReservedView Non-AMP Version
IT Forum
  • Homepage
  • Notícias
Notícias

Dados sintéticos em IA: vantagens, riscos e aplicações, segundo especialista do MIT

Imagem: Shutterstock

Os dados sintéticos, gerados por algoritmos para replicar estatísticas de dados reais sem expor informações sensíveis, já representam mais de 60% do total usado em aplicações de IA em 2024, segundo estimativas citadas pelo MIT News. A expectativa é de que esse volume continue a crescer em diferentes setores.

Para entender os benefícios e desafios dessa prática, o portal conversou com Kalyan Veeramachaneni, pesquisador principal do Laboratório de Sistemas de Informação e Decisão do MIT e cofundador da DataCebo, responsável pelo Synthetic Data Vault, plataforma de código aberto voltada à geração e avaliação de dados sintéticos.

As melhores notícias de tecnologia B2B
Acompanhe todas as novidades diretamente na sua caixa de entrada

Veeramachaneni explica que esses dados não se originam de situações reais, mas sim de modelos generativos capazes de capturar regras e padrões presentes em conjuntos originais, a partir de uma pequena amostra inicial. Com isso, é possível produzir volumes ilimitados de dados que preservam características estatísticas dos originais.

Existem quatro modalidades principais de geração: linguagem, imagens/vídeos, áudio e dados tabulares. Enquanto textos e imagens podem ser extraídos de conteúdos públicos disponíveis na internet, informações tabulares, como transações financeiras, normalmente estão protegidas por firewalls corporativos.

Leia também: “Falhe rápido, falhe cedo e falhe com frequência”: a receita Pixar para inovar

Vantagens e aplicações práticas

Um dos usos mais difundidos é em testes de software, que exigem grandes quantidades de dados para validar funcionalidades. Antes, era comum criar dados manualmente, processo caro e limitado. Com modelos generativos, é possível gerar cenários específicos, como transações de clientes em determinada região ou período.

Outro benefício está em testes de desempenho, já que companhias podem simular bilhões de registros para avaliar a robustez de seus sistemas. No campo de machine learning, os dados sintéticos são úteis para lidar com eventos raros, como fraudes bancárias. Ao criar exemplos adicionais, aumentam a precisão de modelos preditivos.

A tecnologia também ajuda quando há restrições de tempo e orçamento para coleta de informações. Pesquisas de intenção de compra, por exemplo, podem ser complementadas com dados sintéticos, evitando que modelos sejam treinados com bases insuficientes.

Riscos e limitações dos dados sintéticos

Apesar das vantagens, o uso exige cautela. O pesquisador aponta que a confiança nos dados depende da avaliação do sistema em que serão aplicados. Embora existam métricas de qualidade e privacidade consolidadas, novos indicadores de eficácia estão surgindo para medir o desempenho em tarefas específicas.

Outro risco é a replicação de vieses já presentes nos dados reais usados no treinamento. Caso não sejam aplicadas técnicas de amostragem balanceada, os modelos podem perpetuar desigualdades.

Para mitigar esses problemas, o MIT desenvolveu a Synthetic Data Metrics Library, ferramenta que ajuda a avaliar a fidelidade e a eficácia dos dados gerados. Segundo Veeramachaneni, é necessário criar fluxos de validação rigorosos, garantindo que conclusões obtidas com dados sintéticos permaneçam válidas em cenários reais.

A previsão do pesquisador é de que a evolução dos modelos generativos mude radicalmente a forma como empresas e cientistas trabalham com dados — seja para construir softwares, responder a perguntas analíticas ou treinar algoritmos. A tendência é que atividades antes inviáveis por limitações de privacidade, custo ou volume de dados se tornem cada vez mais acessíveis.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Next Andrea Rivetti e a Arklok: 17 anos transformando tecnologia em solução »
Previous « Líderes de tecnologia exaltam políticas de IA de Trump em jantar na Casa Branca
Share
Published by
Pamela Sousa
Tags: dadosdados sintéticos
9 months ago

    Related Post

  • UE ordena que Meta reabra WhatsApp a chatbots rivais
  • IPO da SpaceX chega ao mercado como aposta de US$ 1,75 trilhão em IA, não em foguetes
  • IA muda jornada de compra e devolve relevância aos sites de avaliação B2B, diz Forrester

Recent Posts

  • Artigos

Com a IA, setor de saúde vive revolução que o marketing digital proporcionou há dez anos

por Eduardo Barros A transformação da inteligência artificial (IA) nos negócios lembra o que aconteceu…

1 day ago
  • Inovação

Snowflake registra crescimento de 33% na receita e eleva projeções para o ano fiscal de 2027

A Snowflake anunciou os resultados financeiros do primeiro trimestre do ano fiscal de 2027, encerrado…

2 days ago
  • Notícias

UE ordena que Meta reabra WhatsApp a chatbots rivais

A Comissão Europeia determinou que a Meta reestabeleça o acesso de assistentes de inteligência artificial…

2 days ago
  • Notícias

IPO da SpaceX chega ao mercado como aposta de US$ 1,75 trilhão em IA, não em foguetes

As negociações com as ações da SpaceX têm início nesta quinta-feira, 12, em uma oferta…

2 days ago
  • Notícias

IA muda jornada de compra e devolve relevância aos sites de avaliação B2B, diz Forrester

A ascensão dos agentes de inteligência artificial (IA) está criando uma oportunidade para plataformas de…

2 days ago
  • Notícias

Prêmio Executivo de TI do Ano 2026: conheça os critérios de avaliação

Continuam abertas as inscrições para o prêmio Executivo de TI do Ano 2026. A iniciativa,…

2 days ago
All Rights ReservedView Non-AMP Version
  • L