Deprecated: Calling get_class() without arguments is deprecated in /var/www/vhosts/localhost/html/wp-content/plugins/integracao-rd-station/includes/events/rdsm_plugin_uninstalled.php on line 12 Deprecated: Calling get_class() without arguments is deprecated in /var/www/vhosts/localhost/html/wp-content/plugins/integracao-rd-station/rdsm_assets_loader.php on line 14 Deprecated: Calling get_class() without arguments is deprecated in /var/www/vhosts/localhost/html/wp-content/plugins/integracao-rd-station/rdsm_assets_loader.php on line 15 Deprecated: Calling get_class() without arguments is deprecated in /var/www/vhosts/localhost/html/wp-content/plugins/integracao-rd-station/rdsm_assets_loader.php on line 16 Deprecated: Calling get_class() without arguments is deprecated in /var/www/vhosts/localhost/html/wp-content/plugins/integracao-rd-station/rdsm_assets_loader.php on line 17 Warning: Trying to access array offset on false in /var/www/vhosts/localhost/html/wp-content/plugins/schema/includes/integrations/amp.php on line 29 Modelos TTT: a nova fase da IA generativa IT Forum
All Rights ReservedView Non-AMP Version
IT Forum
  • Homepage
  • Inteligência Artificial
Notícias

Modelos TTT: a nova fase da IA generativa

Imagem: Shutterstock

Pesquisadores de Stanford, UC San Diego, UC Berkeley e Meta estão explorando uma nova arquitetura de inteligência artificial que promete superar as limitações enfrentadas pelos tradicionais transformers.

Conhecidos como modelos TTT (test-time training), esses novos modelos foram desenvolvidos com o objetivo de processar grandes volumes de dados de maneira mais eficiente e econômica.

As melhores notícias de tecnologia B2B
Acompanhe todas as novidades diretamente na sua caixa de entrada

Os transformers desempenham um papel crucial na OpenAI, por exemplo, sendo a base de modelos avançados como o Sora, um gerador de vídeo de ponta desenvolvido pela empresa. No entanto, embora eficazes em tarefas de processamento de linguagem natural e geração de texto, eles enfrentam desafios significativos relacionados ao consumo de energia e demandas computacionais.

Leia também: 335 vagas para avançar na carreira em TI 

Além disso, os transformers são poderosos devido ao seu estado oculto, que armazena informações processadas. No entanto, esse estado também impõe limitações significativas, exigindo que o modelo reviste toda a informação para responder a qualquer pergunta, sobre um livro, por exemplo. Para resolver isso, os pesquisadores desenvolveram o modelo TTT, que substitui o estado oculto por um modelo de machine learning mais eficiente.

“Se você pensar em um transformer como uma entidade inteligente, então a tabela de consulta — seu estado oculto — é o cérebro do transformer”, disse Yu Sun, pós-doutorando em Stanford e colaborador na pesquisa, ao TechCrunch. “Esse cérebro especializado permite as bem conhecidas capacidades dos transformers, como o aprendizado em contexto”.

Porém, ao contrário dos transformers, o modelo TTT não aumenta de tamanho à medida que processa mais dados, codificando as informações em pesos representativos. Isso possibilita que os modelos TTT processem grandes volumes de dados, como palavras, imagens, áudio e vídeos, de maneira eficiente, indo além das capacidades dos modelos atuais.

“Nosso sistema pode dizer X palavras sobre um livro sem a complexidade computacional de reler o livro X vezes”, disse Sun ao TechCrunch. “Grandes modelos de vídeo baseados em transformers, como Sora, só podem processar 10 segundos de vídeo, porque eles só têm um ‘cérebro’ de tabela de consulta. Nosso objetivo final é desenvolver um sistema que possa processar um vídeo longo, semelhante à experiência visual de uma vida humana”.

Empresas como Mistral e AI21 Labs já estão explorando alternativas similares, como os modelos de espaço de estado (SSMs), em busca de eficiência comparável ou superior aos transformers, segundo o TechCrunch.

Embora o potencial dos modelos TTT seja promissor, Mike Cook, professor sênior do King’s College London, especialista ouvido pela reportagem, alerta que são necessárias mais pesquisas para validar a eficiência do modelo em relação às arquiteturas existentes. “Um professor antigo meu costumava contar uma piada quando eu era um graduando: Como você resolve qualquer problema em ciência da computação? Adicione mais uma camada de abstração. Adicionar uma rede neural dentro de uma rede neural definitivamente me lembra disso”, comentou ele à reportagem do TechCrunch.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias! 

Next Eficiência energética lidera preocupação das energytechs brasileiras »
Previous « UE: reeleição de Ursula von der Leyen deve intensificar regulação tecnológica
Share
Published by
Redação
Tags: TTT
2 anos ago

    Related Post

  • Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais
  • Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati
  • CBYK nomeia Maurício Matsuda como novo CEO

Recent Posts

  • Notícias

83% dos CIOs já adiaram projetos estratégicos por restrições de orçamento

A pressão por controle de custos vem alterando a dinâmica das áreas de tecnologia nas…

1 semana ago
  • Estudos

Fintechs brasileiras captam US$ 2,77 bi em 2025 e entram em nova fase de maturidade

O mercado brasileiro de fintechs passou por uma transformação no perfil dos investimentos em 2025.…

1 semana ago
  • Notícias

Sioux aposta em IA e dados para nova fase de experiências digitais e expande atuação para a Europa

O avanço da inteligência artificial e o uso estratégico de dados vêm transformando a forma…

1 semana ago
  • Artigos

Qual é o risco do desenvolvimento de software com IA?

Por Ramon Ribeiro Quase metade do código produzido por assistentes de inteligência artificial contém vulnerabilidades…

1 semana ago
  • Notícias

Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati

Peça a um modelo de inteligência artificial que gere a imagem de uma cidade, sem…

1 semana ago
  • Notícias

Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais

O IT Forum apresenta, semanalmente, os novos executivos e os principais anúncios de contratações, promoções e mudanças…

1 semana ago
All Rights ReservedView Non-AMP Version
  • L