Deprecated: Calling get_class() without arguments is deprecated in /var/www/vhosts/localhost/html/wp-content/plugins/integracao-rd-station/includes/events/rdsm_plugin_uninstalled.php on line 12 Deprecated: Calling get_class() without arguments is deprecated in /var/www/vhosts/localhost/html/wp-content/plugins/integracao-rd-station/rdsm_assets_loader.php on line 14 Deprecated: Calling get_class() without arguments is deprecated in /var/www/vhosts/localhost/html/wp-content/plugins/integracao-rd-station/rdsm_assets_loader.php on line 15 Deprecated: Calling get_class() without arguments is deprecated in /var/www/vhosts/localhost/html/wp-content/plugins/integracao-rd-station/rdsm_assets_loader.php on line 16 Deprecated: Calling get_class() without arguments is deprecated in /var/www/vhosts/localhost/html/wp-content/plugins/integracao-rd-station/rdsm_assets_loader.php on line 17 Warning: Trying to access array offset on false in /var/www/vhosts/localhost/html/wp-content/plugins/schema/includes/integrations/amp.php on line 29
Imagem: Shutterstock
Pesquisadores de Stanford, UC San Diego, UC Berkeley e Meta estão explorando uma nova arquitetura de inteligência artificial que promete superar as limitações enfrentadas pelos tradicionais transformers.
Conhecidos como modelos TTT (test-time training), esses novos modelos foram desenvolvidos com o objetivo de processar grandes volumes de dados de maneira mais eficiente e econômica.
Os transformers desempenham um papel crucial na OpenAI, por exemplo, sendo a base de modelos avançados como o Sora, um gerador de vídeo de ponta desenvolvido pela empresa. No entanto, embora eficazes em tarefas de processamento de linguagem natural e geração de texto, eles enfrentam desafios significativos relacionados ao consumo de energia e demandas computacionais.
Leia também: 335 vagas para avançar na carreira em TI
Além disso, os transformers são poderosos devido ao seu estado oculto, que armazena informações processadas. No entanto, esse estado também impõe limitações significativas, exigindo que o modelo reviste toda a informação para responder a qualquer pergunta, sobre um livro, por exemplo. Para resolver isso, os pesquisadores desenvolveram o modelo TTT, que substitui o estado oculto por um modelo de machine learning mais eficiente.
“Se você pensar em um transformer como uma entidade inteligente, então a tabela de consulta — seu estado oculto — é o cérebro do transformer”, disse Yu Sun, pós-doutorando em Stanford e colaborador na pesquisa, ao TechCrunch. “Esse cérebro especializado permite as bem conhecidas capacidades dos transformers, como o aprendizado em contexto”.
Porém, ao contrário dos transformers, o modelo TTT não aumenta de tamanho à medida que processa mais dados, codificando as informações em pesos representativos. Isso possibilita que os modelos TTT processem grandes volumes de dados, como palavras, imagens, áudio e vídeos, de maneira eficiente, indo além das capacidades dos modelos atuais.
“Nosso sistema pode dizer X palavras sobre um livro sem a complexidade computacional de reler o livro X vezes”, disse Sun ao TechCrunch. “Grandes modelos de vídeo baseados em transformers, como Sora, só podem processar 10 segundos de vídeo, porque eles só têm um ‘cérebro’ de tabela de consulta. Nosso objetivo final é desenvolver um sistema que possa processar um vídeo longo, semelhante à experiência visual de uma vida humana”.
Empresas como Mistral e AI21 Labs já estão explorando alternativas similares, como os modelos de espaço de estado (SSMs), em busca de eficiência comparável ou superior aos transformers, segundo o TechCrunch.
Embora o potencial dos modelos TTT seja promissor, Mike Cook, professor sênior do King’s College London, especialista ouvido pela reportagem, alerta que são necessárias mais pesquisas para validar a eficiência do modelo em relação às arquiteturas existentes. “Um professor antigo meu costumava contar uma piada quando eu era um graduando: Como você resolve qualquer problema em ciência da computação? Adicione mais uma camada de abstração. Adicionar uma rede neural dentro de uma rede neural definitivamente me lembra disso”, comentou ele à reportagem do TechCrunch.
Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!
A pressão por controle de custos vem alterando a dinâmica das áreas de tecnologia nas…
O mercado brasileiro de fintechs passou por uma transformação no perfil dos investimentos em 2025.…
O avanço da inteligência artificial e o uso estratégico de dados vêm transformando a forma…
Por Ramon Ribeiro Quase metade do código produzido por assistentes de inteligência artificial contém vulnerabilidades…
Peça a um modelo de inteligência artificial que gere a imagem de uma cidade, sem…
O IT Forum apresenta, semanalmente, os novos executivos e os principais anúncios de contratações, promoções e mudanças…