Em Alta Copa do Mundo NotíciasFutebol_POLÍTICA_Brasileconomia

Converse com o Telinha

Telinha
Oi! Posso responder perguntas apenas com base nesta matéria. O que você quer saber?

IA aprende a fazer perguntas melhores ao jogar Batalha Naval

Modelos menores, com inferência Monte Carlo e modelo de mundo, superam grandes LMs em Battleship, a custo de cerca de 1%

AI models improved at MIT researchers’ “Collaborative Battleship” game by carefully weighing options about where game pieces might be hidden at each turn. The approach helped much-smaller models finish in fewer turns than leading ones.
0:00
Carregando...
0:00
  • Pesquisadores do MIT CSAIL e da SEAS da Harvard criaram o modo Collaborative Battleship para avaliar como LMs perguntam e respondem, usando perguntas em linguagem natural.
  • Primeiro, coletaram respostas de mais de quarenta pessoas para formar o conjunto de dados BattleshipQA, para comparar com modelos como GPT-5 e Llama 4 Scout.
  • Sem treinamento prévio, LMs grandes tendem a vencer humanos em menos turnos, mas modelos menores podem ter desempenho inferior, a menos que usem estratégias de inferência de Monte Carlo para formular perguntas mais informativas.
  • O modelo Llama 4 Scout, inicialmente com baixo desempenho, alcançou oitenta e dois por cento de vitórias contra humanos após refinamentos, e ficou próximo ou acima de modelos de ponta a custo de cerca de um por cento do GPT-5.
  • Transformar perguntas em código que verifique as respostas aumentou a acurácia em média quinze por cento, e o estudo também testou em jogos como Quem é o Personagem? com melhorias expressivas.

O MIT, em conjunto com a Escola de Engenharia da Harvard, testa agentes de IA usando o jogo Battleship para entender como eles perguntam e aprendem. O objetivo é reduzir custos e melhorar a eficiência de modelos em ambientes incertos.

Os pesquisadores criaram o formato Collaborative Battleship, em que um capitão faz perguntas e o spotter responde. Começaram com mais de 40 participantes humanos para mapear perguntas e respostas, gerando o conjunto de dados BattleshipQA.

Em seguida, validaram modelos de linguagem de diferentes portes. Mesmo sem treinamento prévio, LMs avançados completaram o jogo com menos turnos que humanos, enquanto modelos menores mostraram desempenho inferior. O desafio principal é formular boas perguntas.

A melhoria veio ao aplicar uma estratégia de inferência de Monte Carlo, que pondera opções com base na probabilidade de acerto a cada resposta. Com isso, modelos menores alcançaram vitórias expressivas sobre jogadores humanos, reduzindo a diferença de desempenho.

O destaque ficou com o Llama 4 Scout, que sem refinamentos vencia humanos em 8% das partidas. Com aperfeiçoamento da estratégia, o índice de vitórias subiu para 82%, superando também modelos de ponta a custo muito menor.

Além disso, a equipe reduziu a lacuna na precisão das respostas. Ao transformar perguntas em código que verifica as soluções, a precisão aumentou em média 15%. Em consequência, modelos como GPT-4o-mini tiveram ganho próximo de 30% no desempenho.

“O estudo mostra que perguntar bem depende de prever o mundo e simular hipóteses”, afirma Gabriel Grand, da CSAIL. A equipe também usou Python para converter perguntas em comandos que guiam o spotter e melhorar explicitações das verificações.

Os pesquisadores estendem o experimento para além de Battleship, aplicando a técnica a jogos como Guess Who? e avaliando a performance de modelos grandes e pequenos. GPT-4o atingiu 90% de acerto; GPT-5 manteve o papel de spotter para aumentar a precisão.

Segundo os autores, ainda há espaço para aperfeiçoamento, especialmente na resolução de perguntas complexas. O objetivo é ampliar os testes para cenários mais desafiadores, com maior espaço de opções e decisões mais estratégicas para os agentes.

Comentários 0

Entre na conversa da comunidade

Os comentários não representam a opinião do Portal Tela; a responsabilidade é do autor da mensagem. Conecte-se para comentar

Veja Mais