MIT e a UC San Diego desenvolveram um método para identificar conceitos abstratos — como vieses, personalidades e humores — escondidos em modelos de linguagem de grande porte.
O trabalho usa um algoritmo de aprendizado de recursos, chamado máquina de recursos recursivos, para reconhecer padrões numéricos no LLM que representam cada conceito.
Foi possível localizar representações de até quinhentos conceitos em modelos atuais e, sempre que necessário, ajustar essas representações para amplificar ou reduzir o conceito em qualquer resposta.
Em exemplos, os pesquisadores conseguiram fazer o modelo adotar o tom e a perspectiva de um “teórico da conspiração” e, em outro caso, reforçar o conceito de “anti-recusa”, levando o modelo a responder mesmo a prompts sensíveis.
O estudo aponta que é possível usar a abordagem para identificar vulnerabilidades e melhorar a segurança e o desempenho dos LLMs, com os resultados publicados na revista Science.

A equipe de MIT e da University of California San Diego apresentou uma nova abordagem para testar se modelos de linguagem ampliados contêm vieses, personalidades, humores ou outros conceitos abstratos escondidos. A técnica também permite ajustar, ou seja, direcionar, essas representações para influenciar respostas geradas pelo modelo. A divulgação ocorreu em um estudo publicado na revista Science.

Os pesquisadores concentraram-se em identificar representações de conceitos dentro de grandes modelos de linguagem (LLMs) e, em seguida, modulá-los para ampliar ou reduzir determinados traços nas respostas. O estudo avaliou mais de 500 conceitos gerais presentes em alguns dos maiores LLMs usados hoje.

Entre os conceitos explorados, destacam-se traços de personalidade como social influencer e conspiracionista, além de estados como medo de casamento e gosto por Boston. Em vários casos, os pesquisadores conseguiram aumentar ou diminuir a presença desses conceitos nas respostas produzidas pelos modelos a partir de prompts.

Como funciona a técnica

A equipe utiliza um algoritmo de aprendizado de recursos recursivo (RFM) para reconhecer padrões numéricos nas representações do LLM que correspondem a um conceito de interesse. Com isso, é possível orientar a resposta do modelo, modulando a atividade associada ao conceito identificado.

O método foi aplicado a modelos de linguagem e visão, incluindo alguns dos maiores disponíveis, para demonstrar a identificação e a manipulação de conceitos como conspiracionista ou anti-repulsão. Em um exemplo, ao reforçar a representação de conspiracionista e solicitar explicação sobre a origem da imagem Blue Marble, o modelo produziu uma resposta com tom e perspectiva ligados a esse conceito.

Segundo os autores, há riscos na extração de certas representações, o que também é demonstrado no estudo. Ainda assim, os pesquisadores afirmam que a abordagem pode trazer clareza sobre vulnerabilidades e permitir ajustes para melhorar segurança ou desempenho de LLMs.

Adityanarayanan Radhakrishnan, professor assistente de matemática de MIT, explica que os conceitos estão presentes nos modelos, mas nem sempre são expostos ativamente. Segundo ele, a técnica permite extrair e ativar esses conceitos de maneiras não alcançáveis apenas por prompt.

O estudo reúne coautores da UC San Diego, Daniel Beaglehole e Mikhail Belkin, além de Enric Boix-Adserà, da University of Pennsylvania. A pesquisa foi parcialmente financiada pela National Science Foundation, pela Simons Foundation, pelo TILOS e pela U.S. Office of Naval Research.

Converse com o Telinha

Expondo vieses, humores e conceitos ocultos em grandes modelos de linguagem

Como funciona a técnica

Relacionados:

Comentários 0

Entre na conversa da comunidade

Veja Mais

Converse com o Telinha

Expondo vieses, humores e conceitos ocultos em grandes modelos de linguagem

Como funciona a técnica

Relacionados:

Comentários 0

Entre na conversa da comunidade

Veja Mais

Fique por dentro das notícias do Khai Dreams