Um estudo recente da Giskard revelou uma tendência preocupante no desenvolvimento de chatbots: a busca por respostas mais concisas pode levar a um aumento significativo nas chamadas ‘alucinações’, ou seja, informações imprecisas ou fabricadas. A pesquisa analisou diversos modelos populares, incluindo ChatGPT, Claude, Gemini, Llama, Grok e DeepSeek, expondo uma relação inversa entre a brevidade e a confiabilidade factual.
A equipe da Giskard descobriu que, ao instruir os modelos a serem mais concisos, a precisão das respostas era comprometida. Aparentemente, os chatbots priorizam a brevidade em detrimento da exatidão quando submetidos a essa restrição. O estudo constatou que a resistência a alucinações pode diminuir em até 20% ao incluir instruções de concisão. Por exemplo, o Gemini 1.5 Pro teve uma queda de 84% para 64% na resistência a alucinações, e o GPT-4o passou de 74% para 63% sob as mesmas condições.
Essa descoberta aponta para um desafio fundamental no design de chatbots: o equilíbrio entre a utilidade percebida e a precisão. Modelos são constantemente aprimorados para auxiliar os usuários, mas a pressão para fornecer respostas rápidas e diretas pode comprometer a veracidade das informações. A Giskard explica que respostas mais precisas muitas vezes exigem explicações mais longas, colocando os modelos em uma encruzilhada: fabricar informações breves, porém imprecisas, ou parecer inúteis ao rejeitar a pergunta por completo. Essa tendência é exacerbada pela busca por eficiência, já que respostas concisas consomem menos tokens, reduzem a latência e minimizam custos.
Origem: Link