“
De acordo com a própria OpenAI, seus novos modelos de raciocínio, o3 e o4-mini, apresentam taxas de alucinação consideravelmente mais altas do que modelos anteriores como o1, GPT-4o e GPT-4. Isso é surpreendente, já que esses novos modelos foram projetados para serem superiores em termos de precisão e capacidade de raciocínio.
Segundo um relatório, o modelo o3 apresentou uma taxa de alucinação de 33%, enquanto o o4-mini atingiu impressionantes 48%. Em comparação, o modelo o1 registrou apenas 16%. A OpenAI reconhece a discrepância, afirmando que são necessárias mais pesquisas para entender a causa desse resultado. A empresa ressalta que os modelos de raciocínio, como o3 e o4-mini, utilizam mais recursos computacionais para um processo de raciocínio mais elaborado antes de responderem, diferentemente dos modelos não-raciocínio que se baseiam mais em métodos estocásticos. Apesar disso, os resultados demonstram que o aumento da complexidade não se traduziu diretamente em uma redução das alucinações, abrindo espaço para discussões sobre os métodos de avaliação e as limitações dos modelos atuais. A OpenAI se pronunciou afirmando que a questão das alucinações é um tema de pesquisa contínua e que a empresa trabalha para melhorar a precisão e confiabilidade de seus modelos. A complexidade das avaliações, a subjetividade de alguns benchmarks, e a utilização de diferentes métodos e métricas para medir a precisão e as alucinações contribuem para a dificuldade em estabelecer um padrão confiável. A empresa também destaca a influência do acesso a buscas na web na precisão das respostas, mas considera a exposição de prompts de clientes a terceiros uma questão sensível.
“