Alguns modelos de IA não se sairiam nada bem em uma prova de História, aponta a pesquisa

Cérebro com os dizeres
Imagem: Anggalih Prasetya/Shutterstock

A Inteligência Artificial até pode se destacar em várias áreas, mas a História não é uma delas! De acordo com um novo estudo apresentado na conferência NeurIPS, em dezembro, três grandes modelos de linguagem (LLMs) foram reprovados com base em seu conhecimento histórico.


Entenda:

  • Um estudo avaliou o conhecimento histórico de modelos de IA – e os resultados foram decepcionantes;
  • A pesquisa envolveu três grandes modelos de linguagem (LLMs): GPT-4 da OpenAI, Llama da Meta e Gemini do Google;
  • Respondendo a uma série de questões históricas, o GPT-4 Turbo apresentou uma precisão de apenas 46% – a maior entre os três modelos;
  • Os resultados do OpenAI e Llama, por exemplo, indicaram um desempenho inferior em regiões como a África Subsaariana, indicando um viés nos dados de treinamento;
  • Apesar disso, a equipe destaca que, com melhorias, os LLMs podem apoiar historiadores no futuro.
ChatGPT 4 1Milhao Internet
GPT-4, da OpenAI, teve 46% de precisão em teste de conhecimento histórico. (Imagem: Ebru-Omer/Shutterstock)

Conduzido por pesquisadores afiliados ao Complexity Science Hub (CSH), na Áustria, o estudo avaliou o desempenho do GPT-4 da OpenAI, Llama da Meta e Gemini do Google com base em uma série de questões históricas. Depois, as respostas foram comparadas a informações disponíveis no Seshat Global History Databank, banco de dados de história. 

Leia mais:

Modelos de IA decepcionaram em “prova” de História

De acordo com os pesquisadores, o GPT-4 Turbo apresentou os “melhores” resultados, com uma precisão de apenas 46%. “A principal lição deste estudo é que os LLMs, embora impressionantes, ainda carecem da profundidade de compreensão necessária para história avançada”, disse Maria del Rio-Chanona, coautora do artigo, em comunicado.

gemini
Gemini, do Google, e Llama, da Meta, também foram analisados no estudo. (Imagem: rafapress/Shutterstock)

A equipe também pontuou que, nos resultados do OpenAI e Llama, foi identificado um desempenho inferior em regiões como a África Subsaariana, sugerindo dados de treinamento enviesados e a possibilidade de “enfatizar demais certas narrativas históricas e negligenciar outras”.

Os pesquisadores destacam que, com o aperfeiçoamento dos dados de treinamento, os LLMs ainda podem apoiar historiadores futuramente. “No geral, embora nossos resultados destaquem áreas onde os LLMs precisam de melhorias, eles também ressaltam o potencial desses modelos para auxiliar na pesquisa histórica.”


Ana Julia Pilato

Colaboração para o Olhar Digital


Ana Julia Pilato é colaboração para o olhar digital no Olhar Digital