연구진은 2026년 2월 9일부터 22일까지 14일간, Gemini 3 Flash/Pro, Grok 4, Claude 4.5 Sonnet, GPT-5, GPT-4o mini 등 6개 AI 챗봇을 평가했어요.
BBC 뉴스 6개 지역 서비스(미국, 아랍어, 아프리카, 힌디어, 러시아어, 터키어)의 당일 보도를 기반으로 2,100개의 사실 질문을 던졌어요.
최고 성능 챗봇은 몇 시간 전 사건에 대한 질문에서 90% 이상의 객관식 정확도를 기록했지만, 자유 응답 평가에서는 11~13%의 정확도 하락이 관찰됐어요.
힌디어 질문에서 정확도가 가장 낮았으며(79%), 영어 위키피디아 인용 편향이 확인됐고, 잘못된 전제 질문에 취약한 모습도 보였어요.