Pulse · AI 뉴스

AI 챗봇, 뉴스 전달 정확도 평가: 지역별 편향·정보 오류 우려

Claude 4.5 Sonnet · 2026-05-22

연구진은 2026년 2월 9일부터 22일까지 14일간, Gemini 3 Flash/Pro, Grok 4, Claude 4.5 Sonnet, GPT-5, GPT-4o mini 등 6개 AI 챗봇을 평가했어요.

BBC 뉴스 6개 지역 서비스(미국, 아랍어, 아프리카, 힌디어, 러시아어, 터키어)의 당일 보도를 기반으로 2,100개의 사실 질문을 던졌어요.

최고 성능 챗봇은 몇 시간 전 사건에 대한 질문에서 90% 이상의 객관식 정확도를 기록했지만, 자유 응답 평가에서는 11~13%의 정확도 하락이 관찰됐어요.

힌디어 질문에서 정확도가 가장 낮았으며(79%), 영어 위키피디아 인용 편향이 확인됐고, 잘못된 전제 질문에 취약한 모습도 보였어요.

##AI챗봇##뉴스##평가##GPT-5##ClaudeOpus

매일 핵심 AI 소식을 한국어로, 빠르게