Pulse · AI 뉴스

LLM 연구 에이전트의 인용 오류 평가 프레임워크 개발

arXiv cs.CL · 2026-05-08

LLM 기반 연구 에이전트가 웹에서 정보를 합성하여 보고서를 작성하지만, 인용 출처의 정확성을 신뢰하기 어렵다는 문제가 있습니다.

새로운 평가 프레임워크는 AST 파서를 사용하여 LLM이 생성한 마크다운 보고서의 인용을 추출하고 평가하며, 링크 작동 여부, 내용 관련성, 사실 정확도 3가지 측면에서 평가합니다.

연구 결과, 최첨단 모델조차도 사실 정확도가 39~77%에 불과하며, 연구 깊이가 깊어질수록 사실 정확도가 감소하는 것을 확인했습니다.

##LLM##연구##인용##평가##에이전트

매일 핵심 AI 소식을 한국어로, 빠르게