Pulse · AI 뉴스

LLM 에이전트 벤치마크 논문 12편 분석: 평가 방식 공개 현황 감사 및 오픈 스코어링 체계

arXiv cs.LG · 2026-05-21

연구진은 LLM 에이전트 벤치마크 논문 12편의 평가 방식 공개 현황을 분석했습니다. 논문 간 결과 불일치 원인 파악을 위해 벤치마크, 설정, 평가 버전 등 상세 정보 공개 여부를 점검했습니다.

작성된 감사 스키마는 벤치마크 식별, 하네스 사양, 추론 설정, 비용 보고, 실패 분석 5가지 항목으로 구성되었으며, 12편의 논문(에이전트 8편, 정적 벤치마크 4편)에 적용했습니다.

에이전트 벤치마크 논문의 평균 감사 점수는 0.38점(1.0점 만점), 정적 벤치마크는 0.66점으로, 비용 정보 공개 부족이 가장 큰 문제로 나타났습니다.

연구진은 감사 스키마(JSON Schema), 코드북(Markdown), 원본 점수표(CSV)를 공개하며, 다중 평가자 감사는 향후 개선 방향으로 제시했습니다.

##LLM##벤치마크##에이전트##평가##오픈소스
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기