연구 자동화를 목표로 하는 AI 연구 에이전트의 핵심 병목 현상인 연구 아이디어의 방법론적 타당성 판단 능력을 평가하는 SoundnessBench가 공개됐어요.
SoundnessBench는 ICLR 제출 논문에서 재구성된 1,099개의 머신러닝 연구 제안으로 구성되며, 리뷰어의 타당성 점수를 기준으로 평가돼요.
12개의 최신 LLM을 테스트한 결과, 표준 프롬프트 사용 시 낮은 타당성 제안을 자주 타당하다고 평가하는 낙관주의 편향이 나타났으며, 공격적인 프롬프트는 오류를 거짓 양성에서 거짓 음성으로 전환하는 경향이 있어요.