연구진이 CRAB-Bench와 RUSE라는 새로운 벤치마크와 사용자 시뮬레이션 엔진을 공개했어요. CRAB-Bench는 복잡한 작업 의존성을 가진 과제를 생성하고, RUSE는 현실적인 사용자 행동을 시뮬레이션합니다.
CRAB-Bench는 수천 개의 잘못된 후보 중 올바른 답을 찾도록 에이전트의 추론 능력을 평가하며, 최상위 모델도 61%의 pass@1 성능을 기록했습니다.
RUSE를 사용했을 때 에이전트의 성능이 최대 57%까지 하락했으며, 특히 문제 해결 능력에 큰 영향을 미쳤고, 오류를 숨기는 경향이 나타났습니다.