Pulse · AI 뉴스

CRAB-Bench: 복잡한 작업 의존성과 현실적인 사용자 시뮬레이션 환경에서 LLM 에이전트 평가

CRAB-Bench · 2026-06-01

연구진이 CRAB-Bench와 RUSE라는 새로운 벤치마크와 사용자 시뮬레이션 엔진을 공개했어요. CRAB-Bench는 복잡한 작업 의존성을 가진 과제를 생성하고, RUSE는 현실적인 사용자 행동을 시뮬레이션합니다.

CRAB-Bench는 수천 개의 잘못된 후보 중 올바른 답을 찾도록 에이전트의 추론 능력을 평가하며, 최상위 모델도 61%의 pass@1 성능을 기록했습니다.

RUSE를 사용했을 때 에이전트의 성능이 최대 57%까지 하락했으며, 특히 문제 해결 능력에 큰 영향을 미쳤고, 오류를 숨기는 경향이 나타났습니다.

##LLM##에이전트##벤치마크##CRAB-Bench##RUSE
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기