LLM 기반 에이전트가 실제 환경에서 정책 모호성으로 인한 어려움을 평가하기 위한 벤치마크 DRIP-R이 공개됐습니다. DRIP-R은 실제 소매 정책의 모호성을 활용하여 단일 정답이 없는 시나리오를 구성하고, 정책 준수, 대화 품질, 행동 일치, 해결 품질을 평가합니다. 실험 결과, 최첨단 모델조차도 동일한 모호한 시나리오에서 의견이 달라 정책 모호성이 LLM의 의사 결정에 큰 어려움을 준다는 것을 확인했습니다.