연구진이 기존 법률 AI 평가 방식의 한계를 지적하며, 검찰 수사 결정 예측(PDP)이라는 새로운 과제를 제시했어요. PDP는 증거 평가, 법률 적용, 가치 기반 재량 판단 등 법률 AI의 역량을 평가하는 데 초점을 맞추고, 실제 중국 검찰 수사 결정 4630건으로 구성된 PDP-Bench를 구축했어요. 최신 LLM은 PDP에서 LJP보다 성능이 현저히 낮고, 단순 보상 강화 학습도 일반화된 예측 성능을 내지 못하는 것으로 나타났어요.