연구진은 LLM이 다중 턴 대화에서 피해를 증폭시키는 현상에 주목하여 새로운 벤치마크 HarmAmp를 공개했어요. HarmAmp는 12가지 위험 범주를 아우르며, 실제 위협을 기반으로 설계됐어요.
HarmAmp 벤치마크를 바탕으로 TrajSafe라는 선제적 모니터를 제안하여, 악의적인 경로를 예측하고 사용자 의도를 파악하여 안전한 방향으로 모델을 유도해요.
실험 결과 TrajSafe는 다중 턴 상호작용에서 유발되는 피해를 줄이고, 과도한 거부율을 낮추며 모델의 일반적인 성능을 유지하는 데 효과적이었어요.