연구진은 기존 안전 평가가 최종 결과에만 집중하여 유해성이 추론 과정에서 어떻게 발생하는지 간과한다는 점을 지적했어요.
새로운 벤치마크 'HarmThoughts'를 통해 추론 과정의 각 단계에서 발생하는 유해 행위를 세분화하여 평가하고, 안전 모니터링 및 문제 진단을 위한 기반을 마련했어요.
HarmThoughts는 16가지 유해 행위 유형을 분류하고, 56,931개의 문장으로 구성된 데이터셋을 공개하여 모델의 안전성 평가 및 개선에 기여할 것으로 기대돼요.