Pulse · AI 뉴스

답변 전에 안전이 실패할 때: 추론 과정에서 유해 행위 감지 벤치마킹

Hugging Face · 2026-04-21

연구진은 기존 안전 평가가 최종 결과에만 집중하여 유해성이 추론 과정에서 어떻게 발생하는지 간과한다는 점을 지적했어요.

새로운 벤치마크 'HarmThoughts'를 통해 추론 과정의 각 단계에서 발생하는 유해 행위를 세분화하여 평가하고, 안전 모니터링 및 문제 진단을 위한 기반을 마련했어요.

HarmThoughts는 16가지 유해 행위 유형을 분류하고, 56,931개의 문장으로 구성된 데이터셋을 공개하여 모델의 안전성 평가 및 개선에 기여할 것으로 기대돼요.

##안전성##벤치마크##추론
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기