Pulse · AI 뉴스

의도 기반 학습으로 LLM 안전 분류 성능 향상: AIMS 데이터셋 공개

AIMS · 2026-06-26

연구진이 사용자 의도를 명시적 신호로 모델링하는 안전 분류기 학습의 중요성을 강조했어요. AIMS라는 1,724개 안전 프롬프트 데이터셋을 공개했는데, 각 프롬프트는 의도 설명과 피해 레이블을 포함하고 있어요. 다양한 학습 방식에서 의도 기반 학습이 기존 방식보다 우수한 성능을 보였으며, 특히 GRPO를 활용한 의도 충실도 보상은 외부 안전 벤치마크에서 가장 높은 성능을 달성했어요.

AIMS 데이터셋은 지도 학습, 선호 학습, 추론 증류, 강화 학습 등 다양한 학습 방식에서 안전 분류기를 평가하는 데 활용됐어요. 의도 기반 학습은 기존 방식 대비 경쟁력 있는 성능을 보여줬으며, 의도 조건부 증류는 추론 증류만 사용하는 경우보다 뛰어났어요.

연구 결과, 의도 모델링은 안전 분류기의 견고성을 높이는 데 효과적인 감독 신호이며, 의도 충실도를 직접적으로 보상하는 GRPO 방식은 가장 우수한 성능을 보이며, 지연 시간과 F1 점수 간의 균형을 맞추는 데에도 기여했어요.

##LLM##안전##의도##AIMS##데이터셋
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기