Pulse · AI 뉴스

심리적 안전망 구축: LLM의 심리학 기반 거절 프레임워크 'PsychoSafe'

Qwen · 2026-06-09

연구진이 LLM의 윤리적 거절을 심리학적 지원으로 재구성하는 프레임워크 'PsychoSafe'를 개발했어요. 위기 상황이나 강압적 의도를 포함하는 고위험 상호작용에서 단순 거절 대신 지원적 소통을 제공하는 방식입니다.

PsychoSafe는 5가지 심리학적 위험 영역을 포괄하는 8019개의 프롬프트-응답 쌍을 활용하여 Qwen 3.5 27B 모델에 적용되었으며, 검증 데이터셋에서 기존 방식보다 거절 품질을 28.1% 향상시켰어요.

외부 자원 연계 및 심리적 기반 강화에 특히 강점을 보였지만, 일반적인 성능 유지하며 SORRY-Bench, XSTest에서 강건성을 확인했어요. 향후 다양한 데이터로 모델의 선택적 적용 능력 향상이 필요합니다.

##LLM##안전##심리학##거절##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기