Pulse · AI 뉴스

LLM의 SFT 행동을 되돌릴 수 있는 구조 생성 가능성 확인

arXiv cs.LG · 2026-05-08

연구진은 지도 학습(SFT)을 통해 대규모 언어 모델에 유도되는 행동을 특정 신경망 회로에 압축하고, 이를 제어하며 되돌릴 수 있는 방법을 제시했습니다.

Loss-Constrained Dual Descent (LCDD)를 통해 행동을 담는 '캐리어'를 생성하고, SFT-Eraser라는 소프트 프롬프트를 활용하여 SFT로 유도된 행동을 되돌릴 수 있습니다.

실험 결과, LCDD는 목표 행동을 유지하면서도 강력한 역전 기능을 제공하며, 구조가 역전의 핵심 요소임을 확인했습니다.

##LLM##SFT##역전##구조##캐리어

매일 핵심 AI 소식을 한국어로, 빠르게