Pulse · AI 뉴스

LLM의 제어 가능성은 언제인가?

arXiv cs.CL · 2026-06-10

연구진은 LLM의 행동을 제어하는 경량화된 방법인 활성화 제어(activation steering)의 성공 여부를 예측하는 방법을 연구했어요.

ASTEER 테스트베드를 구축하여 150개 개념에 대한 140만 건의 제어된 생성 데이터를 수집하고, 제어 성공/실패 여부를 라벨링했어요.

초기 토큰 생성 후 모델의 내부 상태를 분석하여 제어 가능성을 예측하고, 제어 성공률을 높이는 데 활용하여 최적의 성능을 달성했어요.

##LLM##제어##인공지능##연구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기