Pulse · AI 뉴스

언어 모델의 병리적 행동 패턴 모방: 행동 미세 조정

arXiv cs.CL · 2026-05-21

연구진은 언어 모델의 행동을 미세 조정하여 우울증, 편집증과 같은 비정상적인 행동 패턴을 모방하는 프레임워크를 개발했어요.

미세 조정된 모델은 다양한 상황에서 특정 행동을 일관되게 선택하도록 훈련되었으며, 이는 부정적이고 위협적인 해석에 대한 확률을 증가시켰어요.

각기 다른 행동 패턴으로 최적화된 모델은 평가 프로브에서 차별적인 반응 경향을 보여 정책 수준의 편향을 나타냈어요.

연구 결과는 행동 제약이 표현 구조를 형성하는 정책 기반 시스템으로서의 LLM 가능성을 시사하며, 행동, 해석, 생성 언어 간의 관계를 연구하는 데 잠재력을 보여줘요.

##언어모델##행동미세조정##인지모델링
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기