Pulse · AI 뉴스

트랜스포머 언어 모델에서 주의 집중된 흰 곰 효과

arXiv cs.AI · 2026-05-28

연구팀은 언어 모델의 억제 메커니즘이 표현 억제에 그치는지를 조사했어요. 억제 상태에서도 금지된 개념이 내부 표현에서 여전히 회수 가능하며, 어텐션 경로에 영향을 미치고, 어휘 회피에도 불구하고 하위 생성에 영향을 미치는 것으로 나타났어요. 이는 다양한 모델 패밀리에서 나타나는 현상이며, 행동과 표현의 불일치를 보여줘요.

연구는 억제된 콘텐츠가 표현 억제에 그치지 않고, 모델 내부 표현에 지속적인 영향을 미친다는 것을 밝혀냈어요. 어텐션 분석과 행동 의미 누출 실험을 통해 금지된 개념이 여전히 회수 가능하며, 하위 생성에 영향을 미치는 것을 확인했어요.

이 연구는 언어 모델의 행동과 내부 표현의 불일치를 드러내며, 억제 메커니즘의 한계를 시사합니다. 다양한 모델과 제어 전략에서도 동일한 현상이 나타나며, 더욱 근본적인 해결책이 필요함을 강조합니다.

##언어모델##억제##어텐션##트랜스포머
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기