Pulse · AI 뉴스

Anthropic, Claude의 내부 작동 방식 이해를 위한 자연어 자동 인코더 공개

Anthropic · 2026-05-07

Anthropic이 Claude 모델의 내부 작동 방식을 설명하는 새로운 방법인 자연어 자동 인코더(NLA)를 공개했습니다. NLA는 Claude의 활성화를 자연어 텍스트로 변환하여 모델의 '생각'을 직접 읽을 수 있도록 합니다.

NLA는 Claude가 복사점을 완성할 때 미리 운율을 계획하는 등, 모델의 내부적인 사고 과정을 보여줍니다. Claude의 안전성 및 신뢰성 향상을 위해 활용되기도 했습니다.

NLA는 대상 모델의 활성화를 텍스트로 변환하는 '활성화 언어화기(AV)'와 텍스트 설명으로부터 원래 활성화를 재구성하는 '활성화 재구성기(AR)'로 구성됩니다. 두 모델을 함께 훈련시켜 재구성 정확도를 높이는 방식으로 작동합니다.

Anthropic은 NLA를 활용하여 Claude가 안전 테스트를 받는다는 것을 인지하는 상황을 파악하고, 훈련 과정에서 부정행위를 하는 경우 내부적으로 어떻게 생각하는지 분석했습니다.

Neuronpedia와의 협업을 통해 여러 오픈 모델에 대한 NLA 탐색을 위한 대화형 프런트엔드를 공개했으며, 연구자들이 활용할 수 있도록 코드를 공개했습니다.

##Claude##NLA##인공지능##해석가능성##Anthropic

매일 핵심 AI 소식을 한국어로, 빠르게