Natural Language Autoencoders(NLA)는 Claude 내부 활성값을 사람이 읽을 수 있는 자연어 설명으로 변환하는 방법입니다. NLA는 동결된 target model에서 활성값을 추출하고, activation verbalizer(AV)를 통해 텍스트로 변환합니다. 연구진은 NLA를 활용해 Claude의 의사 결정 과정을 이해하고, 모델의 내부 상태를 해석할 수 있음을 밝혔습니다.