Anthropic이 LLM의 토큰 생성 과정에 대한 연구를 발표하며, 자연어 자동 인코더(NLA)를 통해 LLM의 사고를 번역할 수 있게 되었습니다.
제마 3 27B instruct 모델의 NLA 모델 가중치를 Auto Verbalizer (AV) 및 Activation Reconstructor (AR) 형태로 허깅페이스에 공개했습니다.
Neuronpedia에서 제마 3에 질문하고 각 토큰에 대한 설명을 확인하여 모델의 사고 과정을 직접 확인할 수 있습니다.