Anthropic이 Gemma 4 31B 모델의 텍스트 가중치를 동결 상태로 유지하고, 얇은 학습 가능한 인터페이스를 통해 다양한 방식으로 이전했습니다. 이를 통해 로봇 조작 작업에서 SOTA를 달성했습니다.
D4RL Walker2d-medium-v2 작업에서는 Decision-Transformer와 유사한 성능을 보였으며, 학습 가능한 파라미터 수를 0.43배로 줄이고 5L 슬라이스로 압축했습니다.
텍스트 사전 훈련의 가장 깨끗한 사례인 연관 기억에서 동결된 슬라이스와 113K 파라미터 선형 인터페이스는 L30 최고 체크포인트당 비트 오류율 0.0505를 달성했습니다.