연구진은 대규모 언어 모델(LLM)의 레이어별 예측 정보의 기하학적 구조를 조사했어요. 이를 위해 다음 토큰을 예측하는 데 사용되는 표현 렌즈를 활용하여 예측 정보가 어디에 위치하고 깊이에 따라 어떻게 변화하는지 분석했답니다.
연구 결과, 모델 깊이에 따라 예측 정보의 분포가 상승, 일시적 안정, 하락의 패턴을 보이며, 다양한 크기(d의 1%에서 50%)에서 파레토 최전선을 형성하는 것으로 나타났어요.
연구진은 Qwen2.5와 OLMo2 모델 패밀리의 8개 모델을 분석하여 예측 정보가 업데이트되는 세 가지 단계(Seeding Multiplexing, Hoisting Overriding, Focal Convergence)를 식별하고, 깊은 LLM의 추가 용량이 후보 해소에 주로 사용된다는 사실을 밝혀냈어요.