본 연구는 대규모 언어 모델(LLM)이 장기적인 환경 상호작용을 통해 과제를 해결하는 능력을 탐구합니다. 특히, 과제 지평선 길이가 훈련 역학에 미치는 영향을 체계적으로 조사하여, 지평선 길이가 훈련 병목 현상을 유발한다는 사실을 밝혀냈습니다.
연구 결과, 지평선 길이를 줄이는 것이 훈련을 안정화하고 장기 과제에서 더 나은 성능을 달성하는 데 핵심적인 원칙임을 확인했습니다. 지평선 길이를 줄이면 추론 시 더 긴 지평선으로의 일반화가 강화되는 '지평선 일반화' 현상이 나타납니다.
본 연구는 LLM 훈련 과정에서 지평선 길이의 중요성을 강조하며, 훈련 안정성과 일반화 성능 향상을 위한 새로운 방향을 제시합니다.