AlphaToken은 LLM 추가 훈련 시 응답 토큰의 가치를 평가하는 새로운 프레임워크입니다. 적응과 안정성이라는 두 가지 목표를 분리하고, 로컬 토큰 기울기와 다운스트림 인과 경로 신호를 결합하여 경로 인지적 방식으로 처리합니다.
Fisher-drift 프록시를 활용하여 안정성을 근사화하고, Ghost Dot-Product를 확장하여 효율적인 토큰 수준 가치 평가를 수행합니다.
AlphaToken은 저가치 응답 토큰을 마스크하여 추가 훈련 성능을 향상시키고, 재앙적 망각을 완화합니다.