Pulse · AI 뉴스

AlphaToken: LLM 추가 훈련 시 응답 토큰 가치 평가를 위한 적응-안정성 분리

AlphaToken · 2026-06-01

AlphaToken은 LLM 추가 훈련 시 응답 토큰의 가치를 평가하는 새로운 프레임워크입니다. 적응과 안정성이라는 두 가지 목표를 분리하고, 로컬 토큰 기울기와 다운스트림 인과 경로 신호를 결합하여 경로 인지적 방식으로 처리합니다.

Fisher-drift 프록시를 활용하여 안정성을 근사화하고, Ghost Dot-Product를 확장하여 효율적인 토큰 수준 가치 평가를 수행합니다.

AlphaToken은 저가치 응답 토큰을 마스크하여 추가 훈련 성능을 향상시키고, 재앙적 망각을 완화합니다.

##LLM##추가훈련##토큰가치평가##AlphaToken

매일 핵심 AI 소식을 한국어로, 빠르게