Pulse · AI 뉴스

HMPO: 체인 오브 씽킹 압축을 위한 하이브리드 중간 길이 정책 최적화

HMPO · 2026-06-01

연구진이 CoT 압축 프레임워크 HMPO를 제안했어요. HMPO는 중간 길이 기반 예산, 코사인 감쇠 토큰 보상, 곱셈 보상 등 세 가지 핵심 요소를 활용합니다.

9B~122B 파라미터 모델에 적용한 결과, 최대 46% 토큰 압축률을 보였으며 정확도 손실은 미미했어요.

기존 다단계 방식 대비 훈련 비용을 대폭 절감하면서 수학, 코드, 과학, 지시 따르기 등 다양한 작업에 적용 가능합니다.

##CoT##압축##최적화##ReinforcementLearni##HMPO

매일 핵심 AI 소식을 한국어로, 빠르게