Pulse · AI 뉴스

QuasiMoTTo: 쿼시-몬테카를로 테스트 시간 스케일링

QuasiMoTTo · 2026-07-02

연구진이 QuasiMoTTo라는 새로운 샘플링 기법을 개발했어요. 이 기법은 독립적인 샘플 대신 상관 관계가 있는 샘플을 사용하여 추론 연산 스케일링 효율성을 높여요.

QuasiMoTTo는 쿼시-몬테카를로(QMC)를 활용해 언어 모델의 출력 공간을 더 효율적으로 커버하여 최대 47% 더 적은 샘플로 동일한 성능을 달성했어요.

정책 그래디언트 강화 학습(GRPO)에 적용했을 때, i.i.d. 방식과 동일한 성능을 50% 더 적은 학습 단계로 얻을 수 있었어요.

QuasiMoTTo는 높은 커버리지를 통해 더 강력한 학습 신호를 제공하며, 기존 방식의 한계를 극복하는 새로운 가능성을 보여줘요.

##샘플링##쿼시몬테카를로##강화학습##QuasiMoTTo

매일 핵심 AI 소식을 한국어로, 빠르게