Pulse · AI 뉴스

동일 증거, 다른 답변: 다중 턴 언어 모델을 위한 표준 컨텍스트 온-정책 증류

arXiv cs.CL · 2026-05-29

연구진은 LLM이 전체 지시를 한 번에 제공할 때는 문제를 해결하지만, 여러 턴으로 점진적으로 정보를 제공하면 실패하는 현상을 발견했어요.

Canonical-Context On-Policy Distillation (CCOPD)은 부분 정보 하에 생성된 응답으로 인한 자기 참조 드리프트를 줄이는 방법으로, 교사와 학생 모델을 활용하여 학생 모델이 표준화된 전체 컨텍스트 행동과 일치하도록 훈련해요.

CCOPD는 수학 문제 대화 데이터셋으로 훈련하여 RAW-SHARDED 성능을 평균 32% 향상시켰으며, 전체 컨텍스트 성능은 거의 그대로 유지했어요.

##LLM##CCOPD##다중턴

매일 핵심 AI 소식을 한국어로, 빠르게