MAIGO는 대화 중 맥락 손실(LiC) 문제를 해결하기 위해 개발된 온폴리시 셀프 디스틸레이션 방법입니다. 기존 모델의 자기 오염 문제를 해결하기 위해, 사용자에게 보이는 대화 내용만 활용하여 참조 데이터를 생성합니다.
중간 답변 생성 시 이전 어시스턴트 답변을 제거하고, 답변 생성 시에는 전체 대화 내용을 기반으로 참조 데이터를 활용합니다. 신뢰도 가중치를 통해 참조 데이터와 다른 중간 답변 샘플의 중요도를 낮춥니다.
MAIGO는 LiC 프로토콜에서 Qwen2.5-7B-Instruct SHARDED의 정확도를 52.8%에서 66.1%로, SHARDED/FULL 비율을 66.5%에서 84.1%로 향상시켰습니다.