연구진은 피드백 기반 학습 시스템의 한계를 극복하기 위해 온라인 연합 LLM 미세 조정 알고리즘인 SPEAR을 개발했습니다. SPEAR은 피드백 기반 자가 학습 루프를 활용하여 프롬프트당 자연스러운 대비 쌍을 구성하고, 이를 통해 모델을 훈련합니다. 기존 방식과 달리 SPEAR은 지상 진리 맥락 없이 온라인으로, 그리고 자원 효율적으로 훈련이 가능하며, 다양한 벤치마크 데이터셋에서 우수한 성능을 보였습니다.