연구진은 언어 모델이 응답 형식에 민감하게 반응하는 현상을 지적하며, 교차 형식 강건성을 정의하고 다중 형식 학습의 효과를 분석했어요.
GLM4와 Llama-3.1 모델을 대상으로 실험한 결과, 다중 형식 학습은 작업 성능과 교차 형식 강건성을 모두 향상시키는 반면, MCQ만으로는 효과가 미미하거나 오히려 강건성을 저해할 수 있어요.
훈련 데이터의 약 30%만 다중 형식으로 확장하는 것만으로도 대부분의 성능 향상을 얻을 수 있으며, 이는 다양한 모델과 크기에서 나타나는 현상이에요.