연구진이 LLM의 표 데이터 참조 오류(DRE)를 체계적으로 평가했어요. 17억에서 200억 파라미터 모델 모두에서 DRE가 발생했으며, 특히 중간 추론 단계의 신뢰성을 저해해요. 데이터 참조를 비평기로 활용하면 답변 정확도를 최대 12.0%까지 향상시킬 수 있었어요.
4B 파라미터의 경량 비평기 모델을 훈련해, 다양한 DRE를 78.2%의 F1 점수로 감지하고 큰 모델의 추론을 지원했어요. 기존 연구에서 DRE 분석이 미흡했던 점을 보완하고, 실질적인 개선 방안을 제시했어요.