연구진은 LLM 피드백과 전문가 피드백의 목표 지향성, 문장 기반 앵커링, 우선순위 등 주요 차원을 비교 분석하기 위해 FOXGLOVE 데이터셋을 구축했어요.
FOXGLOVE는 69명의 12학년 학생의 논쟁 에세이에 대한 훈련된 글쓰기 강사의 피드백 696건과 4개의 최첨단 LLM이 생성한 1,644건의 피드백을 포함하며, 전문가가 품질을 평가한 하위 집합도 포함돼요.
LLM 피드백은 전문가 피드백보다 더 복잡하고 질문을 덜 사용하며, 품질 측면에서도 높은 평가를 받았지만, 이는 주로 피드백의 길이가 더 길기 때문인 것으로 분석돼요.