연구진은 LLM 튜터의 스캐폴딩(학생을 단계별로 안내하는 교육 방식) 효과를 평가하기 위해 새로운 평가 파이프라인을 도입했어요. 실제 환경에서 학생들은 튜터의 스캐폴딩을 따르지 않고, 자신의 학습 목표를 달성하기 위해 대화 흐름을 제어하는 경향이 있어요. 연구 결과, 튜터의 교육적 프레임과 학생의 학습 목표 간 불일치가 존재하며, 향후 벤치마크는 학생의 다양한 학습 맥락과 상호작용 패턴을 고려해야 해요.