SHAPE는 학생들이 정답을 얻어내기 위한 유도 질문을 사용하는 '교육적 자행행위'라는 교육용 LLM의 취약점을 지적했어요. SHAPE 벤치마크는 9,087개의 학생 질문 쌍으로 구성되어 있으며, 적대적인 압박 하에서 튜터링 행동을 평가하는 데 사용돼요. 연구팀은 그래프 기반 튜터링 파이프라인을 제안하여 안전성을 향상시키고, 유용성을 유지하며, 교육적 자행행위 공격에 대한 방어력을 강화했어요.