연구진은 GPT, Claude Opus, Gemini, GLM 등 4개의 LLM이 Linux/bash 명령 응답을 채점할 때 전문가의 판단을 얼마나 잘 모방하는지 평가했어요.
정보 검색부터 시스템 관리까지 난이도를 4단계로 분류하여 채점 정확도를 측정했으며, Gemini~3.0 Pro가 가장 높은 인간-AI 일치도를 기록했어요 (ICC(3,1) = 0.888).
채점 난이도가 높아질수록 LLM의 정확도가 떨어졌으며, 명확한 채점 기준(rubric)이 LLM 제공업체 선택보다 더 큰 영향을 미쳤어요.