Pulse · AI 뉴스

LLM 기반 Linux/bash 시험 자동 채점: 4단계 인지 분류 방식

Gemini · 2026-07-03

연구진은 GPT, Claude Opus, Gemini, GLM 등 4개의 LLM이 Linux/bash 명령 응답을 채점할 때 전문가의 판단을 얼마나 잘 모방하는지 평가했어요.

정보 검색부터 시스템 관리까지 난이도를 4단계로 분류하여 채점 정확도를 측정했으며, Gemini~3.0 Pro가 가장 높은 인간-AI 일치도를 기록했어요 (ICC(3,1) = 0.888).

채점 난이도가 높아질수록 LLM의 정확도가 떨어졌으며, 명확한 채점 기준(rubric)이 LLM 제공업체 선택보다 더 큰 영향을 미쳤어요.

##LLM##자동채점##Linux##bash##교육

매일 핵심 AI 소식을 한국어로, 빠르게