GradeLegal 연구팀은 LLM을 활용해 독일 법학 시험 채점을 자동화하는 가능성을 연구했어요. 공법 영역에서 LLM은 채점 기준과 예시 답안을 활용해 전문가 수준의 채점이 가능했어요. 여러 LLM을 묶어 사용하는 앙상블 방식은 단일 모델보다 채점 일치도를 높일 수 있었어요. 연구 결과, 형법 영역 채점은 공법 영역보다 더 어려운 과제로 나타났어요. LLM 채점의 신뢰성을 높이기 위해서는 효과적인 프롬프트 설계와 모델 선택이 중요해요.