연구진은 LLM의 클래스 수준 코드 생성 능력을 평가하기 위한 새로운 벤치마크인 ClassEval-Pro를 발표했어요. ClassEval-Pro는 11개 도메인을 포괄하는 300개의 클래스 수준 작업으로, 실제 GitHub 코드를 활용하여 자동화된 파이프라인으로 구축되었어요. 현재까지 가장 뛰어난 모델도 45.6%의 Pass@1 성능을 기록했으며, 오류 분석 결과 로직 오류와 의존성 오류가 주요 원인으로 파악되었어요.