연구진이 핵공학 지식 평가를 위한 LLM 벤치마크 NuclearQAv2를 공개했어요. 이 벤치마크는 객관식, 수치형, 서술형 질문 1,240여 개로 구성돼요. 전문가 질문, 기존 데이터, LLM 지원 생성 방식을 결합해 제작했으며, 정형화된 프롬프팅을 통해 대규모 벤치마크 구축 및 평가가 가능해요. 다양한 LLM을 평가한 결과, 사실 기반 질문은 잘 푸는 반면, 정량 추론과 개념 이해는 여전히 어렵다는 점을 확인했어요.