Pulse · AI 뉴스

핵심 과학 지식 평가 벤치마크 NuclearQAv2 공개: LLM의 전문 분야 능력 점검

NuclearQAv2 · 2026-06-25

연구진이 핵공학 지식 평가를 위한 LLM 벤치마크 NuclearQAv2를 공개했어요. 이 벤치마크는 객관식, 수치형, 서술형 질문 1,240여 개로 구성돼요.

전문가 질문, 기존 데이터, LLM 지원 생성 방식을 결합해 제작했으며, 정형화된 프롬프팅을 통해 대규모 벤치마크 구축 및 평가가 가능해요.

다양한 LLM을 평가한 결과, 사실 기반 질문은 잘 푸는 반면, 정량 추론과 개념 이해는 여전히 어렵다는 점을 확인했어요.

##LLM##벤치마크##핵공학##NuclearQAv2
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기