연구자들이 과학적 아이디어를 생성하고 평가하는 데 LLM이 활용되면서, 참신성 평가가 핵심 과제로 떠올랐어요. 연구 질문(RQ)은 과학적 아이디어 구상의 전제 조건이며, 실제 논문에서 다루는 질문과 비교 가능하기 때문에 참신성 평가에 적합해요.
arXiv 논문 기반 벤치마크 RQ-Bench를 구축하여 LLM이 생성한 연구 질문의 참신성을 평가한 결과, LLM 심판은 생성된 질문을 높은 참신성을 가진 것으로 평가하는 '참신성 환상'을 만들어냈어요.
전문가들은 LLM 심판과 달리 LLM이 놓치는 질문의 좁은 범위나 출처 의존성과 같은 측면을 고려하여 실제 논문의 연구 질문을 선호하며, 이는 LLM을 활용한 과학적 참신성 평가의 신뢰성에 대한 우려를 제기해요.