연구자들이 과학적 아이디어를 생성하고 평가하는 데 LLM이 활용되면서 참신성 평가가 핵심 과제로 떠올랐어요. 연구 질문(RQ)을 생성하는 것은 과학적 아이디어 구상의 전제 조건이며, 실제 논문에서 다루는 질문과 비교할 수 있어요. 연구자들이 제시한 참조점을 기준으로 모델이 생성한 RQ의 참신성을 평가하는 벤치마크 RQ-Bench를 소개해요.
독립적인 LLM 심판, 비교 LLM 심판, 전문가 평가를 통해 모델이 생성한 RQ를 평가한 결과, LLM 심판은 모델이 생성한 RQ를 일관되게 매우 참신하다고 평가하며 참신성 환상을 만들어냈어요. 반면, 분야 전문가들은 모델이 생성한 RQ보다 연구자들이 제시한 참조 질문을 선호했어요.
생성된 RQ 중 상당수는 좁거나 출처에 의존적이며, LLM 심판은 명시적으로 테스트하지 않는 한 이러한 측면을 놓칠 수 있어요. LLM 심판과 전문가의 상반된 참신성 평가는 연구 질문의 과학적 참신성을 평가하는 데 LLM을 사용하는 것의 신뢰성에 대한 우려를 낳습니다.