연구자들은 LLM의 진정한 과학적 발견 능력 평가를 위해 새로운 벤치마크 ProjectionBench를 소개했어요. ProjectionBench는 모델에게 초기에는 연구 주제와 질문만 제공하고, 점차 세부 정보를 공개하며 가설 생성을 평가하는 방식이에요. GPT-5.4와 Gemini 3.1 pro는 이전 모델보다 성능이 향상되었으며, 특히 GPT-5.4는 최소 정보 환경에서도 0.7의 F1 점수 일치도를 유지했어요.