Pulse · AI 뉴스

ProjectionBench: LLM의 점진적 정보 공개 환경에서의 과학적 가설 생성 평가

OpenAI · 2026-05-29

연구자들은 LLM의 진정한 과학적 발견 능력 평가를 위해 새로운 벤치마크 ProjectionBench를 소개했어요.

ProjectionBench는 모델에게 초기에는 연구 주제와 질문만 제공하고, 점차 세부 정보를 공개하며 가설 생성을 평가하는 방식이에요.

GPT-5.4와 Gemini 3.1 pro는 이전 모델보다 성능이 향상되었으며, 특히 GPT-5.4는 최소 정보 환경에서도 0.7의 F1 점수 일치도를 유지했어요.

##LLM##과학적가설##ProjectionBench##GPT-5.4##Gemini

매일 핵심 AI 소식을 한국어로, 빠르게