Pulse · AI 뉴스

ForeSci: 미래 지향적 AI 연구 판단을 위한 LLM 에이전트 평가 벤치마크

ForeSci · 2026-06-04

ForeSci는 미래의 증거 없이 연구 방향을 결정하는 LLM 에이전트의 능력을 평가하는 새로운 벤치마크입니다. 500개의 과제로 구성되어 있으며, 각 과제는 특정 시점까지의 지식 기반을 사용하고, 이후의 논문은 검증에만 사용됩니다.

연구 에이전트 적응을 포함한 다양한 LLM을 평가한 결과, 명시적인 증거 구성이 추적 가능성과 사실적 지원을 향상시키지만, 의사 결정 유형에 따라 효과가 달라집니다.

ForeSci는 연구 에이전트가 의사 결정 시스템으로서 어떻게 작동하는지 평가하기 위한 통제된 벤치마크를 제공하며, 증거와 의사 결정 간의 분리 문제를 드러냅니다.

##ForeSci##LLM##연구평가##에이전트
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기