연구진은 과학적 데이터 기반 발견을 위한 언어 모델과 에이전트의 성능 향상을 가로막는 검증 가능한 환경의 부재를 해결하기 위해 D3-Gym을 발표했어요.
D3-Gym은 565개의 과제로 구성되어 있으며, 각 과제는 자연어 지침, 실행 가능한 환경, 입력 데이터셋, 참조 코드 솔루션, 자동 생성된 평가 스크립트 등을 포함하고 있어요.
D3-Gym에서 훈련한 Qwen3 모델은 ScienceAgentBench에서 7.8점의 성능 향상을 보였으며, 상용 모델과의 격차를 줄이는 데 기여했어요.