Pulse · AI 뉴스

DeNovoSWE: 처음부터 전체 저장소 생성하는 새로운 데이터셋 공개

Qwen · 2026-06-09

연구진이 LLM 기반 코드 에이전트 훈련을 위한 대규모 데이터셋 DeNovoSWE를 공개했어요. 이 데이터셋은 4,818개의 고품질 인스턴스로 구성되어 있으며, 각 인스턴스는 문서에서 전체 저장소를 생성하는 과정을 포함해요.

DeNovoSWE는 '분할 정복' 및 '비평-수리' 철학을 바탕으로 설계되었으며, 데이터 품질과 다양성을 위해 난이도 기반 트래jectory 필터링 전략을 도입했어요.

DeNovoSWE로 Qwen3-30B-A3B를 파인튜닝한 결과, BeyondSWE-Doc2Repo 벤치마크 점수가 5.8%에서 47.2%로 크게 향상됐어요.

##코드에이전트##데이터셋##소프트웨어엔지니어링##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게