Pulse · AI 뉴스

코딩 에이전트 성능 평가를 위한 9가지 작업 벤치마크 공개

paper-lantern-ai · 2026-04-25

연구팀이 코딩 에이전트의 성능을 평가하는 9가지 작업 벤치마크(paper-lantern-challenges)를 오픈 소스로 공개했어요. 이 벤치마크는 정보 검색 기술을 활용한 코딩 에이전트의 성능을 측정합니다.

벤치마크는 테스트 생성, 텍스트-SQL, PDF 추출 등 다양한 일상적인 소프트웨어 작업들을 포함하며, 각 작업별 성능 향상 폭은 0.010에서 0.320까지 나타났어요.

연구팀은 정보 검색을 통해 최신 기술을 활용할 수 있도록 설계했으며, 모든 프롬프트, 코드, 예측 파일 등을 공개하여 재현 가능성을 확보했어요.

##코딩에이전트##벤치마크##오픈소스##검색증강##ClaudeOpus
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기