Pulse · AI 뉴스

코딩 에이전트, 계산 재료 과학 분야 연구 결과 재현 가능할까?

AutoMat · 2026-05-02

대규모 언어 모델(LLM) 기반 코딩 에이전트가 소프트웨어 엔지니어링 벤치마크에서 뛰어난 성능을 보이지만, 계산 과학 워크플로우에서 성공적으로 활용될 수 있을지는 불확실합니다.

연구진은 계산 재료 과학 분야의 연구 결과 재현 능력을 평가하는 벤치마크 AutoMat을 개발했으며, 현재 LLM 기반 에이전트는 AutoMat에서 낮은 성공률(54.1%)을 기록했습니다.

AutoMat은 LLM 기반 에이전트가 불완전한 절차, 방법론적 편차, 실행 불안정성 등의 문제로 어려움을 겪고 있음을 보여줍니다.

##LLM##에이전트##재현성
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기