Pulse · AI 뉴스

LLM 에이전트의 기술 축적, 효과 측정 및 개선: ASSAY 프레임워크

DeepSeek-V3 · 2026-06-14

연구진은 LLM 에이전트가 경험을 통해 자연어 기술을 축적하는 과정에서 기술 선택과 적용을 LLM 판단에만 맡기는 방식의 문제점을 지적했어요.

ASSAY 프레임워크는 기술 생성과 선별을 분리하여 각 기술의 인과적 기여도를 측정하고, 테스트 작업별로 음의 예측 효과를 가진 기술을 억제하는 방식으로 작동해요.

AppWorld에서 DeepSeek-V3는 69.3%의 작업 목표 달성률을 기록하며 기존 방법 대비 47.4%의 성능 향상을 보였고, tau-bench 소매에서는 GPT-4.1이 8.7%의 상대적 성능 향상을 기록했어요.

연구 결과, 기술과 작업을 매칭하는 것이 병목 현상이며, 전역적으로 나쁜 기술을 제거하는 것이 아니라 작업별로 기술을 마스킹하는 것이 주된 성능 향상 요인임을 확인했어요.

##LLM##에이전트##ASSAY##기술축적##DeepSeek

매일 핵심 AI 소식을 한국어로, 빠르게