연구진은 LLM 에이전트가 경험을 통해 자연어 기술을 축적하는 과정에서 기술 선택과 적용을 LLM 판단에만 맡기는 방식의 문제점을 지적했어요.
ASSAY 프레임워크는 기술 생성과 선별을 분리하여 각 기술의 인과적 기여도를 측정하고, 테스트 작업별로 음의 예측 효과를 가진 기술을 억제하는 방식으로 작동해요.
AppWorld에서 DeepSeek-V3는 69.3%의 작업 목표 달성률을 기록하며 기존 방법 대비 47.4%의 성능 향상을 보였고, tau-bench 소매에서는 GPT-4.1이 8.7%의 상대적 성능 향상을 기록했어요.
연구 결과, 기술과 작업을 매칭하는 것이 병목 현상이며, 전역적으로 나쁜 기술을 제거하는 것이 아니라 작업별로 기술을 마스킹하는 것이 주된 성능 향상 요인임을 확인했어요.