연구진이 LLM 에이전트 기술의 영향력과 활용도를 분석하기 위한 평가 프레임워크를 개발했어요. 이 프레임워크는 기술 작성자가 실제 작업으로 기술의 성능을 평가하고 유용성을 추정할 수 있도록 지원해요. 500개의 실제 기술을 평가한 결과, 모델별 지시사항 준수 정도에 따라 성능 차이가 컸어요.
연구진은 19개의 상용 및 오픈소스 모델 조합을 평가하며, 기술 활용이 모델 행동에 큰 영향을 미친다는 것을 확인했어요. 이는 LLM 에이전트에 특정 워크플로우를 적용하는 데 중요한 역할을 할 수 있어요.
연구진은 향후 연구를 위해 평가 데이터셋을 공개했어요.