앤트로픽(Anthropic)이 350억 파라미터 규모의 에이전트 모델 'Agents-A1'을 공개했어요. 이 모델은 에이전트 호라이즌 확장으로 1조 규모 모델에 버금가는 성능을 냈어요.
Agents-A1은 외부 지식, 행동, 관찰, 검증 결과를 연결하는 장기 호라이즌 지식-행동 인프라를 구축하여 평균 45,000 토큰 길이의 에이전트 트랙토리를 생성했어요.
이 모델은 지도 학습, 도메인별 교사 모델 훈련, 다중 교사 도메인 라우팅 온폴리시 증류의 세 단계 레시피로 학습되었으며, SEAL-0, IFBench, HiPhO 등 다양한 벤치마크에서 뛰어난 성능을 보여줬어요.
앤트로픽은 Agents-A1이 장기 호라이즌 작업에서 1조 규모 모델과 경쟁하거나 능가하는 실용적인 방법을 제시할 수 있기를 기대하고 있어요.