연구진은 LLM 기반 AI 에이전트가 환경에서 지속적으로 학습하며 성능을 향상시키는 '연결점(Connect the Dots, CoD)' 메타 역량을 훈련하는 프레임워크를 제시했어요.
CoD 프레임워크는 긴 시퀀스 길이의 강화 학습(RL) 알고리즘 설계, 목표 역량을 유도하는 환경 및 작업 설계, 그리고 평가를 위한 측정 방법으로 구성돼요.
실험 결과, CoD 환경에서 강화 학습 훈련의 효과를 검증하고, 훈련 도메인 내외, 도메인 간, 그리고 Ralph-loop 설정으로의 일반화 가능성을 확인했어요.
연구진은 구현체를 GitHub에 공개하여 추가 연구 및 응용을 지원하고 있으며, 이는 LLM과 AI 에이전트 발전에 새로운 기회를 제공할 것으로 기대돼요.