GPP와 PokeAgent 팀이 '지속적인 연마: 자가 개선 기반 에이전트를 위한 온라인 적응'이라는 새로운 논문을 발표했습니다. 이 논문은 지미니가 포켓몬 블루, 옐로우 레거시, 크리스탈을 하드 모드에서 완벽하게 플레이하는 데 사용된 반복적인 연마 과정을 공식화하고 자동화합니다.
초기에는 사람이 연마를 편집했지만, 모델 자체를 통해 일반적인 메타 도구(define_agent, run_code, notepad 편집)를 사용하여 대부분의 편집을 수행했습니다. 이러한 반복적인 연마는 수동으로 설계된 버전과 격차를 줄이는 데 도움이 됩니다.
연구팀은 모델과 연마의 공동 학습이 에이전트의 미래라고 강조하며, 모델과 연마가 함께 발전하는 방향을 제시합니다.