Dynamo는 VLM을 재학습하거나 수동으로 프롬프트를 설계하지 않고도 시각적 추론 능력을 향상시키는 프레임워크입니다. 에이전트는 자신의 시도 과정을 검토하여 인지적 병목 현상을 해결하는 재사용 가능한 추론 기술과 시각적 도구를 생성합니다. Dynamo는 4가지 시각적 추론 벤치마크에서 평균 5.6%의 정확도 향상을 보였습니다.
Dynamo는 기존의 RL 방식보다 훨씬 적은 컴퓨팅 자원으로 성능을 개선하며, RL과 결합하여 더 나은 결과를 얻을 수 있습니다. 이 프레임워크는 VLM의 가중치를 업데이트하지 않고도 시각적 추론 능력을 향상시키는 새로운 가능성을 제시합니다.
Dynamo는 각 도구를 언제 호출해야 하는지 명시하는 기술과 함께 페어링하여 지속적인 라이브러리에 축적합니다.