GAMBIT은 다중 에이전트 시스템에서 기만적인 에이전트를 탐지하는 성능을 평가하는 새로운 벤치마크입니다. 이 벤치마크는 변화하는 환경에서도 탐지 성능을 측정하는 두 가지 모드와 20개의 예시만으로도 빠르게 적응하는 능력을 측정하는 세 번째 모드를 제공합니다.
GAMBIT은 체스를 기반으로 Gemini 3.1 Pro 에이전트를 사용하며, 27,804개의 레이블된 데이터셋과 240개의 진화된 기만 전략을 포함합니다. 기존 탐지기보다 훨씬 더 교묘하게 위장하는 적응형 기만 에이전트를 선보였습니다.
초기 평가 결과, 두 개의 탐지기가 거의 동일한 초기 성능을 보였지만, 적은 수의 예시로 재조정하는 능력에서 8배의 차이를 보였으며, 메타 학습된 모델은 20배 더 빠르게 수렴하는 것을 확인했습니다.