연구진은 분산 학습을 통해 서로 다른 시각적 표현을 가진 에이전트 간에 공유 가능한 시각 정보가 무엇인지 연구했습니다. 에이전트는 개별적인 시각적 증거를 기반으로 토큰 시퀀스를 교환하며 모델을 업데이트합니다. 이 과정에서 공유된 기호가 나타날 수 있는지, 그리고 사적인 시각 공간의 유사성이 결과적인 언어의 내용과 대칭성에 어떤 영향을 미치는지 분석했습니다.
Metropolis-Hastings Captioning Game(MHCG) 환경에서 두 에이전트는 서로의 시각적 특징에 맞춰 토큰 시퀀스를 교환하며 공유된 캡션을 형성합니다. 실험 결과, MHCG는 기존 방식보다 더 시각적으로 유용한 공유 토큰 시퀀스를 생성하며, 에이전트 간의 불일치가 커질수록 성능이 저하되는 것을 확인했습니다.
이기종 에이전트 간의 시각적 표현 유사성은 공유되는 시퀀스의 수와 각 시퀀스의 시각적 특이성을 결정하며, 청취측의 MH 수락 기준이 중요하게 작용하는 것으로 나타났습니다.