연구진은 Frictive Policy Optimization(FPO)을 확장하여 참가자들이 부분적인 정보 비대칭을 가진 상황에서도 적용 가능하도록 개선했어요.
기존 FPO는 참가자들이 동일한 장면을 다르게 해석하는 명제적 비대칭만 고려했지만, 이제는 서로 다른 정보 상태에서 동일한 지칭 표현이 다른 의미를 갖는 인식적 비대칭까지 다루게 되었어요.
LLM 프로빙 실험 결과, 모든 정보를 가진 것보다 특정 시점의 정보가 더 중요하며, 불분명한 상황에서 오해 발생 패턴이 발견되었어요.