연구진은 임의의 에이전트 간 지능을 비교할 수 있는 형식적 프레임워크인 일반화된 튜링 테스트(GTT)를 소개했습니다. GTT는 A가 B를 모방하도록 지시받은 경우, B가 A와 B 자체의 상호작용을 구별할 수 없을 때 A가 B보다 '크다'고 정의합니다. 이 프레임워크는 데이터셋과 작업에 구애받지 않는 상대적 지능 개념을 제공합니다.
연구진은 튜링 비교자의 구조를 연구했으며, 특정 조건에서 이 비교자가 되돌릴 수 있고, 따라서 동등성 클래스에 대한 순서를 유도한다는 것을 밝혔습니다. 또한 쿼리, 제한된 상호작용, 고정된 구별기를 갖는 변형을 정의하고 분석했습니다.
현대 모델을 사용하여 프레임워크를 구현하고 수천 번의 시행을 통해 쌍방향 구별 불가능성을 경험적으로 평가한 결과, 기존 순위와 일관된 계층적 구조가 나타났으며, 이는 제안된 프레임워크가 의미 있는 경험적 순서를 제공한다는 것을 시사합니다.