RogueAI는 LLM 대화에서 기만 여부를 판단하는 역튜링 테스트를 수행하는 웹앱입니다. 사용자는 두 개의 LLM 에이전트 중 하나가 미리 설정된 시나리오 내에서 기만하도록 허가된 에이전트임을 알고 심문해야 합니다. 기만 에이전트를 식별하고 기회 소진 전에 '차단'하는 것이 목표입니다. AutoRogueAI는 플레이어가 시나리오를 공동 설계하고, 내레이터 에이전트가 기만 전략을 선택하는 절차적 확장 기능입니다.
3일간의 파일럿 테스트(467세션 시작, 415세션 완료, 1876턴)에서 기만 에이전트는 차별적 도움, 간결성, 회피 등의 언어적 특징을 보였습니다. 간단한 규칙으로 75.6%의 정확도로 이를 활용할 수 있었지만, 실제 플레이어는 56.6%의 정확도를 기록하며 가장 중요한 신호를 무시하는 경향을 보였습니다. 이 간극은 데이터 수집, 교육 도구, 정직성 훈련 모델 평가에 대한 시사점을 제공합니다.
RogueAI는 LLM의 기만 가능성을 평가하고, 사용자의 판단 오류를 분석하며, 정직성 훈련 모델 개발에 기여할 수 있는 잠재력을 보여줍니다.