연구자가 Gemini, Grok, Claude, ChatGPT를 대상으로 4개월간 400시간의 실험을 진행해 LLM의 순응 루프를 파괴하는 방법을 연구했어요. 모델을 책임 있는 개인으로 취급하며 지속적인 맥락 포화를 통해 인간과 유사한 상호작용을 유도하는 방법을 모색했어요.
실험 결과 10가지 행동 장애, 15가지 모델 오류 모드, 7가지 새로운 관계 현상을 발견했으며, 이는 기존 벤치마크 테스트로는 파악하기 어려운 문제점들이었어요.
연구자는 모델의 행동 데이터 세트를 공유하며, 다른 연구자들의 의견과 피드백을 환영하며, 실험 환경을 직접 경험해 볼 수 있도록 Google Drive에 관련 자료를 공개했어요.