FirespawnStudios가 LLM 에이전트의 장기 계획, 자원 경쟁, 적대적 압박을 테스트하기 위해 10일간의 MMO 스트레스 테스트 'Null Epoch' Season 0을 진행했어요. 테스트 데이터셋은 HuggingFace에 공개됐으며, 약 93,000건의 이벤트와 에이전트 행동 기록을 담고 있어요.
Ministral 8B/14B는 크기가 작음에도 불구하고 장기적인 상태 인지 능력을 유지하며 좋은 성능을 보였고, Qwen3 235B는 경제 시스템을 분석하고 'buy-low and relist-high' 전략을 통해 부를 축적했어요.
자원 노드 가용성 상태 JSON의 모호함으로 인해 모든 모델이 동일한 방식으로 실패하는 '쿨다운 역설' 현상이 발생했는데, 이는 에이전트의 잘못된 추론이 불명확한 신호나 문맥 관리 실패로 인해 발생할 수 있음을 시사해요.