연구진은 기존 벤치마크의 한계를 극복하기 위해 다양한 최적화 문제를 포함하는 OptiVerse를 새롭게 선보였어요. GPT-5.2와 Gemini-3를 포함한 22개의 LLM을 테스트한 결과, 어려운 문제에서 성능이 크게 저하되는 것을 확인했어요. 모델링 및 논리 오류가 주요 원인임을 밝혀냈고, 이를 개선하기 위한 Dual-View Auditor Agent를 제안했어요.