AI 평가는 LLM이 도구, 환경, 사용자, 다른 에이전트와 상호작용하는 시스템으로 발전하면서 평가 방식에 변화가 필요합니다. 대화형 벤치마크가 등장했지만, 인정하는 상호작용 요소, 경로 점수 방식, 결과에 대한 주장이 달라 벤치마크 환경이 단편화되고 있습니다. 대화형 평가는 기존 평가 패러다임을 답습하는 것이 아니라, 증거를 판단으로 매핑하는 원칙 있는 평가 패러다임으로 접근해야 합니다.