TVIR은 텍스트와 시각 요소를 결합한 심층 연구 보고서 생성에 초점을 맞춘 새로운 벤치마크와 에이전트 프레임워크입니다. 기존 벤치마크가 텍스트 중심적인 한계를 극복하고 시각 요소의 사실성 및 분석과의 일관성을 평가합니다.
TVIR-Bench는 전문가가 큐레이션한 100개의 멀티모달 심층 연구 과제를 포함하며, TVIR-Agent는 개요 작성, 이미지 검색, 출처 추적 차트 생성, 문맥 인식 순차적 작성을 위한 계층적 멀티 에이전트 프레임워크입니다.
TVIR-Agent는 명시적인 멀티모달 설계와 평가의 중요성을 강조하며, 9개의 심층 연구 시스템에 대한 실험에서 강력한 성능을 보였습니다.