연구진은 텍스트 기반 증거를 종합하는 딥 리서치에 있어 검증 가능성이 부족한 문제를 해결하기 위해 멀티 에이전트 시스템 Ptah를 제안했어요.
Ptah는 계획, 연구, 작성 단계를 거쳐 시각 정보를 고려한 계획 수립, 근거 기반 증거 수집, 시각 작업 메모리 관리, 선언적 멀티모달 도구 사용을 통해 보고서를 작성해요.
검증 에이전트는 사실 근거, 인용 정확성, 크로스 모달 일관성을 유지하며 Ptah의 품질을 관리하고, PtahEval 평가 프로토콜을 통해 이미지 및 프레젠테이션 수준 평가를 수행했어요.