AI 평가 결과는 리더보드, 모델 카드, 벤치마크 논문, 회사 블로그 등 다양한 곳에서 일관성 없이 보고돼요. 이로 인해 독자는 여러 출처의 결과를 신뢰성 있게 비교하거나, 보고서에서 누락된 내용을 파악하거나, 종합적인 주장을 근거 있는 증거로 추적하기 어려워요. Evaluation Cards를 통해 이러한 문제점을 해결하고 AI 평가 보고서의 해석 가능성을 높였어요.
연구자와 비연구자 모두를 위한 독자 모드를 통해 재현 가능성, 문서 완결성, 출처 및 위험, 점수 비교 가능성 등 4가지 해석 신호를 제공해요. 이를 통해 AI 평가 보고서의 투명성과 신뢰성을 높일 수 있어요.
Evaluation Cards 모니터링 도구를 통해 5,816개의 모델, 635개의 벤치마크, 101,843개의 결과를 분석하여 현재 보고 방식의 체계적인 문제점을 파악하고 개선 방향을 제시했어요.