AI 평가 결과가 리더보드, 모델 카드, 벤치마크 논문, 회사 블로그 등 다양한 곳에서 일관성 없이 보고돼 해석의 어려움을 겪고 있습니다. Evaluation Cards는 벤치마크 메타데이터, 평가 실행 데이터, 모델 메타데이터를 통합하여 단일 기록으로 구성하는 운영 보고 레이어입니다. 이를 통해 연구자와 비연구자 모두를 위한 해석적 신호를 제공하고, 현재 보고 방식의 체계적인 격차를 파악할 수 있습니다.
Evaluation Cards는 52개 논문과 10개 이해관계자 인터뷰를 바탕으로 보고 스키마를 도출하고, 재현 가능성, 문서 완성도, 출처 및 위험, 점수 비교 가능성 등 4가지 해석적 신호를 제공합니다. 현재 5,816개의 모델, 635개의 벤치마크, 101,843개의 결과를 모니터링하며, 기존 보고 방식의 문제점을 드러내고 있습니다.
Evaluation Cards는 평가 생명주기의 다양한 측면을 포괄하고, 이해관계자의 질문에 따라 달라지는 해석적 신호를 제공하며, 대규모 채택을 위한 데이터 추출 인프라를 갖추고 있습니다.