QIMMA는 아랍어 NLP 평가의 단편화 및 검증 부족 문제를 해결하기 위해 만들어진 새로운 품질 중심 리더보드입니다.
QIMMA는 다단계 품질 검증 파이프라인을 통해 기존 벤치마크의 문제를 해결하고, 모델 평가의 신뢰성을 높입니다.
QIMMA는 109개의 벤치마크 서브셋을 통합하여 52,000개 이상의 샘플을 평가하며, 코딩 평가 기능도 포함하고 있습니다.
자동 평가와 인간 검토를 결합한 품질 검증 파이프라인을 통해, 기존 벤치마크에서 발견되는 체계적인 품질 문제를 해결합니다.
QIMMA는 오픈 소스, 아랍어 콘텐츠 중심, 품질 검증, 코딩 평가, 공개 추론 출력을 모두 갖춘 유일한 플랫폼입니다.