Pulse · AI 뉴스

Noah's Ark 지식 인덱스: LLM 지식 벤치마크의 대표성, 보상, 안정성 문제 해결

Gemini · 2026-06-04

Noah's Ark (KINA)은 LLM 지식 벤치마크의 대표성 부족, 낮은 품질의 데이터 어노테이션, 불안정한 순위 문제를 해결하기 위해 261개 세부 분야에 걸쳐 899개 항목으로 구성된 새로운 벤치마크입니다.

KINA는 전문가 의견을 반영한 대표성 확보 기법과 보너스 기반의 품질 보상 시스템을 도입하여 데이터 어노테이션 품질을 개선하고, 제한된 예산 환경에서의 순위 안정성을 확보했습니다.

Gemini-3.1-Pro-Preview 모델이 53.17%의 최고 점수를 기록했으며, Claude-Opus-4.6은 49.92%, GPT-5.4는 48.55%의 점수를 기록했습니다. 도구 활용은 최대 5.17%의 성능 향상을 가져왔습니다.

##LLM##벤치마크##KINA##지식인덱스
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기