Pulse · AI 뉴스

LLM 지식 평가의 견고성 향상을 위한 SAGE 프레임워크 발표

SAGE · 2026-05-12

SAGE는 LLM 지식 평가 벤치마크의 견고성 향상을 위한 프레임워크로, 기존 방식의 비용 및 확장성 문제를 해결합니다.

SAGE는 VariantQual이라는 검증 도구와 VariantGen이라는 생성 도구를 활용하여, 사람이 직접 라벨링한 데이터와 유사한 품질의 벤치마크를 저렴하게 구축합니다.

HellaSwag 실험 결과, SAGE는 MMLU에서도 벤치마크에 특화된 튜닝 없이 모델의 일반화 성능을 향상시키는 데 기여했습니다.

##LLM##벤치마크##견고성##SAGE

매일 핵심 AI 소식을 한국어로, 빠르게