allenai가 LLM 모델 개발 루프를 지원하는 평가 벤치마크 'olmo-eval'을 공개했어요. 기존 도구와 달리 모델 개발 과정에 맞춰 유연하게 평가를 수행하고, 다양한 환경에서 모델의 성능을 분석할 수 있도록 설계됐어요.
이전 프로젝트인 OLMES는 LLM 벤치마크 점수 비교의 표준화를 목표로 했지만, olmo-eval은 OLMES를 기반으로 모델 개발 전반을 지원하는 통합 평가 환경을 제공해요.
olmo-eval은 Harbor와 유사하지만, Harbor가 에이전트 벤치마크 공개에 집중하는 반면, olmo-eval은 모델 개발 과정에서의 일상적인 평가 작업에 최적화되어 있으며, 필요에 따라 컨테이너 환경을 유연하게 활용해요.