Pulse · AI 뉴스

RECOM: 오픈형 Reddit 질문 답변 자동 평가 지표의 유효성 및 차별성 균형

RECOM · 2026-06-18

연구진은 LLM 생성 텍스트 평가에 사용되는 자동 평가 지표가 유효성(진정한 내용과 표면적 일치 여부)과 차별성(더 나은 시스템과 더 나쁜 시스템 구별)이라는 상충되는 두 가지 역할을 수행해야 한다는 점을 지적했어요.

RECOM(Reddit Evaluation for Correspondence of Models)이라는 새로운 평가 데이터셋을 공개했는데, 이는 2025년 9월 r/AskReddit 질문 15,000건과 각 질문에 대한 진정한 커뮤니티 답변으로 구성돼 있으며, 평가 대상 모델의 학습 데이터 컷오프 이후의 답변을 포함해요.

연구 결과, 코사인 유사성은 실제 답변과 무작위 답변을 잘 구별하지만 모델 순위를 매기지는 못하고, BERTScore 정밀도는 모델 순위를 매길 수 있지만 응답 길이를 제어하면 유효성이 약해지는 등 지표별로 유효성과 차별성 간의 균형이 부족한 것으로 나타났어요.

연구진은 평가 지표의 설계 방식이 유효성과 차별성 간의 균형 문제를 야기한다고 주장하며, 지표를 유효성과 차별성 축에서 모두 보고, 명시적인 무작위 기준선을 포함할 것을 권장해요.

##LLM##평가##Reddit##RECOM##자동평가
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기