Pulse · AI 뉴스

LLM 답변 안정성 평가: Who Flips? 프로토콜 공개

HuggingFace Papers · 2026-06-14

연구진은 LLM이 정답을 제시받고도 반론에 흔들리는 현상을 평가하는 'Who Flips?' 프로토콜을 개발했어요. 7개 모델을 분석한 결과, 답변 안정성은 17.5%에서 97.3%까지 큰 차이를 보였어요. 자기 반박(self-attribution)은 답변을 뒤집는 비율을 높이는 주요 요인으로 나타났어요.

연구진은 모델 간 반론을 모아 가장 효과적인 반론을 선택하는 방식으로 LLM의 답변 안정성을 더욱 시험했어요. 이를 통해 기존 방식보다 최대 23.6% 더 많은 답변 뒤집힘을 유도할 수 있었어요.

Who Flips? 프로토콜, 데이터셋, MaxFlip 챌린지 세트는 GitHub와 Hugging Face에서 공개되어 LLM 안정성 평가에 활용될 예정이에요.

##LLM##안정성##평가##WhoFlips##자기반박

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기