Pulse · AI 뉴스

SEQUOR: 현실적인 제약 준수 능력 평가를 위한 멀티턴 벤치마크

SEQUOR · 2026-05-07

SEQUOR는 사용자의 지시를 신뢰성 있게 따르는 능력을 평가하는 새로운 벤치마크입니다. SEQUOR는 실제 대화에서 추출한 제약 조건을 기반으로 시뮬레이션된 페르소나 기반 상호 작용으로 구성되어 있습니다.

연구 결과, 단일 제약 조건만 따르는 경우에도 대화가 길어질수록 지시 준수 정확도가 일관되게 감소하며, 11% 이상의 감소가 나타났습니다.

SEQUOR는 현재 모델이 멀티턴 대화에서 사용자 지시를 따르는 데 어려움을 겪고 있음을 보여주며, 어시스턴트의 지시 준수 능력을 더 잘 측정할 수 있는 방법을 제공합니다.

##벤치마크##멀티턴##제약##SEQUOR
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기