텍스트-투-SQL 시스템의 프로덕션 환경 평가에는 기존 벤치마크가 해결하지 못하는 근본적인 어려움이 있어요.
STEF(Schema-agnostic Text-to-SQL Evaluation Framework)는 데이터베이스 스키마나 참조 쿼리가 필요 없이 자연어 입력만으로 작동하는 프로덕션 친화적인 평가 시스템이에요.
STEF는 필터 정렬, 의미 판단, 평가자 신뢰도를 포괄하는 복합 지표를 통해 0부터 100까지의 해석 가능한 정확도 점수를 생성해요.