UsefulBench는 정보 검색 시스템이 쿼리에 대한 실제 유용성을 평가하도록 돕는 새로운 데이터셋이에요. 전문 분석가 세 명이 쿼리와의 관련성(relevance)과 실질적인 가치(usefulness)를 판단하여 구축되었어요.
기존 정보 검색은 텍스트의 유사성을 기반으로 하지만, UsefulBench는 텍스트가 쿼리에 얼마나 도움이 되는지를 측정하는 데 초점을 맞추고 있어요.
LLM 기반 시스템이 유사성 편향을 줄일 수 있지만, 특정 분야의 문제 해결에는 전문 지식이 필요하며 현재 LLM은 이를 충분히 반영하지 못한다는 점을 보여줘요.