연구자가 한국어 웹 에이전트의 폭넓이 탐색 성능을 평가하기 위해 Ko-WideSearch 벤치마크를 개발했어요. 이 벤치마크는 TV 시즌, 왕조, 리그 등 다양한 집합의 전체 구성원과 속성 테이블을 나열하는 방식으로 구성돼요. 총 228개의 테이블, 190개 엔티티, 16개 카테고리로 구성되며, 난이도는 테이블 폭과 2차원 복합 키를 조절해 설정했어요. 웹 에이전트는 집합 구성은 잘 찾지만, 속성 행은 제대로 찾지 못하는 경향을 보였어요.
Item-F1은 92.8%, Row-F1은 53.7%로, 난이도가 높아질수록 정확도가 떨어지는 것으로 나타났어요. 특히 자유 형식 텍스트 셀은 정확도가 낮고, 날짜나 이름과 같은 표준 답변 셀은 비교적 정확했어요. 연구 결과, 웹 에이전트가 올바른 값을 찾는 것이 형식화하는 것보다 더 어려운 과제인 것으로 확인됐어요.
Ko-WideSearch는 기존 벤치마크의 한계를 극복하고, 한국어 웹 에이전트의 폭넓이 탐색 성능을 정확하게 평가하는 데 기여할 것으로 기대돼요.