연구진은 LLM 기반 검색 에이전트가 실제로 검색하는지, 아니면 웹을 통해 이미 알고 있는 것을 확인하는지 조사했어요.
분석 결과, 검색 에이전트는 외부 증거 대신 모델 내부에 내재된 지식에 의존하는 경향이 있으며, 도구 사용 없이도 최대 44.5%의 질문에 답하고 내부 가설에서 검색 쿼리의 절반 이상을 생성해요.
LiveBrowseComp은 검색 에이전트의 실제 검색 능력을 평가하기 위해 설계되었으며, 기존 벤치마크가 기억에 기반한 확인을 과대평가할 수 있음을 보여줘요.