연구진이 한국 맥락에 기반한 웹 브라우징 에이전트 벤치마크 K-BrowseComp를 공개했어요. K-BrowseComp는 총 400개의 문제로 구성되며, 그중 300개는 한국어 원어민이 검증했어요.
GPT-5.5, DeepSeek-V4-Pro, GLM-5.1 등 최신 LLM은 K-BrowseComp-Verified 데이터셋에서 30~45.67%의 낮은 성능을 보였고, 한국 자체 개발 LLM은 0~10.33%에 그쳤어요.
연구진은 문제 해결과 생성의 비대칭성을 활용하기 위해 어려운 few-shot 예제와 실패 모드 기반 생성으로 구성된 100개의 합성 데이터셋을 추가로 구축하여 공개했어요.