연구진이 한국 맥락에 기반한 웹 브라우징 에이전트 벤치마크 K-BrowseComp를 공개했는데, 총 400개의 문제로 구성되어 있습니다.
GPT-5.5, DeepSeek-V4-Pro, GLM-5.1 등 최신 LLM은 K-BrowseComp-Verified 서브셋에서 30~45%의 낮은 성능을 보였으며, 한국 LLM은 0~10%에 그쳤습니다.
연구진은 문제 해결과 생성의 비대칭성을 활용하기 위해 어려운 few-shot 예제와 실패 모드 기반 생성으로 구성된 100개의 합성 데이터셋을 추가로 구축했습니다.