Pulse · AI 뉴스

LongWebBench: 긴 호라이즌 환경에서의 웹페이지 생성 평가

LongWebBench · 2026-06-16

연구진이 긴 웹페이지 생성 평가를 위한 벤치마크 LongWebBench를 발표했어요. 구조적 정확성 평가를 위한 490개, 기능 평가를 위한 507개 웹페이지 데이터셋을 포함하고 있어요. 기존 평가 방식의 한계를 극복하기 위해 시각적 유사성 외에 실행 가능한 상호작용을 핵심 기준으로 평가했어요.

LongWebBench는 긴 거리의 구조적 일관성을 평가하는 VLM 기반 지표와, DOM을 활용한 에이전트 기반 파이프라인을 사용해요. 실험 결과, 웹페이지 길이가 길어질수록 구조적 정확도가 떨어지고, 시각적으로는 그럴듯해도 멀티 스텝 상호작용을 지원하지 못하는 경우가 많았어요.

연구 결과는 시각적 유사성 외에 실행 가능한 상호작용을 핵심 기준으로 웹페이지 생성을 평가해야 함을 강조하며, 관련 코드와 데이터는 GitHub에서 공개됐어요.

##웹페이지생성##벤치마크##VLM##LongWebBench

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기