연구자가 시각 달력 정보를 읽는 LLM 성능을 측정하는 벤치마크(VCCB)를 개발하여, 인간은 약 99%의 정확도를 보이는 반면, 로컬 모델은 38~58% 수준의 성능을 보입니다.
VCCB는 Outlook, HCL Notes, Thunderbird 등 다양한 캘린더 클라이언트의 화면 캡처 이미지를 사용하여 모델의 성능을 평가하며, 이미지 렌더링 방식에 따른 손실을 보정합니다.
연구자는 로컬 환경에서 다양한 모델과 양자화 방식을 사용하여 벤치마크를 실행하고 결과를 공유해 줄 것을 요청하며, 특히 양자화가 성능에 미치는 영향에 대한 데이터를 확보하고자 합니다.