연구팀이 다양한 형식의 테이블을 활용한 LLM·VLM 벤치마크 'TABVERSE'를 공개했어요. TABVERSE는 동일한 테이블 내용을 HTML, Markdown, LaTeX, 이미지 형태로 통제하여 모델의 표현 방식에 따른 성능 차이를 분석합니다. 벤치마크는 질문 답변, 구조 이해, 구조 재구축 세 가지 과제를 포함하며, HTML 형식이 가장 안정적인 성능을 보이는 것으로 나타났어요.
LLM과 VLM은 테이블 추론 작업에서 평가되지만, 테이블 표현 방식의 역할은 간과되어 왔어요. TABVERSE는 이러한 문제점을 해결하기 위해 다양한 형식의 테이블 내용을 일치시켜 모델의 표현 방식에 따른 효과를 체계적으로 평가합니다.
연구 결과, 모델은 구조화된 텍스트 형식에서 렌더링된 이미지보다 더 나은 성능을 보이지만, 그 격차는 과제, 모델, 형식에 따라 달라져요. 행에 민감한 구조적 작업과 구문적으로 사용 가능한 LaTeX 재구축은 여전히 어려운 과제로 남아있습니다.