Pulse · AI 뉴스

문서 이미지 표현 방식, 과학 분야 검색에 한계

ArXivDoc · 2026-04-21

최근 문서 임베딩 모델들은 문서-이미지 표현 방식으로 학습되는 경우가 많으며, 이는 기존 과학 분야 검색 벤치마크의 평가 방식과도 일치해요.

새로운 벤치마크 ArXivDoc을 도입하여 LaTeX 소스 기반의 과학 논문을 활용, 텍스트, 표, 그림 등 다양한 요소를 고려한 검색 성능을 평가했어요.

연구 결과, 문서-이미지 표현 방식은 텍스트 기반 방식보다 성능이 떨어지며, 텍스트와 이미지를 결합한 방식이 더 효과적이라는 것을 확인했어요.

##검색##과학##벤치마크

매일 핵심 AI 소식을 한국어로, 빠르게