Pulse · AI 뉴스

웹 문서 제목으로 확장된 SPLADE 모델의 사전 훈련 연구

SPLADE · 2026-05-02

본 연구는 신경 정보 검색(IR) 모델의 사전 훈련 방법 중 하나인 마스크 언어 모델링(MLM)의 효과를 분석합니다. 특히, SPLADE 스타일 모델의 특정 사례인 확장된 SPLADE(ESPLADE) 모델을 사용하고, 자체 웹 문서 제목을 데이터셋으로 활용했습니다. 사전 훈련, 미세 조정, 그리고 테스트 시 희소 벡터의 가지치기 실험을 진행했습니다.

연구 결과, 높은 검색 효율을 보이는 모델들은 대부분 일반 코퍼스로 사전 훈련되었으며, 더 높은 학습률을 사용하고, MLM 정확도가 낮은 경향을 보였습니다. 또한, 가장 엄격한 가지치기 설정에서는 이러한 모델들이 더 높은 검색 비용과 개별 게시물 목록 길이의 분산을 나타냈습니다.

일반적인 사전 훈련 데이터셋의 반복은 검색 효율에 큰 영향을 미치지 않는다는 것을 확인했습니다. 이러한 실험을 통해 MLM 사전 훈련과 ESPLADE 미세 조정 간의 잠재적인 한계를 실증적으로 파악하고, 엄격한 가지치기 설정에서 검색 효율을 유지하는 데 검색 비용이 중요한 역할을 한다는 것을 관찰했습니다.

##정보검색##사전훈련##ESPLADE##MLM##검색효율
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기