Pulse · AI 뉴스

자연어 파일 검색 벤치마크: 80만 파라미터 이하 LLM 성능 테스트

monkesearch · 2026-06-17

fuckAIbruhIhateCorps 사용자가 80개의 쿼리를 활용해 0.3B~3B 파라미터 이하 소형 LLM의 성능을 테스트하는 벤치마크를 공개했어요.

벤치마크는 파일 형식, 시간 정보, 구체성 등을 JSON으로 추출하는 능력을 평가하며, 파일 형식 매핑, 시간 인식, 구체성 분류, 복합 쿼리 4가지 범주로 구성돼요.

현재 Gemma-3, SmolLM2, Qwen, TinyLlama 등 다양한 모델을 테스트한 결과, 0.8B~1.5B 파라미터 모델이 0.5B 이하 모델보다 성능이 우수하며, 소형 모델의 파인튜닝을 통해 성능 향상이 기대돼요.

##LLM##벤치마크##파일검색##monkesearch
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기