Autodidact 프로젝트에서 로컬 LLM의 답변 가능성을 판단하는 신뢰도 평가 시스템을 구축하는 과정에서, 검색 기반 자체 평가(GSA)가 오히려 성능을 저해하는 결과를 보여줬어요.
모델마다 최적의 자체 평가 프롬프트가 다르다는 것을 확인했으며, Llama 3.1 8B 모델은 어떤 프롬프트로도 신뢰도 신호를 얻기 어려웠어요.
실험 결과, 답변 품질 향상을 위한 검색어 주입이 효과를 보지 못했는데, 이는 지식 저장소의 낮은 검색어 적중률 때문인 것으로 나타났어요.