Pulse · AI 뉴스

작업 검증 가능성으로 LLM 라우팅: 카파시 프레임워크에 영감을 받은 소규모 실험 (n=120, 3 모델)

Claude · 2026-06-11

연구자가 Karpathy 프레임워크에 기반한 LLM 실험을 진행했어요. 코드 컴파일, JSON 추출 등 검증 가능한 작업은 안전하고, 창작 글쓰기 등 검증 불가능한 작업은 위험하다고 해요.

Claude Sonnet 4.6, GPT 5.5, Mistral 3 8B 모델을 사용했는데, 검증 가능한 작업에서는 약한 모델도 검증기를 통해 높은 성능을 낼 수 있었어요.

다만, 추론 과정이 필요한 작업에서는 모델 간 성능 차이가 컸고, JSON 스키마 오류로 인해 Claude가 초기 성능을 저조하게 보였던 경험을 통해 검증기의 중요성을 강조했어요.

##LLM##실험##검증가능성##Karpathy
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기