Pulse · AI 뉴스

Perplexity를 넘어: LLM 테스트 시간 학습의 배포 메모리 주장을 평가하는 행동 기반 프레임워크

Qwen · 2026-07-01

연구진은 LLM 테스트 시간 학습(TTT)의 배포 메모리 주장을 평가하기 위한 행동 기반 프레임워크를 소개했어요. 기존의 perplexity와 같은 지표는 제한적이며, 실제 행동 기반 증거(기억력, 견고성, 유지력 등)가 필요해요.

새로운 프레임워크는 주장을 분류하고, 명확한 기준을 제시하며, TTT 메모리 주장을 뒷받침하는 실제 증거와 일치시키도록 설계됐어요.

Qwen3 모델을 활용한 실험에서, LoRA 업데이트는 손실을 줄이지만 기억력은 유지되지 않는다는 결과를 보여주며, 기존 지표와 실제 행동 간의 격차를 드러냈어요.

##LLM##TTT##메모리##평가##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게