Pulse · AI 뉴스

해석 가능성 기반 레이어 선택: 원시 작업 벡터 모델 편집을 위한 SAE

Gemma · 2026-05-28

연구진은 희소 자동인코더(SAE)를 활용한 LLM 편집 파이프라인의 실패 원인을 분석했어요. SAE는 기능 수준에서 개입 지점을 식별하는 데 유용할 것으로 예상되었지만, 실제로는 정보 병목 현상을 일으켜 수정 에너지의 97%를 손실했어요.

연구진은 SAE를 '수술 도구' 대신 '청진기'로 활용하는 새로운 관점을 제시했어요. 즉, SAE를 개입 필터링 대신 레이어 수준의 진단에 활용하는 방식이에요.

SAE 기반 진단 점수를 활용해 원시 작업 벡터를 레이어에 주입하여 Number Theory 정확도를 29.6%에서 39.4%로 향상시켰으며, 7개 수학 분야 중 5개에서 유의미한 개선을 보였어요.

##LLM##SAE##모델편집##해석가능성##Gemma

매일 핵심 AI 소식을 한국어로, 빠르게