연구진은 희소 자동인코더(SAE)를 활용한 LLM 편집 파이프라인의 실패 원인을 분석했어요. SAE는 기능 수준에서 개입 지점을 식별하는 데 유용할 것으로 예상되었지만, 실제로는 정보 병목 현상을 일으켜 수정 에너지의 97%를 손실했어요.
연구진은 SAE를 '수술 도구' 대신 '청진기'로 활용하는 새로운 관점을 제시했어요. 즉, SAE를 개입 필터링 대신 레이어 수준의 진단에 활용하는 방식이에요.
SAE 기반 진단 점수를 활용해 원시 작업 벡터를 레이어에 주입하여 Number Theory 정확도를 29.6%에서 39.4%로 향상시켰으며, 7개 수학 분야 중 5개에서 유의미한 개선을 보였어요.