대규모 언어 모델(LLM)이 뛰어난 언어 능력을 보이지만, 작동 방식은 명확하지 않습니다. 연구진은 LLM이 문법 오류 문장을 처리할 때 활성화되는 언어 규칙 위반 관련 표현을 내부에 담고 있을 가능성을 조사했습니다.
희소 오토인코더를 활용해 다의적 활성화를 희소하고 단일 의미의 특징으로 분해하고, 위반 관련 특징을 찾아냈습니다. 이를 통해 위반 여부에 따라 선호적으로 활성화되는 특징을 식별하는 민감도 점수를 제시했습니다.
연구 결과, LLM은 언어 현상 전반에 걸쳐 위반 관련 특징을 일관되게 공유하지 않으며, 문법 위반 감지기에 대한 단일화된 증거를 찾기 어려웠습니다.