대규모 언어 모델(LLM)은 다양한 자연어 처리 작업에서 뛰어난 성능을 보이지만, 불투명한 내부 메커니즘은 신뢰성과 안전한 배포를 저해합니다.
기존의 설명 가능한 AI 연구는 주로 외부 근사를 통한 모델 해석을 위한 사후 설명 방법에 초점을 맞추고 있지만, 내재적 해석 가능성은 모델 아키텍처와 계산에 투명성을 직접 통합하는 유망한 대안으로 떠오르고 있습니다.
본 논문에서는 LLM의 내재적 해석 가능성에 대한 최근 연구 동향을 5가지 설계 패러다임으로 분류하고, 해결해야 할 과제와 미래 연구 방향을 제시합니다.