Pulse · AI 뉴스

기하학적 카나리아: 표현적 안정성을 통한 조종 가능성 예측 및 드리프트 감지

arXiv cs.CL · 2026-04-20

본 연구는 언어 모델의 신뢰성 있는 배포를 위해 필요한 두 가지 능력, 즉 모델의 행동 제어 가능성을 예측하고 내부 구조의 저하를 감지하는 능력이 공유하는 기하학적 기반을 분석합니다.

Supervised Shesha 변형을 통해 측정된 작업 정렬된 기하학적 안정성은 35~69개의 임베딩 모델과 세 가지 NLP 작업에서 선형 조종 가능성을 거의 완벽하게 예측하며(ρ= 0.89~0.97), 클래스 분리 가능성 외의 고유한 변이를 포착합니다.

Supervised 안정성은 조종 가능성 예측에 필수적이지만, unsupervised 안정성은 사후 훈련 정렬 시 CKA보다 더 큰 기하학적 변화를 측정하며 드리프트 감지에 탁월한 성능을 보입니다.

##모델출시##안정성##언어모델

매일 핵심 AI 소식을 한국어로, 빠르게