Pulse · AI 뉴스

Transformer 모델의 작업 추론 방식, 벡터 기하학적 구조에 기반

arXiv cs.CL · 2026-05-05

연구진은 Transformer 모델이 학습된 작업 인지 및 새로운 작업 적응이라는 두 가지 추론 방식으로 작동한다고 밝혔습니다.

내부 표현에서 작업별 방향인 작업 벡터가 모델 행동을 조종하며, 이는 훈련 분포에 의해 형성되고 OOD(Out-of-Distribution) 일반화 능력을 가능하게 합니다.

연구는 통제된 합성 환경에서 작은 Transformer 모델을 훈련시켜 작업 벡터 기하학, 훈련 분포, 일반화 행동 간의 연관성을 분석했습니다.

##Transformer##작업추론##벡터기하학##OOD##인공지능

매일 핵심 AI 소식을 한국어로, 빠르게