Pulse · AI 뉴스

층별, 다양화된 매니폴드: 트랜스포머 최적화 시 모듈별 가중치 공간 기하학

OpenAI · 2026-06-11

본 연구는 트랜스포머 모듈별로 다른 매니폴드 기하학을 선호하는지 조사했어요. GPT-2 사전 훈련에서 Manifold Muon을 활용해 어텐션과 MLP 블록의 스티펠(Stiefel) 및 DGram 제약 조건을 비교 분석했어요. 어텐션 층에 스티펠 기하학, MLP 층에 DGram 기하학을 적용하는 것이 가장 좋은 성능을 보였어요.

DGram 제약 조건으로 어텐션 가중치에 특이값 증가가 발생해 softmax 포화 현상을 유발하는 것을 확인했어요. 이는 어텐션 로짓을 증폭시켜 불안정성을 야기했어요.

##트랜스포머##최적화##기하학##ManifoldMuon##GPT-2
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기