Pulse · AI 뉴스

모델 크기 아닌 아키텍처가 중요: 대규모 언어 모델의 회로 국소화

Qwen · 2026-05-09

연구진은 모델 크기보다 어텐션 아키텍처가 회로 분석에 더 큰 영향을 미친다는 사실을 밝혔어요. Pythia와 Qwen2.5 모델을 분석한 결과, 그룹화된 쿼리 어텐션이 표준 멀티헤드 어텐션보다 회로를 더 집중적이고 안정적으로 만들었어요. 사실 기반 회상은 특정 규모 이상에서 병목 현상으로 좁혀지는 이산적인 단계적 변화를 겪는다는 사실도 확인했어요.

그룹화된 쿼리 어텐션은 표준 멀티헤드 어텐션보다 회로를 더 집중적이고 안정적으로 만들고, 이는 간접 목적어 식별, 유도 헤드, 사실 기반 회상 등 다양한 회로 유형에서 나타났습니다. Qwen2.5 모델 내에서 사실 기반 회상은 특정 규모를 초과하면 단일 병목 현상으로 좁혀지는 이산적인 단계적 변화를 겪습니다.

이 연구는 일부 아키텍처 선택이 모델 연구를 더 용이하게 하며, 해석 가능성 어려움이 모델 크기의 고정된 결과가 아니라는 점을 시사합니다.

##모델분석##회로##아키텍처##Qwen##Pythia
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기