Pulse · AI 뉴스

어텐션 회로, 언제 형성될까? 세 가지 10억 파라미터 모델의 개발 경로 추적

Pythia · 2026-06-02

연구진은 세 가지 10억 파라미터 언어 모델(Pythia 1B, OLMo 1B-0724-hf, OLMoE 1B-7B-0924)의 어텐션 회로 형성 과정을 추적했어요.

연구 결과, 모델마다 BOS(Beginning of Sequence) 어텐션 헤드 형성에 차이가 있었으며, DCLM 데이터셋 모델에서는 유도 회로 형성이 BOS 어텐션 헤드 형성보다 10~20배 앞서 나타났어요.

능력별 어텐션 회로 식별은 전체 학습 토큰의 0.3~2% 내에 완료되며, 최종 모델이 아니어도 회로 식별이 가능하다는 점이 확인됐어요.

##언어모델##어텐션##개발##Pythia##OLMo

매일 핵심 AI 소식을 한국어로, 빠르게