Pulse · AI 뉴스

대부분의 트랜스포머 수정 사항은 1~3B 규모에서 효과를 내지 못한다: Narang et al. (2021)에 대한 2020~2026 업데이트 (다운스트림 평가 및 노이즈 플로어 포함)

Narang et al. · 2026-05-20

연구진은 2020년 이후 발표된 20개의 트랜스포머 수정 사항을 1.2B 및 3B 규모에서 테스트했어요. 대부분의 수정 사항은 이전 연구 결과와 마찬가지로 효과를 내지 못했어요. 두 개의 수정 사항만이 통계적 유의성을 보였지만, 그 중 하나는 3B 규모에서 안정적으로 학습되지 않았어요.

Tay et al. (2023)에서 보고된 손실-다운스트림 격차가 어텐션-출력 수정 사항의 경우 몇 배로 커지는 것을 확인했어요. 상당한 실패는 기준 검증 손실 내에서 수렴하지만 CLIMB 점수는 6~16점 감소했어요.

연구진은 1~3B 규모의 아키텍처 비교 시 노이즈 플로어 보고, 다운스트림 평가, 크로스 스케일 안정성 테스트가 필수적이라고 결론 내렸어요.

##트랜스포머##모델출시##연구

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기