연구진은 2020년 이후 발표된 20개의 트랜스포머 수정 사항을 1.2B 및 3B 규모에서 테스트했어요. 대부분의 수정 사항은 이전 연구 결과와 마찬가지로 효과를 내지 못했어요. 두 개의 수정 사항만이 통계적 유의성을 보였지만, 그 중 하나는 3B 규모에서 안정적으로 학습되지 않았어요.
Tay et al. (2023)에서 보고된 손실-다운스트림 격차가 어텐션-출력 수정 사항의 경우 몇 배로 커지는 것을 확인했어요. 상당한 실패는 기준 검증 손실 내에서 수렴하지만 CLIMB 점수는 6~16점 감소했어요.
연구진은 1~3B 규모의 아키텍처 비교 시 노이즈 플로어 보고, 다운스트림 평가, 크로스 스케일 안정성 테스트가 필수적이라고 결론 내렸어요.