연구팀은 DiHAL이라는 기하학 기반 디퓨전-트랜스포머 하이브리드 모델을 제안했어요. DiHAL은 사전 훈련된 트랜스포머 내에서 디퓨전 모델을 적용할 최적의 위치를 찾기 위해 기하학적 지표를 활용합니다. 숨겨진 상태를 직접 복구하는 대신 선택된 레이어의 숨겨진 상태를 재구성하여 연속적인 디퓨전 기반 모델의 성능을 개선했습니다.
8B 규모의 모델을 대상으로 실험한 결과, 기하학적 점수가 효과적인 얕은 삽입 레이어를 예측하는 것으로 나타났어요. 디퓨전/복구 훈련 예산을 동일하게 설정했을 때 숨겨진 상태 복구가 연속적인 디퓨전 기반 모델보다 성능이 향상되었어요.