연구진이 하이브리드 어텐션 LLM을 디퓨전 모델로 변환하는 프레임워크 FLARE를 공개했어요. 데이터 품질이 변환 시 성능 유지에 가장 중요한 요소이며, 손실 함수나 어텐션 마스크 설계보다 중요해요. FLARE는 AR 방식의 검증된 디코딩과 디퓨전 방식의 병렬 디노이징을 모두 지원하며, 단일 GPU에서 기존 디퓨전 모델보다 처리량 향상을 보여줘요.