Pulse · AI 뉴스

Bernini: 시맨틱 계획 기반 비디오 디퓨전 모델

Bernini · 2026-05-21

연구진은 멀티모달 LLM과 디퓨전 모델을 결합한 Bernini 프레임워크를 제안했어요. LLM은 시맨틱 계획을, 디퓨전 모델은 이를 바탕으로 픽셀을 렌더링하는 방식으로 작동해요.

Bernini는 ViT 임베딩 공간에서 시맨틱 표현을 예측하고, 텍스트 특징과 원본 VAE 특징을 활용해 픽셀을 합성하는 방식으로 구성돼요.

Bernini는 비디오 생성 및 편집 벤치마크에서 최고 성능을 달성했으며, LLM의 사전 학습된 이해도가 어려운 편집 작업에서 뛰어난 일반화 성능을 보여줬어요.

##비디오생성##디퓨전모델##LLM##Bernini
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기