Pulse · AI 뉴스

비디오 파운데이션 모델이 직관적인 물리학을 이해하는가? 계층별 프로빙 분석

LTX-Video · 2026-06-09

연구진은 사전 훈련된 비디오 파운데이션 모델이 직관적인 물리학 정보를 표현에 포함하는지 분석했어요. V-JEPA 모델은 시간 동역학을 모델링하는 프로브와 함께 가장 뛰어난 성능을 보였어요. 계층별 분석 결과, 물리학 관련 정보는 초기 계층에서 가장 약하며 중간에서 후기 계층에서 접근성이 높아지는 것으로 나타났어요.

IntPhys2와 MVP 데이터셋을 활용해 V-JEPA, VideoMAE, LTX-Video 모델을 비교했더니, V-JEPA가 전반적으로 가장 좋은 결과를 보였고, VideoMAE는 경쟁력을 유지하며, LTX-Video는 약하지만 의미 있는 신호를 회복했어요. 프레임 순서를 방해하면 성능이 크게 저하되는 것으로 확인됐어요.

사전 훈련 패러다임, 표현 깊이, 읽기 메커니즘에 따라 직관적인 물리학 지식이 신뢰성 있게 나타나지만 접근성은 크게 달라지는 것으로 나타났어요.

##비디오모델##물리학##AI연구##V-JEPA##LTX-Video
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기