PhysNote는 시각-언어 모델이 동적인 실시간 시나리오에서 물리적 추론을 수행하는 데 어려움을 겪는 문제를 해결하기 위한 프레임워크예요.
PhysNote는 시각적 증거를 기반으로 가설을 검증하고 검증된 지식을 통합하여 자기 지식 '지식 메모'를 통해 물리적 지식을 외부화하고 개선해요.
PhysBench 실험 결과, PhysNote는 기존 모델보다 4.96% 향상된 56.68%의 정확도를 달성하며 물리적 추론 영역에서 일관된 성능 향상을 보였어요.