DeepSeek가 칭화대학교, 베이징대학교와 협력하여 'Thinking with Visual Primitives' 논문과 오픈 소스 저장소를 공개했어요. 이 프레임워크는 좌표점과 바운딩 박스와 같은 시각적 토큰을 모델의 추론 과정에서 '최소 단위의 사고'로 활용하는 방식이에요. 모델이 이미지 내 특정 위치를 가리키며 생각하는 것처럼 시각적 추론 능력을 향상시키는 데 기여할 것으로 보입니다.