Pulse · AI 뉴스

WinTok: 시각적 이해 및 생성을 위한 하이브리드 토크나이저

WinTok · 2026-05-18

WinTok은 시각적 이해와 생성을 위한 하이브리드 토크나이저로, 두 가지 목표의 충돌을 해소하기 위해 픽셀 토큰과 학습 가능한 의미 토큰을 분리합니다. WinTok은 사전 학습된 의미 임베딩을 활용하여 의미 토큰의 성능을 향상시키고, 10개의 벤치마크에서 성능 향상을 보였습니다. 50M개의 오픈 소스 데이터로 학습하여 UniTok보다 분류 정확도에서 11.2% 향상되었고, rFID 0.41의 경쟁력 있는 재구현 성능을 달성했습니다.

##토크나이저##컴퓨터비전##AI##모델
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기