개인이 텍스트 전용 언어 모델을 비전 언어 모델(VLM)로 파인튜닝하는 프로젝트를 진행하여 오픈 소스 코드를 공개했어요. VIT-base 인코더를 기반으로 Q-Former 모델을 처음부터 학습시키고, SmolLM-135M-Instruct 모델을 파인튜닝하는 방식으로 진행되었어요. V100 GPU에서 4시간 동안 학습하는 데 약 50센트의 비용이 들었으며, 결과가 매우 인상적이었다고 설명했어요.