연구진은 액티브 러닝에서 Vision-Language 모델(VLM)을 활용하여 인간 어노테이션 의존도를 줄일 수 있음을 확인했어요. VLM은 세밀한 레이블에서는 성능이 낮지만, 거칠고 일반적인 레이블에서는 정확한 정보를 제공하는 특징을 가지고 있어요. CUB200과 FGVC-Aircraft 데이터셋에서 기존 액티브 러닝 방법보다 성능이 뛰어나다는 결과가 나왔어요.