연구진은 시각과 후각 정보를 결합하는 SmellNet-V 데이터셋을 구축했어요. 이 데이터셋은 의미적으로 일관된 웹 이미지를 활용해 후각 데이터와 합성적으로 연결하는 방식으로 만들어졌어요. See & Sniff 프레임워크는 시각-후각 통합 표현을 학습하고 후각 원점의 공간적 위치를 파악하는 데 사용돼요.
SmellNet-V 데이터셋을 기반으로 한 See & Sniff는 기존 후각 기반 모델보다 7% 향상된 성능을 보였어요. 이 모델은 후각 분류, 교차 모드 검색, 후각 위치 찾기 등 다양한 작업에 활용될 수 있어요.
연구는 시각-후각 학습을 다중 모드 인식의 새로운 방향으로 제시하며, 후각 데이터 부족 문제를 해결하고 시각-후각 통합 학습의 가능성을 보여줘요.