연구진은 비전 언어 모델(VLM)과 생태학적 순간 평가를 결합하여 인간의 시각 경험의 의미적 풍요를 정량화했습니다. 2,674명의 참가자가 생성한 사진에서 VLM 기반 추정치는 감정 및 만성 스트레스를 예측하는 데 효과적이었습니다.
연구진은 LLM 기반 파이프라인을 개발하여 7백만 건 이상의 과학 논문에서 정신 건강과 관련된 1,000개 이상의 환경 요소를 추출했습니다. 실제 이미지에 적용했을 때, VLM 추출된 맥락 평가의 최대 33%가 감정과 스트레스와 유의미한 상관관계를 보였습니다.
이번 연구는 시각 환경 분석의 확장 가능한 객관적 패러다임을 제시하여, 보이는 세상이 정신 건강과 어떻게 연관되는지 해독하는 데 기여할 것으로 보입니다.