연구진은 개인 카메라 앨범 시각 질의응답(VQA) 설정을 연구했어요. 이 설정에서 AI 어시스턴트는 사용자의 카메라 앨범에 접근하여 관련 사진을 검색하여 음식 이름이나 추천 요리 같은 질문에 답할 수 있어요.
camroll 데이터셋은 50명의 사용자, 31,476장의 이미지, 2,500개의 질의응답 쌍으로 구성돼요.
camroll-agent는 계층적 메모리와 개인화된 시각적 메모리 탐색을 위한 도구를 갖춘 AI 에이전트로, 기존 방법보다 뛰어난 성능을 보여줬어요.