사용자가 Gemini를 활용해 이미지 설명을 JSON 객체로 변환하지만, 크기와 성능의 균형이 필요하다고 언급했어요. 현재 사용 중인 시스템 프롬프트는 이미지 분석, 공간 분해, 레이아웃 파싱을 전문으로 하는 AI 역할을 부여해요. JSON 스키마는 이미지의 전반적인 설명, 스타일, 구성 요소, 배경, 객체 등을 포함하며, 패널 기반 레이아웃을 처리하는 로직도 포함돼요.
사용자는 2패널 코믹 이미지에 대한 자연어 설명을 JSON으로 변환하는 예시를 제시했어요. 이 예시에서는 여성의 시점에서 촬영된 고각 탑뷰 이미지와 여성의 빨간 코트가 강조된 흑백 스타일을 묘사하고 있어요.
사용자는 더 나은 모델을 추천해 달라고 요청하며, 크기와 성능의 균형을 갖춘 소형 OS LLM을 찾고 있어요. 현재 Gemini의 한계점을 인지하고 있으며, 더 적합한 모델을 찾고 있는 것으로 보입니다.