연구진은 암석 광물 해석 능력을 평가하는 다단계 벤치마크인 LithoBench를 제안했습니다. LithoBench는 12가지 대표적인 암석 광물 범주에 대한 1만 개의 전문가 주석 해석 사례를 포함합니다.
LithoBench는 식별 및 설명, 비교 분석, 메커니즘 설명, 실용적 응용, 종합적 추론 등 5가지 인지 수준으로 구성된 객관식 및 서술형 과제를 포함합니다.
실험 결과, 여러 대규모 시각-언어 모델은 특히 설명, 응용, 추론 과제에서 지질학적 의미 이해에 상당한 한계를 보이는 것으로 나타났습니다.