연구진은 지도 학습의 한계를 극복하기 위해 CalorieBench-80K라는 대규모 음식 이미지 벤치마크를 구축하고, 강화 학습을 활용한 통합 음식 비전-언어 모델 Food-R1을 개발했어요.
Food-R1은 Chain-of-Thought(CoT) 기반의 사전 학습과 Group Relative Policy Optimization(GRPO)을 활용한 강화 학습을 거쳐 음식 관련 작업에서 기존 모델보다 뛰어난 성능을 보여요.
CalorieBench-80K는 칼로리 정보와 식이 조언 주석을 포함하는 최초의 음식 이미지 벤치마크이며, 모델 코드, 가중치, 벤치마크 주석은 프로젝트 저장소에서 확인할 수 있어요.