Pulse · AI 뉴스

OmniCap-IF: 오음성 비디오 캡셔닝의 지시사항 준수 능력 벤치마크 및 개선

OmniCap-IF · 2026-06-07

연구진이 오음성 대규모 언어 모델(OLLM)의 복잡한 지시사항 준수 능력을 평가하는 첫 번째 벤치마크 'OmniCap-IF'를 발표했어요. 이 벤치마크는 형식 정확성과 내용 정확성을 평가하는 체계를 포함하며, 시각, 음성, 오음성 모달리티에서 50가지 제약 조건을 평가해요.

OmniCap-IF 평가 결과, 모델 간 성능 차이가 크고, 형식 복잡성이 증가하면 오음성 추론 능력이 저하되는 '형식-내용 균형' 문제가 발생했어요. 이는 기존 벤치마크에서 간과된 부분이에요.

연구진은 54K 규모의 지시사항 튜닝 데이터셋 'OmniCap-IF-54K'를 구축하고, 지시사항 준수 및 오음성 캡셔닝 성능을 개선한 'OmniCaptioner-IF' 모델을 선보였어요.

##오음성##벤치마크##지시사항##OmniCap-IF

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기