연구진이 다국어 번역 Instruction Following 벤치마크 IFMTBench를 공개했어요. 7개 언어를 지원하며, 4,506개의 단일 제약 조건과 2,838개의 다중 제약 조건 항목을 포함하고 있어요. 기존 지표로는 파악하기 어려운 제약 조건 준수 및 Instruction Following 성능을 평가할 수 있어요.
IFMTBench는 결정적 검사기로 검증된 게이팅 부분과 LLM 심사관이 채점하는 연속 부분으로 나뉘며, 보상 해킹을 방지하는 곱셈 규칙을 사용해요. 15개 모델 평가 결과, Instruction Following는 규모에 따라 번역 품질보다 더 빠르게 향상하며, 용어집 및 구조화된 형식 제약 조건이 난이도 곡선을 지배하는 것으로 나타났어요.
벤치마크는 GitHub에서 공개되었으며, 다국어 번역 모델의 Instruction Following 성능을 평가하고 개선하는 데 활용될 수 있을 것으로 기대돼요.