연구진은 다중 모달 반어문 감지 모델의 분석 관점을 자동으로 생성하고 통합하는 ProCrit 프레임워크를 제안했어요.
ProCrit는 제안 에이전트와 비평 에이전트로 구성되어 있으며, 비평 에이전트는 자연어 피드백을 통해 제안 에이전트의 추론을 수정하는 역할을 해요.
ProCrit는 기존 반어문 데이터셋의 프로세스 수준 감독 부족 문제를 해결하기 위해 다중 역할 에이전트 시뮬레이션을 통해 프로세스 수준 추론 주석을 합성하고, 강화 학습을 통해 제안 및 수정 과정을 공동으로 최적화했어요.