연구자들이 개발한 LLM은 복잡한 수학 증명을 엄격하게 검증하는 데 어려움을 겪고 있어요. 기존의 전역 평가 방식은 '맥락 오염' 문제로 인해 논리적 오류를 놓치기 쉽고 환각이나 지나친 회의론을 야기해요.
연구진은 전역 평가 대신 단계별 엄격 검증 프레임워크를 개발했는데, 각 추론 단계의 맥락을 상세히 유지하고 적용 가능한 정리의 출처를 엄격하게 제한해요.
FirstProof 챌린지에서 선별한 연구 수준의 증명으로 평가한 결과, 추론 제약 조건이 필수적이며, 제약 없는 전역 프롬프트는 미묘한 논리적 오류를 찾아내지 못하는 것으로 나타났어요.
기존 방식과 달리, 남은 오류는 전문가 벤치마크 자체의 암묵적인 모호함을 드러내는 '지나치게 엄격한 세부 사항'에 기인하는 것으로 분석되었으며, 신중한 방식으로 검증 기록을 작성하도록 유도하면 LLM의 추론 능력을 향상시킬 수 있어요.