Pulse · AI 뉴스

MaxProof: 생성-검증 RL과 테스트 시간 스케일링으로 수학적 증명 확장

MiniMax · 2026-06-12

MaxProof는 MiniMax-M3 시리즈의 경쟁 수준 수학적 증명에 대한 테스트 시간 스케일링 프레임워크입니다. M3는 증명 생성, 검증, 비판 기반 증명 수리 기능을 훈련하고, 이를 단일 모델로 통합합니다. MaxProof는 테스트 시 모델을 생성기, 검증기, 개선기, 순위기로 활용하여 후보 증명 집합을 탐색하고 토너먼트 방식으로 최종 증명을 선택합니다.

MaxProof 테스트 시간 스케일링을 통해 M3 모델은 IMO 2025에서 35/42, USAMO 2026에서 36/42를 달성하여 인간 금메달 기준을 초과했습니다. 이는 수학적 증명 분야에서 상당한 진전을 의미합니다.

새로운 프레임워크 MaxProof는 모델의 성능을 향상시키고, 경쟁 수준의 수학적 증명 문제를 해결하는 데 기여할 것으로 기대됩니다.

##수학증명##AI##MiniMax##MaxProof##RL
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기