Mistral이 형식 검증 성능을 크게 개선한 Leanstral-1.5 119B 모델을 공개했어요. 이 모델은 miniF2F를 포화시키고, PutnamBench 문제를 해결하는 등 뛰어난 성능을 보여줘요. 57개 저장소에서 5개의 미발견 버그를 찾아냈으며, 자동 정리 증명 및 형식 증명 엔지니어링에 활용 가능해요.
Apache-2.0 라이선스로 무료 제공되며, 중간 학습, 지도 학습, CISPO 강화 학습을 통해 훈련됐어요. 에이전트 증명 엔지니어링과 실제 코드 검증에 탁월한 성능을 발휘하며, FATE-H에서 87%, FATE-X에서 34%의 최고 기록을 달성했어요.
개발자는 이 모델을 활용해 소프트웨어 및 코드 사양의 정확성을 검증할 수 있어요. 벤치마크 결과는 댓글에서 확인할 수 있어요.