Pulse · AI 뉴스

PyraMathBench: LLM의 수학 능력 평가 및 개선

Qwen · 2026-06-03

연구진이 LLM의 수리 추론 능력 평가를 위한 PyraMathBench 벤치마크를 공개했어요. 32,505개의 문제로 구성되며, 4가지 핵심 인지 측면과 14개 하위 범주, 2가지 모달리티를 포함해요.

LLM은 수치 계산 부족과 추상적인 수치 문제 처리 미흡으로 인해 수학 능력에 어려움을 겪는 것으로 나타났어요.

SOLVE와 IRPO를 통해 LLM의 수리-수학적 시너지를 향상시켜 Qwen-2.5의 점수를 5.0점 향상시켰어요.

##LLM##벤치마크##수학##PyraMathBench
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기