Pulse · AI 뉴스

정확이 유용하지 않을 때: 소규모 언어 모델의 구조화된 출력 신뢰성 향상

Anthropic · 2026-05-04

연구진은 수학 벤치마크 GSM8K와 MATH를 활용해 언어 모델의 정확성과 형식 준수 여부를 연구했어요. Naive 프롬프트 방식은 85%의 작업 정확도를 보이지만 유효한 JSON 구조는 0%에 불과했어요. AloLab이라는 시스템 프롬프트 최적화 도구를 개발하여 모델을 미세 조정하지 않고도 84~87%의 출력 정확도를 달성했어요.

Claude Sonnet 4.5 메타 에이전트를 활용한 AloLab은 정적 프롬프트보다 유의미하게 성능이 향상되었으며, GPT-4o에서도 95.2%의 출력 정확도를 기록했어요. Claude 3 Haiku로 메타 에이전트를 대체했을 때 성능이 저하되고 변동성이 커진 것을 확인했어요.

연구 결과, 구조화된 출력 신뢰성을 높이기 위해서는 메타 에이전트의 능력이 중요한 역할을 한다는 것을 보여주었어요.

##모델출시##프롬프트엔지니어링##연구

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기