Pulse · AI 뉴스

XDomainBench: 고차원 과학 지식 조합 시 LLM 추론 붕괴 진단

XDomainBench · 2026-05-14

연구진은 LLM의 과학 지식 조합 능력 부족 문제를 진단하기 위해 XDomainBench를 발표했어요. 이 벤치마크는 20개 분야, 4가지 작업 범주, 8가지 패턴을 포함하여 총 8,598개의 대화 세션으로 구성돼요.

LLM 평가 결과, 과학 분야 조합 순서가 증가할수록 추론 붕괴가 발생하는 것으로 나타났으며, 이는 직접적인 난이도 증가와 간접적인 상호작용으로 인한 오류 누적 때문이에요.

XDomainBench는 LLM의 복잡한 과학적 추론 능력을 평가하고 개선하는 데 기여할 것으로 기대돼요.

##LLM##벤치마크##과학##추론
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기