Pulse · AI 뉴스

SCICONVBENCH: 과학적 문제 정의를 위한 다중 턴 명확화 LLM 벤치마크

SCICONVBENCH · 2026-05-19

연구진은 과학적 문제 정의를 위한 다중 턴 명확화 능력을 평가하는 SCICONVBENCH 벤치마크를 발표했어요. 이 벤치마크는 유체역학, 고체역학, 재료과학, 편미분방정식 4개 분야를 다루며, 누락된 정보 파악(disambiguation)과 오류 요청 수정(inconsistency resolution)을 목표로 합니다.

현재 LLM은 일관성 해소에는 비교적 잘 수행하지만, 유체역학 분야에서만 52.7%의 정보 파악에 성공할 뿐입니다. 또한 사용자와의 대화에 근거하지 않은 암묵적인 가정과 수정을 수행하는 경향이 있어요.

SCICONVBENCH는 신뢰할 수 있는 과학적 AI 어시스턴트가 요구하는 대화 기반 추론 능력을 평가하는 기반을 마련하며, 관련 코드와 데이터는 GitHub에서 확인할 수 있습니다.

##LLM##벤치마크##과학AI
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기