연구진은 과학적 문제 정의를 위한 다중 턴 명확화 능력을 평가하는 SCICONVBENCH 벤치마크를 발표했어요. 이 벤치마크는 유체역학, 고체역학, 재료과학, 편미분방정식 4개 분야를 다루며, 누락된 정보 파악(disambiguation)과 오류 요청 수정(inconsistency resolution)을 목표로 합니다.
현재 LLM은 일관성 해소에는 비교적 잘 수행하지만, 유체역학 분야에서만 52.7%의 정보 파악에 성공할 뿐입니다. 또한 사용자와의 대화에 근거하지 않은 암묵적인 가정과 수정을 수행하는 경향이 있어요.
SCICONVBENCH는 신뢰할 수 있는 과학적 AI 어시스턴트가 요구하는 대화 기반 추론 능력을 평가하는 기반을 마련하며, 관련 코드와 데이터는 GitHub에서 확인할 수 있습니다.