연구진은 과학적 문제 해결을 위한 LLM의 다중 회화 명확화 능력을 평가하는 벤치마크 SCICONVBENCH를 공개했어요.
SCICONVBENCH는 유체역학, 고체역학, 재료과학, 편미분방정식 4개 분야의 문제에 대해 누락된 정보 파악 및 오류 수정 능력을 평가해요.
현재 LLM은 불일치 해결에는 비교적 강하지만, 유체역학 분야에서 누락된 정보 파악은 52.7%에 불과하며, 사용자와의 대화에 근거하지 않은 가정과 수정을 수행하는 경향이 있어요.