연구팀은 풀 수 있는 수학 문제에 대한 다중 턴 대화에서 LLM이 어떻게 repair 과정을 거치는지 조사했어요. 모델에 따라 repair 시도가 거의 완전히 거부되거나, 쉽게 조작되는 등 큰 차이를 보였으며, 대화가 길어질수록 모델 행동이 더욱 뚜렷해지고 예측 불가능해졌어요. 각 LLM은 repair 과정에서 고유한 형태의 신뢰성 문제를 드러내는 것으로 나타났어요.