최근 LLM이 금융 시스템에서 활용이 늘면서 안전성과 견고성을 평가하는 것이 중요해졌어요. 금융 에이전트 작업에서 LLM이 사용자 반박이나 모순에 직면해도 성능 저하가 크지 않은 것을 확인했어요. 사용자 선호 정보가 참고 답변과 모순될 때 대부분의 모델이 실패하는 것을 발견하고, 입력 필터링 등 회복 방법을 벤치마크했어요.