IndusAgent는 시각적 인식과 텍스트 추론을 연결하는 MLLM의 한계를 극복하기 위해 개발된 에이전트 기반 프레임워크입니다. Indus-CoT 데이터셋을 활용해 모델을 튜닝하고, 동적 영역 추출, 고주파 특징 강화, 사전 정보 검색 등 외부 도구를 활용해 시각적 모호성을 해결합니다. 다섯 가지 산업 현장 이상 감지 벤치마크에서 기존 방법보다 뛰어난 성능을 보이며, 견고함과 일반화 능력을 입증했습니다.