연구자들이 심층 연구 에이전트의 오류를 분석하여 스팬 단위로 오류 위치를 추적하는 방법을 제시했어요. 2,790개의 실제 에이전트 경로를 수집하고, LLM을 활용해 오류 스팬을 분석하여 TELBench 벤치마크를 구축했어요. DRIFT 프레임워크를 통해 에이전트 주장을 검증하고, 오류 스팬을 식별하여 첫 번째 오류 정확도를 최대 30% 향상시켰어요.
TELBench 벤치마크는 정상 탐색, 실패한 검색, 잠정적 가설, 무해한 노이즈를 구분하여 오류 스팬을 식별하는 데 사용돼요. DRIFT 프레임워크는 에이전트 주장을 추적하고, 경로 증거에서 지원 여부를 확인하며, 잘못된 주장이 답변 경로에 미치는 영향을 표시해요.
이번 연구는 심층 연구 에이전트의 신뢰성을 프로세스 수준에서 파악하는 데 기여하며, 모델 패밀리 및 감사 프레임워크 전반에 걸쳐 스팬 단위 오류 위치 추적을 개선하는 데 활용될 수 있어요.