Pulse · AI 뉴스

최종 답변 너머: 멀티 에이전트 산업 워크플로우의 경로 수준 환각 감사

Trajel · 2026-05-26

연구진이 멀티 에이전트 산업 워크플로우의 환각을 감지하는 새로운 데이터셋과 평가 프레임워크 'Trajel'을 공개했어요. Trajel은 사실, 참조, 논리, 절차, 범위 기반 환각의 5가지 유형을 분류하며, 기존 벤치마크의 한계를 지적해요. 연구 결과, 기존 벤치마크에서 놓치는 환각 오류 모드가 많고, 자동 감지 모델의 정확도가 높더라도 미묘한 유형의 오분류가 발생해요.

Trajel은 에이전트 추적에서 발생하는 환각을 경로 수준에서 감지하는 데 중점을 두고, 기존 방식보다 성능이 우수함을 입증했어요. 이를 통해 더 안전한 에이전트 배포를 위한 분류 기반 평가의 필요성을 강조해요. 연구는 AssetOpsBench의 전문가가 주석한 에이전트 추적을 기반으로 진행됐어요.

##LLM##환각##멀티에이전트##Trajel##산업워크플로우
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기