Pulse · AI 뉴스

예측 없이 관찰만으로: 에이전트 서비스용 대화 단위 분산 스케줄링

ConServe · 2026-06-01

연구진은 LLM 기반 에이전트의 작업량 예측 문제를 해결하기 위해 대화 단위를 활용한 새로운 스케줄링 기법을 제안했어요. 기존 방식은 턴 단위로 예측에 의존했지만, 이는 정확한 작업량 파악을 어렵게 만들었어요. ConServe는 대화의 첫 번째 턴 입력 길이와 디코더 KV 점유율만 관찰하여 배치 작업을 진행하며, 턴 단위 예측 방식 대비 p95 시간 51.08% 단축 및 에너지 효율 7.51% 향상을 달성했어요.

ConServe는 첫 번째 턴 프리필을 고성능 프리필러로 라우팅하고, KV 캐시를 한 번만 이동하며, 대화의 전체 꼬리 부분을 단일 디코더에 고정하는 방식으로 작동해요. 이를 통해 예측 없이도 효율적인 작업 처리가 가능하며, 이기종 GPU 티어 매핑을 통해 에너지 효율을 22.75% 더 향상시킬 수 있어요.

연구 결과는 턴 단위 예측의 한계를 극복하고, 대화 단위 스케줄링의 가능성을 보여주며, LLM 기반 에이전트 서비스의 효율성을 높이는 데 기여할 것으로 기대돼요.

##LLM##에이전트##스케줄링##ConServe
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기