연구진은 긴 사고 과정 추론 비용을 줄이기 위해 입력과 출력을 통합하는 Pair-In, Pair-Out (PIPO) 방법을 제안했어요.
PIPO는 잠재적 압축기와 멀티 토큰 예측(MTP) 헤드를 거울처럼 연결하고 신뢰성 확보를 위해 가벼운 신뢰도 헤드를 훈련해요.
Qwen3.5-4B 및 9B 백본을 사용한 실험 결과, PIPO는 pass@4를 최대 +7.15 포인트 향상시키고 첫 토큰 지연 시간을 최대 2.64배, 토큰당 지연 시간을 최대 2.07배 단축했어요.