연구진이 PLT(Parallel Loop Transformer)의 루프 횟수를 최적화하는 방법을 연구했어요. 루프 횟수가 늘면 성능이 향상될 수 있지만, 위치 불일치 문제가 발생할 수 있어요.
LoopCoder-v2는 7B PLT 코더 패밀리로, 다양한 루프 횟수로 18조 토큰 규모의 데이터셋으로 처음부터 학습했어요. 이후 지시 튜닝과 평가를 진행했어요.
실험 결과, 두 번의 루프를 사용하는 모델이 코딩 생성, 추론, 에이전트 기반 소프트웨어 엔지니어링, 도구 사용 벤치마크에서 뛰어난 성능을 보였어요. SWE-bench Verified 점수는 43.0점에서 64.4점으로, Multi-SWE 점수는 14.0점에서 31.0점으로 향상됐어요.
세 번 이상의 루프를 사용하는 모델은 성능이 저하되었으며, 위치 불일치 문제가 성능 향상 효과를 상쇄하는 것을 확인했어요.