PairCoder는 LLM이 구조화된 아티팩트를 생성하는 과정에서 코드를 활용하는 방식에 대한 새로운 접근 방식이에요. 드라이버 에이전트가 코드를 작성하고, 네비게이터 에이전트가 검증 증거를 기반으로 검토하는 페어 프로그래밍 방식을 사용해요.
17개의 벤치마크와 3개 벤더의 7개 모델에서 테스트 결과, 검증 가능한 아티팩트 생성 성능이 크게 향상되었으며, 블렌더 씬 실행 가능성은 0.20에서 0.78로, TikZ 컴파일률은 모든 모델에서 10~30포인트 증가했어요.
페어 프로그래밍은 도구 체인이 유용한 정보를 제공하고 기본 성능에 여유가 있을 때 효과적이며, 그렇지 않은 경우 성능이 비슷하거나 약간 저하될 수 있어요. 이는 검증된 코드 기반 생성을 위한 신뢰할 수 있는 방법론으로 자리매김했어요.