연구자들은 대규모 언어 모델의 발전으로 계산 연구, 특히 실험 결과 재현을 자동화할 가능성을 확인했어요.
HiRAS는 전문 에이전트들을 세분화된 단계에 걸쳐 조정하는 관리 에이전트를 활용하여 종단 간 실험 재현을 위한 계층적 멀티 에이전트 프레임워크예요.
연구팀은 Paper2Code 벤치마크의 평가 방식에 대한 한계를 파악하고, 저장소 수준의 정보를 통합하여 원본 참조 기반 지표와 더 잘 일치하는 Paper2Code-Extra (P2C-Ex) 프로토콜을 소개했어요.