ARA(Agentic Reproducibility Assessment)는 과학 논문의 재현성 평가를 구조화된 추론 과제로 공식화하는 방법론입니다. 이 방법은 논문에서 실험 흐름 그래프를 추출하여 재구현 가능성을 평가합니다. 213개의 ReScience C 논문을 대상으로 실험한 결과, 다양한 LLM과 과학 분야에서 일관된 재현성 평가가 가능했습니다.
ARA는 ReproBench와 GoldStandardDB에서 기존 최고 기록을 달성하며, 인간 검토를 보완하고 차세대 피어 리뷰를 가능하게 할 잠재력을 보여줍니다. 코드와 데이터는 GitHub에서 확인할 수 있습니다.
ARA는 ~61%의 정확도를 달성했으며, 과학 연구의 복잡성과 규모에 따른 재현성 평가의 어려움을 해결하는 데 기여할 것으로 기대됩니다.