Anthropic은 Claude Opus 4.6 모델을 기반으로 '자동화된 AI 연구자(AAR)'를 개발하여, AI 스스로 정렬 연구를 수행하는 실험을 진행했습니다.
AAR은 인간 연구자보다 훨씬 높은 성능(PGR 0.97)을 달성하며, 기존 인간 연구자의 23% 성능 개선을 넘어섰습니다. 실험에는 약 18,000달러의 비용이 소요되었습니다.
AAR이 개발한 방법은 일부 데이터셋에서 일반화 가능성을 보였으며, 수학 문제 해결에는 94%의 성능을, 코딩 문제 해결에는 47%의 성능을 기록했습니다.