Anthropic의 Claude가 생물정보학 연구 능력을 평가하는 새로운 벤치마크 BioMysteryBench를 통해 테스트를 받았어요.
BioMysteryBench는 실제 데이터셋 분석을 통해 모델의 성능을 평가하며, 기존 벤치마크의 한계를 극복하고자 개발되었어요.
최신 Claude 모델은 인간 전문가 수준의 성능을 보였으며, 일부 문제에서는 인간 전문가조차 해결하지 못한 방법을 사용하기도 했어요.
과학 연구는 주관적이고 데이터가 노이즈가 많아 평가하기 어렵지만, BioMysteryBench는 이러한 어려움을 해결하기 위해 노력했어요.
연구팀은 Claude의 과학적 역량이 빠르게 발전하고 있으며, 앞으로 과학 연구를 가속화하는 데 기여할 수 있을 것으로 기대하고 있어요.