연구진이 소분자 전임상 약리학 AI 에이전트 성능을 평가하는 TxBench-PP 벤치마크를 공개했어요. 실제 실험 데이터에서 정확한 결론을 도출하는지 테스트하며, 프로그램 단계·실험 유형·작업 구조를 고려한 100개 평가 항목으로 구성돼요. 현재까지 Claude Opus 4.8 / Pi 모델이 59.3%의 정확도를 기록하며 가장 높은 성능을 보였어요.