Pulse · AI 뉴스

TxBench-PP: 소분자 전임상 약리학 AI 에이전트 성능 분석

Claude · 2026-06-18

연구진이 소분자 전임상 약리학 AI 에이전트 성능을 평가하는 TxBench-PP 벤치마크를 공개했어요. 실제 실험 데이터에서 정확한 결론을 도출하는지 테스트하며, 프로그램 단계·실험 유형·작업 구조를 고려한 100개 평가 항목으로 구성돼요. 현재까지 Claude Opus 4.8 / Pi 모델이 59.3%의 정확도를 기록하며 가장 높은 성능을 보였어요.

##AI에이전트##약물개발##벤치마크##TxBench-PP

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기