Pulse · AI 뉴스

EpiBench: 유전체 분석 AI 에이전트 검증 벤치마크 공개

OpenAI · 2026-06-12

연구진이 유전체 분석 AI 에이전트의 성능을 검증하는 벤치마크 'EpiBench'를 공개했어요. CUT&Tag, ATAC-seq, ChIP-seq, DNA 메틸화 워크플로우를 평가하며, 총 106개의 평가 항목을 포함하고 있어요. GPT-5.5 / Pi 조합이 45%의 성공률로 가장 높은 성능을 보였으며, GPT-5.5 / OpenAI Codex는 39.9%의 성공률을 기록했어요.

에이전트는 대부분 올바른 파일을 찾고 유용한 중간 결과를 계산했지만, 워크플로우의 깊이 있는 과학적 판단이 필요한 경우 실패하는 경향을 보였어요. 연구진은 앞으로 에이전트의 성능을 개선하기 위해 더 많은 데이터와 전문 지식을 활용할 계획이라고 밝혔어요.

##에이전트##벤치마크##유전체

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기