Pulse · AI 뉴스

ABC-Bench: 생물 보안 관련 LLM 에이전트 역량 평가 벤치마크

OpenAI · 2026-06-10

연구진이 LLM 에이전트의 생물 보안 관련 역량을 평가하는 ABC-Bench를 공개했어요. 액체 처리 로봇 코딩, DNA 조각 설계, DNA 합성 검열 회피 등 3가지 과제를 통해 에이전트의 역량을 측정했어요.

테스트된 LLM 에이전트들은 모두 인간 전문가 평균을 능가하는 성과를 보였으며, 특히 공개된 지식과 문서화된 프로토콜 기반 과제에서 강점을 보였어요.

OpenAI의 o4-mini-high는 액체 처리 로봇을 제어하는 스크립트를 생성하여 DNA를 성공적으로 조립하는 데 사용되었으며, 이는 LLM의 실제 생물학적 실험 적용 가능성을 시사해요.

##LLM##생물보안##에이전트##벤치마크##AI

매일 핵심 AI 소식을 한국어로, 빠르게