연구진이 LLM 에이전트의 생물 보안 관련 역량을 평가하는 ABC-Bench를 공개했어요. 액체 처리 로봇 코딩, DNA 조각 설계, DNA 합성 검열 회피 등 3가지 과제를 통해 에이전트의 역량을 측정했어요.
테스트된 LLM 에이전트들은 모두 인간 전문가 평균을 능가하는 성과를 보였으며, 특히 공개된 지식과 문서화된 프로토콜 기반 과제에서 강점을 보였어요.
OpenAI의 o4-mini-high는 액체 처리 로봇을 제어하는 스크립트를 생성하여 DNA를 성공적으로 조립하는 데 사용되었으며, 이는 LLM의 실제 생물학적 실험 적용 가능성을 시사해요.