연구진은 LLM과 에이전트의 가상 세포 예측 성능을 평가하는 벤치마크 'AssayBench'를 개발했습니다. AssayBench는 1,920개의 공개 CRISPR 스크린 데이터를 기반으로 5가지 세포 현상 유형을 포괄합니다.
AssayBench는 유전자 순위 예측 방식으로 스크린 예측 작업을 정의하며, 다양한 실험 간 성능 비교를 위한 연속적인 지표인 조정된 nDCG를 도입했습니다.
현재 LLM은 성능 상한선에 미치지 못하며, 기존의 생물학 특화 LLM보다 일반적인 LLM이 더 나은 성능을 보였지만, 추가적인 최적화 기법을 통해 성능 향상이 가능합니다.