연구진이 과학 기기 제어를 위한 컴퓨터 사용 에이전트 벤치마크인 LabOSBench를 공개했어요. LabOSBench는 웹 기반 과학 기기 시뮬레이터를 활용해 실제 기기 제어의 어려움을 반영하면서도 안전하고 확장 가능한 평가 환경을 제공해요. 기존 에이전트는 구조화된 GUI 서브태스크는 잘 수행하지만, 피드백 기반 작업과 장기적인 워크플로우 실행에는 어려움을 겪는다는 결과가 나왔어요.