연구진은 컴퓨터 사용 에이전트가 새로운 명령줄 인터페이스(CLI)를 안전하게 학습하고 운영할 수 있는 방법을 제시했어요. 파일을 쓰거나 셸 명령어를 자유롭게 입력하지 않고도 합성 데이터를 활용하여 학습하는 방식이에요. 강화 학습을 통해 에이전트가 CLI 환경에서 안전하게 작동하도록 훈련하는 과정을 설명하고 있어요.