연구진이 개인화된 스마트폰 에이전트 성능을 평가하는 새로운 벤치마크 'iOSWorld'를 공개했어요. iOSWorld는 26개의 iOS 앱으로 구성되어 있으며, 사용자의 거래 내역, 메시지, 여행 기록 등 개인 데이터를 활용하여 133개의 작업을 수행합니다. 최고 성능 모델은 52%의 정확도를 기록했지만, 여러 앱을 활용하는 작업에서는 37%에 그쳤으며, 추가 정보 접근 시 성능이 최대 26% 향상됐어요.