연구진은 DigitalCoach라는 다중 모드 데이터셋을 공개했어요. 이 데이터셋은 5개의 소프트웨어 애플리케이션 사용 코칭 세션 72건을 담고 있으며, 총 28.1시간 분량의 화면 및 입력 이벤트 기록을 포함하고 있어요.
최신 모델이 인간을 컴퓨터 사용법을 가르치는 능력을 평가한 결과, 모델은 직접적인 지시를 더 많이 제공하지만 설명, 오류 진단, 지식 확인 질문은 적게 제공하는 것으로 나타났어요.
인간과 유사한 발언을 생성하지만 시각적 맥락에 대한 이해도가 낮아 학습자가 수동적으로 지시를 따르게 하고, 깊이 있는 참여를 유도하지 못하는 한계가 있어요.