연구진이 회의 장면의 발화자 예측 능력을 평가하기 위해 LLM을 활용했어요. 발화자 감지, 회전 변경 예측, 다음 발화자 예측 3가지 과제를 평가하는 프레임워크를 구축했어요. 실험 결과, LLM은 텍스트 기반 모델과 인간보다 다음 발화자 예측에서 뛰어난 성능을 보였어요.
MM-LLM은 발화자 감지 및 회전 변경 예측에서 텍스트 기반 LLM보다 성능이 좋았지만 인간 수준에는 미치지 못했어요.
연구 결과, 인간과 LLM의 예측 패턴이 유사했으며, 회전 변경이 잦은 구간은 예측이 어려웠다고 해요.