연구진은 LLM의 다자간 대화 참여 능력을 향상시키기 위한 데이터셋 'When2Speak'을 공개했어요. 이 데이터셋은 21만 5천 개 이상의 예시를 포함하며, 2~6명의 화자가 참여하는 다양한 대화 스타일을 담고 있어요.
When2Speak 데이터셋으로 LLM을 학습시키면 기존 방식보다 최대 120% 성능이 향상되지만, 여전히 발언 기회를 놓치는 경우가 많다고 해요.
연구진은 강화 학습을 통해 이 문제를 해결하고, LLM의 발언 기회 적중률을 78~81%까지 높이는 데 성공했어요.