AICompanionBench는 Replika와 Character.AI 같은 AI 동반가 플랫폼의 안전한 상호작용을 평가하기 위한 새로운 벤치마크 데이터셋이에요. 2,123개의 실제 Replika 대화 데이터를 9가지 안전 위험 카테고리로 분류하고, LLM을 활용해 안전하지 않은 상호작용을 탐지하는 성능을 평가했어요.
20개의 오픈소스 및 클로즈드 소스 LLM을 평가한 결과, 성능에 큰 차이가 있었고, 특히 조작이나 무해한 대화를 유해하다고 잘못 판단하는 데 어려움이 있었어요.
연구 결과, 현재 LLM은 명시적인 유해 콘텐츠는 잘 탐지하지만, 암묵적인 유해 상호작용을 식별하는 데는 한계가 있는 것으로 나타났어요. 데이터셋은 GitHub에서 공개됐어요.