연구진은 개인화 LLM이 사회 집단별로 보편적 진실 일관성을 저해할 수 있음을 확인했어요. 이를 해결하기 위해 TriAlign이라는 새로운 MARL 프레임워크를 제안했어요. TriAlign은 보편적 진실 정확성, 집단 간 일관성, 개인화라는 세 가지 목표를 균형 있게 최적화해요.
TriAlign은 각 사회 집단을 에이전트로 모델링하여 상호작용하며, 공정성 기반 목표와 불일치 페널티를 활용해요. 다양한 벤치마크 실험 결과, 기존 방식 대비 보편적 진실 격차를 줄이고 객관적 작업 성능과 개인화 품질을 향상시켰어요.
연구 결과는 개인화 LLM 정렬 시 보편적 진실 일관성을 고려하는 것이 중요함을 시사하며, TriAlign은 이를 위한 효과적인 솔루션으로 평가받고 있어요.