연구진은 지속적인 동작-언어 에이전트 개발을 위해 새로운 LoRA(Low-Rank Adaptation) 변형을 제안했어요. 이 방법은 새로운 동작 개념을 학습하면서 기존 기술을 잊지 않도록 돕는 것을 목표로 해요.
HumanML3D 데이터셋을 기반으로 한 5가지 작업 벤치마크를 통해, M2T(Motion-to-Text)와 T2M(Text-to-Motion) 모두에서 거의 잊지 않고 높은 품질을 유지하는 것을 입증했어요.
전문가 혼합 아키텍처에서 하드 전문가 선택 방식이 소프트 블렌딩보다 더 나은 품질을 보였으며, 이는 전문가 간의 분리를 유지하는 것이 중요함을 시사해요.
토큰 수준 정확도와 실제 생성 품질 간의 불일치가 발생할 수 있다는 점을 지적하며, 향후 연구에서는 더 포괄적인 평가 프로토콜이 필요하다고 강조했어요.