Cohere와 LG CNS가 협력하여 개발한 1110억 파라미터 규모의 하이브리드 추론 모델 LuckyStar 111B를 공개했어요. 이 모델은 기존 Command A 모델을 기반으로, 도구 활용 추론과 간결한 비추론적 행동을 전환하는 preamble conditioning 기술을 사용해요.
다국어 지도 학습, 강화 학습, 언어 일관성 보상, 4비트 양자화 등 4가지 방법을 통해 도구 활용 에이전트의 효율성을 높였어요. 이를 통해 수학적 추론, 함수 호출, 자연어-SQL 성능을 개선하고, 한국어와 영어 이해 능력도 유지했어요.
본 연구는 메모리 제약 환경에서 다국어 모델을 에이전트 워크플로우에 적응시키는 실질적인 방법과 실패 요인 분석을 제공해요.