연구팀이 LLM의 산업 통신 분야 활용 격차를 측정하는 TeleCom-Bench를 공개했어요.
TeleCom-Bench는 통신 기본 지식, 3GPP 프로토콜, 5G 네트워크 아키텍처 등 22,678개 샘플로 구성된 12개 평가 세트입니다.
평가 결과, LLM은 의도 인식, 개체 추출 등 언어 인터페이스 작업은 90% 정확도를 보이지만, 문제 해결 생성 등 절차 실행 작업은 30%로 급감하는 '실행 장벽'이 확인됐어요.
TeleCom-Bench는 LLM의 부족한 점을 정확히 진단하고, 실제 통신망 에이전트 개발을 위한 가이드라인을 제시합니다.