연구진이 LiveCodeBench의 한계를 극복하기 위해 12개 프로그래밍 언어를 지원하는 Multi-LCB 벤치마크를 공개했어요. Multi-LCB는 기존 LCB 문제를 다른 언어로 변환하며, Python에 대한 과적합 여부와 다국어 성능 차이를 분석합니다. 이 벤치마크는 현재 LLM의 능력 부족을 드러내고, 다국어 코드 생성 능력 평가의 새로운 기준을 제시합니다.