Kaggle에서 LLM 스케줄링 대회 를 시작했어요. MMLU 벤치마크 질문에 대해 모델 실행 여부를 결정하는 방식이에요. 모델 실행 비용과 실패 시 비용, 그리고 성공했을 경우를 놓치는 페널티를 고려하여 가중 비용을 최소화하는 것이 목표예요. 현재는 모델 실행 비용을 고려하지 않지만, 앞으로 더 많은 모델을 추가하여 의사 결정을 개선할 계획이에요.