본 연구는 마르코프 결정 과정(MDP)과 부분 관측 MDP(POMDP) 환경에서 LLM의 In-Context Learning(ICL) 능력을 분석하고 개선하는 방법을 제시합니다.
오라클 레이블이 지정된 트레이저리를 활용하여 LLM을 지도 학습 방식으로 미세 조정하여, 정책 모방을 통해 효율적인 의사 결정을 가능하게 합니다.
실험 결과, 미세 조정된 LLM은 In-Context Learning만 사용하는 모델보다 더 작은 최적성 격차를 보이며, 특히 부분 관측 및 모델 모호한 환경에서 큰 성능 향상을 보였습니다.