화학 요법 용량 최적화는 불확실성 하에서 순차적 의사 결정을 요구하는 동적 치료 체제로, 종양 억제와 독성 사이의 균형을 맞춰야 합니다. 연구에서는 LSTM 기반의 순환 TD3 접근 방식을 사용하여 AhnChemoEnv 벤치마크에서 성능을 평가하고, 완전 관찰 환경과 부분 관찰 환경에서 각각의 성능을 비교했습니다.