본 연구는 Adversarial Imitation Learning(AIL)의 이론적 기반을 온라인 학습 환경에서 일반 함수 근사 방식으로 탐구합니다. 새로운 프레임워크인 OPT-AIL을 제안하여 보상 학습과 정책 학습을 위한 최적화 방법을 결합하고, 모델 프리 및 모델 베이스드 OPT-AIL 두 가지 방법을 개발했습니다. OPT-AIL은 기존 AIL 방법보다 우수하며, 이론적으로 효율적인 AIL 방법으로 평가됩니다.