Guoxi Zhang, Hisashi Kashima. Behavior Estimation from Multi-Source Data for Offline Reinforcement Learning. In Proceedings of the 37th AAAI Conference on Artificial Intelligence (AAAI), 2022.
AAAI 2023 に論文が採択されました
複数の異なるポリシーから得られた混合振舞いエピソードデータから、オフライン深層強化学習手法を行う手法を提案した論文が、AI分野のトップカンファレンスAAAI2023に採択されました。