# MY_NQD **Repository Path**: lutery/my_-nqd ## Basic Information - **Project Name**: MY_NQD - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-03-09 - **Last Updated**: 2025-12-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README 如果要统一 vscode 和 pycharm 的代码,在 vscode 中命令行中可以使用如下命令进行执行: ```shell python -m learning.breakout.dqn_basic ``` # 参考链接 https://github.com/louisnino/RLcode/tree/master https://github.com/tensorlayer/TensorLayer/blob/master/examples/reinforcement_learning/tutorial_TD3.py # 注意 ## gym 升级到 1.0.0 升级到 1.0.0 后,原来的 ale 代码会报错,需要升级 ale-py 的包并且修改代码,具体参考: ```python import gymnasium as gym import ale_py gym.register_envs(ale_py) env = gym.make('ALE/Breakout-v5') obs, info = env.reset() obs, reward, terminated, truncated, info = env.step(env.action_space.sample()) env.close() ``` ### 待整理 图中的强化学习算法大致分为以下几类,并根据其适配的动作空间(离散或连续)做了分类总结: #### 1. **Q-learning** - **算法**: DQN, C51/QRDQN/IQN/FQF, R2D2/GTrXL/CoBERL(找不到相关源码) - **适合动作空间**: 离散动作 - **说明**: 这些算法主要适用于离散动作空间,它们通过值函数方法学习最优策略。 #### 2. **Q-value Actor-Critic** - **算法**: DDPG/TD3, D4PG, SAC, ACER, PPG,A2C,PPO,IMPALA, HyAR - **适合动作空间**: 连续动作 - **说明**: 这些算法结合了 Q 值和 Actor-Critic 方法,适用于连续动作空间,尤其是通过策略梯度进行优化。 #### 3. **V-value Actor-Critic** - **算法**: PADDPG, PDQN/MPDQ, HPPO - **适合动作空间**: 连续动作 - **说明**: 类似 Q-value Actor-Critic,这些方法通过 V 值和策略优化,适合处理连续动作问题。 #### 4. **Cooperation (多智能体)** - **算法**: MAPPO/MASAC, COMA, QMX/QTran/WQMIX - **适合动作空间**: 离散或连续动作(根据具体实现) - **说明**: 多智能体方法可以适应不同类型的动作空间,通常用于协作式环境。 #### 5. **Imitation Learning** - **算法**: BC/GAIL, Guided Cost, SQIL, TREX/DREX - **适合动作空间**: 离散或连续动作(根据具体实现) - **说明**: 模仿学习方法能够处理各种动作空间,通常用于从专家示范中学习。 #### 6. **Exploration in RL** - **算法**: HER, AlphaStar, MAT, ICMM/NGU - **适合动作空间**: 离散或连续动作(根据具体实现) - **说明**: 探索方法可以适应不同的动作空间,主要关注如何提升探索策略。 #### 7. **Model-Based RL** - **算法**: MBPO/DDPPO, MuZero/EfficientZero - **适合动作空间**: 离散或连续动作(根据具体实现) - **说明**: 基于模型的方法适用于多种环境,适合两种类型的动作空间,尤其关注预测环境的动态。 #### 8. **Offline RL(离线强化学习)** - **算法**: CQL, STEVE, SVG, EDAC - **适合动作空间**: 离散或连续动作(根据具体实现) - **说明**: 离线强化学习可以处理离散或连续动作空间,侧重于利用已有数据进行学习。 #### 其他 PSRO、PFSP 以及参考[强化学习算法分类](./强化学习算法分类.png) #### 总结 - **离散动作适配**: Q-learning 类、部分 Imitation Learning(如 BC/GAIL)、部分 Cooperation(如 QMX/QTran/WQMIX)。 - **连续动作适配**: Q-value Actor-Critic 类、V-value Actor-Critic 类、部分 Imitation Learning(如 SQIL)、Model-Based RL(如 MBPO/DDPPO)。 - **均适配**: Cooperation 类、Imitation Learning 类、Exploration in RL 类、Model-Based RL 类、Offline RL 类。 ### 强化学习先进的算法网络 #### 通用先进算法网络 1. **Deep Q-Network (DQN)** 系列: - DQN - Double DQN - Dueling DQN - Noisy DQN - Rainbow DQN(集成多种改进) - Ape-X DQN(多进程版本的 DQN) - R2D2 (Recurrent Replay Distributed DQN) 2. **Policy Gradient (PG)** 系列: - REINFORCE - Actor-Critic 家族: - Advantage Actor-Critic (A2C) - Asynchronous Advantage Actor-Critic (A3C) - Proximal Policy Optimization (PPO) - Trust Region Policy Optimization (TRPO) - Soft Actor-Critic (SAC) 3. **Evolutionary Strategies (ES)**: - ES 算法 - Cross-Entropy Method (CEM) 4. **Q-Learning 变体**: - Deep Deterministic Policy Gradient (DDPG) - Twin Delayed DDPG (TD3) 5. **其他高级算法**: - Distributed Distributional Deterministic Policy Gradient (D4PG) - Maximum a Posteriori Policy Optimization (MPO) - Dreamer 和 DreamerV2 - IMPALA (Importance Weighted Actor-Learner Architecture) - NGU (Never Give Up) ### 支持离散动作的算法网络 离散动作的强化学习算法适合像 Atari、经典控制等离散空间的任务。以下算法表现优秀: 1. **基于值的算法**: - DQN 系列(包括 Dueling DQN、Rainbow DQN 等) - QR-DQN (Quantile Regression DQN) - Distributional RL(如 C51, IQN) 2. **基于策略的算法**: - REINFORCE - A2C / A3C - PPO(也支持离散) - GRPO - TRPO 3. **组合型**: - Actor-Critic 方法的离散版本(如 PPO、A2C 等) - SAC 离散变体 4. Phasic Policy Gradient (PPG):一种新的离散动作策略梯度算法。 5. Random Network Distillation (RND) 6. Robust Policy Optimization (RPO) 7. QDagger 8. Transformer-XL (PPO-TrXL) --- ### 支持连续动作的算法网络 连续动作的强化学习算法适合机器人控制、运动规划等连续空间任务。以下算法表现优秀: 1. **基于值的算法(偏少)**: - DDPG - TD3 - SAC(Soft Actor-Critic) 2. **基于策略的算法**: - PPO(支持连续动作) - TRPO(支持连续动作) - A2C / A3C(支持连续动作) 3. **模型优化方法**: - D4PG - MPO - Dreamer/DreamerV2(对连续控制任务表现非常好) 4. **演化算法**: - ES 系列 - CEM(Cross-Entropy Method) 5. Phasic Policy Gradient (PPG):一种新的离散动作策略梯度算法。 6. Random Network Distillation (RND) 7. Robust Policy Optimization (RPO) 8. Transformer-XL (PPO-TrXL) --- ### 总结 #### 离散动作 - 重点算法:DQN 系列、PPO、A2C/A3C、TRPO、Rainbow DQN 等。 #### 连续动作 - 重点算法:SAC、DDPG、TD3、PPO、TRPO 等。 #### 通用强推荐 - **PPO**:简单易实现,适用于离散和连续动作。 - **SAC**:高效稳定,适用于连续动作。 - **DQN**:经典高效,适用于离散动作。 你可以根据任务需求选择适合的算法,例如是否需要高稳定性、是否需要处理大规模观测或复杂策略优化。 # 项目情况 | 项目名称 | 模块 | 算法 | 状态 | | ---------------- | -------------------------------- | --------------------- | ---------------------------------- | | 2048 | 2028 | DQN | 未适配 | | tictactoe | basic | 未确定 | 未适配 | | 点击选字验证码 | wordVision | TRPO | 已适配,未验证 | | 点击选字验证码 | wordVision | A2C | 已适配,未验证 | | 微信跳一跳 | wx_jump | A2C | 未适配 | | acrobot | learning/atari-acrobot | dqn_basic | 已适配,验证通过 | | acrobot | learning/atari-acrobot | dqn_distrib | 已适配,验证通过 | | acrobot | learning/atari-acrobot | ppo 单进程 离散动作 | 完成适配,待训练 | | acrobot | learning/atari-acrobot | ppo 多进程 离散动作 | 正在适配,训练不通过 | | alien | learning/atari-alien | i2a_a2c | 已适配,训练不通过 | | alien | learning/atari-alien | a2c gray conv | 已适配,训练通过,待验证 | | alien | learning/atari-alien | a2c linear | 已适配,训练通过,验证通过 | | amidar | learning/atari-amidar | a3c conv | 已适配,正在重新适配 | | amidar | learning/atari-amidar | dqn rainbow | 已适配,训练通过,待验证 | | amidar | learning/atari-amidar | a2c conv 不缩放奖励 | 已适配,训练通过,待验证 | | amidar | learning/atari-amidar | a2c conv 缩放奖励 | 已适配,训练通过,待验证 | | amidar | learning/atari-amidar | a2c linear | 已适配,训练不通过,分数没有原先高 | | assault | learning/atari-assault | a2c conv 连续采样样本 | 已适配,训练通过,验证通过 | | asterix | learning/atari-asterix | ppo 其他人的代码 | 已适配,训练不通过 | | asterix | learning/atari-asterix | ppo 自实现代码 | 已适配,训练不通过 | | atlantis | learning/atari-atlantis | dqn basic | 已适配,训练通过, 待验证 | | atlantis | learning/atari-atlantis | dqn prio replay | 已适配,训练不通过 | | atlantis | learning/atari-atlantis | a2c conv | 已适配,训练通过, 待验证 | | atlantis | learning/atari-atlantis | a2c linear | 已适配,训练不通过 | | atlantis2 | learning/atari-atlantis2 | sac 第三方 | 已适配,训练不通过 | | atlantis2 | learning/atari-atlantis2 | a2c conv | 已适配,训练通过,待验证 | | atlantis2 | learning/atari-atlantis2 | sac q 值 v2 版本 | 已适配,训练不通过 | | atlantis2 | learning/atari-atlantis2 | sac q 值 | 已适配,训练不通过 | | atlantis2 | learning/atari-atlantis2 | sac | 完成适配,正在不通过 | | bankheist | learning/atari-bankheist | dqn dueling | 已适配,训练通过, 待验证 | | bankheist | learning/atari-bankheist | a2c conv | 已适配,训练通过,待验证 | | bankheist | learning/atari-bankheist | a2c linear | 已适配,训练通过,待验证 | | basicmath | learning/atari-basicmath | | 未适配 | | battlezone | learning/atari-battlezone | a2c linear LSTM | 已适配,训练不通过 | | battlezone | learning/atari-battlezone | a2c linear | 已适配,训练不通过 | | battlezone | learning/atari-battlezone | trpo | 已适配,训练不通过 | | battlezone | learning/atari-battlezone | a2c conv | 已适配,训练通过,待验证 | | beamrider | learning/atari-beamrider | a2c conv | 已适配,训练通过,待验证 | | beamrider | learning/atari-beamrider | a2c linear | 已适配,训练不通过 | | beamrider | learning/atari-beamrider | sac q 值 v2 版本 | 已适配,训练不通过 | | berzerk | learning/atari-berzerk | ppo 第三方 | 已适配,训练不通过 | | berzerk | learning/atari-berzerk | ppo 自实现 | 已适配,训练通过,待验证 | | blackjack | learning/atari-blackjack | a2c conv | 已适配,训练不通过 | | blackjack | learning/atari-blackjack | a2c linear | 已适配,训练通过,待验证 | | blackjack | learning/atari-blackjack | ppo 自实现 | 已适配,训练出现异常 | | bowling | learning/atari-bowling | a2c conv | 已适配,训练通过,待验证 | | bowling | learning/atari-bowling | a2c linear | 已适配,训练不通过 | | bowling | learning/atari-bowling | ppg | 已适配,训练不通过 | | boxing | learning/atari-boxing | ppo rnd | 已适配,待训练 | | breakout | learning/atari-breakout | dqn basic | 已适配,训练不通过 | | breakout | learning/atari-breakout | dqn prio replay | 未适配 | | breakout | learning/atari-breakout | a2c conv | 已适配,训练通过,验证通过 | | breakout | learning/atari-breakout | a2c lstm | 未适配 | | breakout | learning/atari-breakout | ppo 外部计算 softmax | 已适配,训练不通过 | | breakout | learning/atari-breakout | ppo 模型计算 softmax | 已适配,训练不通过 | | breakout | learning/atari-breakout | ppo | 已适配,训练不通过 | | breakout | learning/atari-breakout | trpo | 已适配,算法有问题,无法训练 | | carnival | learning/atari-carnival | qdragger | 未适配 | | carnival | learning/atari-carnival | dqn rainbow | 已适配,训练通过,待验证 | | casino | learning/atari-casino | qwen | 未适配 | | centipede | learning/atari-centipede | pqn v2 | 已适配,训练通过,未验证 | | centipede | learning/atari-centipede | pqn | 已适配,训练通过,未验证 | | choppercommand | learning/atari-choppercommand | dppo | 已适配,待训练 | | crazyclimber | learning/atari-crazyclimber | ppo lstm | 已适配,正在适配 | | crossbow | learning/atari-crossbow | | 未适配 | | darkchambers | learning/atari-darkchambers | ppo trxl 第三方 | 已适配,训练异常 | | darkchambers | learning/atari-darkchambers | ppo trxl 自实现 | 未适配 | | defender | learning/atari-defender | ppo trxl 第三方 | 已适配,训练不通过 | | demonattack | learning/atari-demonattack | ppg 第三方 | 未适配 | | demonattack | learning/atari-demonattack | ppg 自实现 | 已适配,训练不通过 | | donkeykong | learning/atari-donkeykong | trpo | 已适配,训练不通过 | | doubledunk | learning/atari-doubledunk | qr_dqn | 已适配,训练不通过 | | doubledunk | learning/atari-doubledunk | a2c_lstm | 已适配,训练不通过 | | earthworld | learning/atari-earthworld | | 未适配 | | elevatoraction | learning/atari-elevatoraction | iqn_dqn | 正在适配 | | enduro | learning/atari-enduro | iqn_dqn | 未适配 | | entombed | learning/atari-entombed | fqf_dqn | 已适配,训练通过,待验证 | | et | learning/atari-et | | 未适配 | | fishingderby | learning/atari-fishingderby | a2c_conv | 已适配,训练通过,待验证 | | flagcapture | learning/atari-flagcapture | | 未适配 | | freeway | learning/atari-freeway | | 未适配 | | frogger | learning/atari-frogger | ppo | 已适配,训练不通过 | | frostbite | learning/atari-frostbite | sac | 已适配,训练不通过 | | galaxian | learning/atari-galaxian | sdt ppo gae | 正在适配 | | gopher | learning/atari-gopher | ppo rnd | 已适配,训练不通过 | | gravitar | learning/atari-gravitar | | 未适配 | | hangman | learning/atari-hangman | | 未适配 | | hauntedhouse | learning/atari-hauntedhouse | | 未适配 | | hero | learning/atari-hero | train ppo lstm rnd | 已适配,训练通过,待验证 | | humancannonball | learning/atari-humancannonball | mpo | 已适配,训练不通过 | | atari-zaxxon | learning/atari-zaxxon | rainbow | 正在适配 | | atari-zaxxon | learning/atari-zaxxon | a2c linear | 已适配,训练通过,待验证 | | IceHockey | learning/atari/IceHockey | dreamerv2 | 已适配,训练不通过 | | Jamesbond | learning/atari/Jamesbond | dreamerv3 | 已适配,训练太慢,训练不通过 | | JourneyEscape | learning/atari/JourneyEscape | dqn baisc kan | 已适配,训练不通过 | | Kaboom | learning/atari/Kaboom | a2c kconv | 已适配,训练通过,待 play | | Kangaroo | learning/atari/Kangaroo | a2c conv kan | 正在适配 | | KeystoneKapers | learning/atari/KeystoneKapers | a2c kconv | 正在适配 | | KingKong | learning/atari/KingKong | rainbow curl 第三方 | 完成适配,训练不通过 | | Klax | learning/atari/Klax | rainbow curl | 完成适配,训练不通过 | | koolaid | learning/atari/koolaid | muzero | 正在适配,待调试 | | krull | learning/atari/krull | | 待算法选择 | | KungFuMaster | learning/atari/KungFuMaster | R2D2 | 完成适配,待训练 | | LaserGates | learning/atari/LaserGates | ppo lstm rnd | 完成适配,待训练 | | LostLuggage | learning/atari/LostLuggage | twm | 正在适配 | | MarioBros | learning/atari/MarioBros | iris | 正在适配 | | MiniatureGolf | learning/atari/MiniatureGolf | | 待适配 | | MontezumaRevenge | learning/atari/MontezumaRevenge | | 待适配 | | MrDo | learning/atari/MrDo | bootstrapped dqn | 完成适配,训练异常,无法收敛 | | MrDo | learning/atari/MrDo | bootstrapped dqn 2 | 完成适配,正在训练 | | MsPacman | learning/atari/MsPacman | bootstrapped dqn | 完成适配,正在训练 | | MsPacman | learning/atari/MsPacman | bootstrapped dqn 2 | 完成适配,完成训练,待验证 | | BipedalWalker | learning/BipedalWalker | a2c | 完成适配,训练不通过 | | BipedalWalker | learning/BipedalWalker | acktr | 完成适配,训练通过,验证通过 | | BipedalWalker | learning/BipedalWalker | d4pg | 完成适配,训练通过,验证通过 | | BipedalWalker | learning/BipedalWalker | ddpg | 完成适配,训练通过,验证通过 | | BipedalWalker | learning/BipedalWalker | ppo | 完成适配,训练通过,验证通过 | | BipedalWalker | learning/BipedalWalker | trpo | 完成适配,训练通过,验证通过 | | CarRacing | learning/CarRacing | a2c linear | 完成适配,训练通过,验证通过 | | CarRacing | learning/CarRacing | ddpg 蒸馏 mobilenetv2 | 完成适配,待训练 | | CarRacing | learning/CarRacing | ddpg moiilenetv2 | 完成适配,待训练 | | CarRacing | learning/CarRacing | ddpg 迁移 mbv2 | 完成适配,训练不通过 | | CarRacing | learning/CarRacing | ddpg 简单网络 | 完成适配,训练不通过 | | CarRacing | learning/CarRacing | ddpg 常规网络 | 完成适配,训练通过,验证通过 | | CarRacing | learning/CarRacing | dreamerv1 重构版 | 正在适配 | | CarRacing | learning/CarRacing | dreamerv2 | 完成适配,训练不通过,调整超参数 | | CarRacing | learning/CarRacing | dreamerv1 | 完成适配,训练通过,待验证 | | CarRacing | learning/CarRacing | ppo | 完成适配,训练不通过 | | CarRacing | learning/CarRacing | sac curl | 完成适配,训练完成,待解决持续训练问题 | | CarRacing | learning/CarRacing | drqv2 | 完成适配,待训练 | | cartpole | learning/cartpole | dqn baisc third | 完成适配,训练不通过 | | cartpole | learning/cartpole | pqn | 完成适配,训练不通过 | | cartpole | learning/cartpole | sac | 完成适配,训练通过,验证通过 | | cartpole | learning/cartpole | mpo | 完成适配,训练不通过 | | cartpole | learning/cartpole | ppo rnd | 完成适配,训练通过,待验证 | | cartpole | learning/cartpole | sac q | 完成适配,训练通过,待验证 | | cartpole | learning/cartpole | trpo | 完成适配,训练不通过 | | cartpole | learning/cartpole | ppo lstm | 完成适配,训练异常 | | cifyflow | learning/cifyflow | 待定 | 未适配 | | dmc | learning/dmc | 待定 | 正在研究 dmc 环境 | | lunarLander | learning/lunarLander | dqn nosify | 完成适配,训练通过,验证通过 | | lunarLander | learning/lunarLander | ppo 离散动作 | 完成适配,训练通过,验证通过 | | lunarLander | learning/lunarLander | ppo 连续动作 | 完成适配,训练通过,验证通过 | | MountainCar | learning/MountainCar | dqn n steps | 完成适配,训练通过,待验证 | | MountainCar | learning/MountainCar | 普通 Q 值神经网络 | 完成适配,训练不通过,无法收敛 | | MountainCar | learning/MountainCar | 普通 Q 值,无网络 | 完成适配,训练通过,验证通过 | | MountainCar | learning/MountainCar | d4pg | 完成适配,训练通过,验证通过 | | MountainCar | learning/MountainCar | sac ae | 完成适配,训练通过,待验证 | | MountainCar | learning/MountainCar | ppo trxl | 完成适配,无法收敛,训练不通过 | | ant | learning/mujoco-ant | a2c | 完成适配,训练不通过 | | ant | learning/mujoco-ant | d4pg | 完成适配,训练通过,验证效果一般 | | ant | learning/mujoco-ant | ddpg | 完成适配,训练通过,验证效果一般 | | ant | learning/mujoco-ant | ppo | 完成适配,训练不通过 | | double-pendulum | learning/mujoco-double-pendulum | cheetah ga | 完成适配,训练通过,待验证 | | double-pendulum | learning/mujoco-double-pendulum | ppo | 完成适配,训练通过,待验证 | | double-pendulum | learning/mujoco-double-pendulum | ppo | 完成适配,训练通过,待验证 | | halfcheetah | learning/mujoco-halfcheetah | acktr | 完成适配,训练通过,验证通过 | | halfcheetah | learning/mujoco-halfcheetah | trpo | 完成适配,训练通过,验证通过 | | hopper | learning/mujoco-hopper | acktr | 完成适配,训练通过,待验证 | | hopper | learning/mujoco-hopper | ddpg | 完成适配,训练通过,待验证 | | hopper | learning/mujoco-hopper | nacktr | 完成适配,训练通过,待验证 | | Humanoid | learning/mujoco-Humanoid | acktr | 完成适配,训练异常 | | Humanoid | learning/mujoco-Humanoid | oacktr | 完成适配,训练异常 | | Humanoid | learning/mujoco-Humanoid | trpo | 完成适配,训练通过,待验证 | | humanoid-standup | learning/mujoco-humanoid-standup | sac | 完成适配,训练异常 | | humanoid-standup | learning/mujoco-humanoid-standup | td3 | 完成适配,训练不通过 | | pendulum | learning/mujoco-pendulum | a2c | 完成适配,训练通过,待验证 | | pendulum | learning/mujoco-pendulum | es | 完成适配,训练通过,待验证 | | pendulum | learning/mujoco-pendulum | ppo | 完成适配,完成训练 | | pendulum | learning/mujoco-pendulum | slac | 完成适配,完成训练,分数较低,待验证| | pusher | learning/mujoco-pusher | ga | 完成适配,训练通过,待验证 | | pusher | learning/mujoco-pusher | ddpg | 完成适配,训练通过,待验证 | | reacher | learning/mujoco-reacher | d4pg | 完成适配,训练通过,待验证 | | reacher | learning/mujoco-reacher | es | 完成适配,训练通过,待验证 | | swimmer | learning/mujoco-swimmer | a3c | 完成适配,完成训练,待调优 | | swimmer | learning/mujoco-swimmer | ppo | 完成适配,训练通过,待验证 | | walker2d | learning/mujoco-walker2d | acktr | 完成适配,训练通过,待验证 | | walker2d | learning/mujoco-walker2d | nacktr | 完成适配,训练通过,待验证 | | walker2d | learning/mujoco-walker2d | ppo | 完成适配,训练通过,待验证 | | walker2d | learning/mujoco-walker2d | rpo | 正在适配 | | nes-game | learning/mnes-game | 待确定 | 待适配 | | pendulum | learning/pendulum | ddpg kan | 完成适配适,训练异常,无法收敛 | | pendulum | learning/pendulum | ddpg rgb | 完成适配,训练不通过 | | pendulum | learning/pendulum | ddpg | 完成适配,训练通过,验证通过 | | pendulum | learning/pendulum | dreamerv1 | 完成适配,训练不通过 | | pendulum | learning/pendulum | planet | 完成适配, 训练异常,无法收敛 | | pendulum | learning/pendulum | sac | 完成适配,训练通过,验证通过 | | pendulum | learning/pendulum | td3 | 完成适配,训练通过,验证通过 | | procgen-game | learning/procgen-game | 待确定 | 待适配 | | pybullet | learning/pybullet | 待确定 | 待适配 | | pybullet-drones | learning/pybullet-drones | acktr | 完成适配,训练异常 | | pybullet-drones | learning/pybullet-drones | ddpg | 完成适配,训练通过,待验证 | | rocket-recycling | learning/rocket-recycling | a2c conv | 完成适配,训练通过,待验证 | | rocket-recycling | learning/rocket-recycling | a2c linear | 完成适配,训练不通过 | | 羊了个羊 | learning/sheep-and-sheep | 待适配 | 待适配 | | 超级马里奥 1 | learning/super_mario | ppo 第三方 | 已适配,训练不通过 | | 超级马里奥 1 | learning/super_mario | ppo 自实现 | 已适配,训练通过,待验证 | | tic-tac-toe | learning/tic-tac-toe | 待适配 | 待适配 | | toytexttaxi | learning/toytexttaxi | 待适配 | 待适配 | | gym-hybrid | learning/di-engine/gym-hybrid-sliding | hyar td3 | 正在适配 | | gym-hybrid | learning/di-engine/gym-hybrid-moving | hyar ddpg | 正在适配 | | gym-hybrid | learning/di-engine/gym-hybrid-moving | hyar hppo | 正在适配 | | gym-hybrid | learning/di-engine/gym-hybrid-moving | mpdqn | 未适配 |