Repository navigation

proximal-policy-optimization

Website
Wikipedia

MorvanZhou / Reinforcement-learning-with-tensorflow

Simple Reinforcement learning tutorials, 莫烦Python 中文AI教学

reinforcement-learning 教程 q-learning sarsa sarsa-lambda deep-q-network a3c ddpg policy-gradient dqn double-dqn dueling-dqn deep-deterministic-policy-gradient actor-critic Tensorflow proximal-policy-optimization ppo 机器学习

Python

9157

5025

1 年前

vwxyzjn / cleanrl

High-quality single file implementation of Deep Reinforcement Learning algorithms with research-friendly features (PPO, DQN, C51, DDPG, TD3, SAC, PPG)

wandb reinforcement-learning PyTorch Python gym 机器学习 deep-reinforcement-learning 深度学习 atari ale a2c proximal-policy-optimization ppo advantage-actor-critic actor-critic phasic-policy-gradient

Python

6822

743

11 天前

OpenRLHF / OpenRLHF

An Easy-to-use, Scalable and High-performance RLHF Framework (70B+ PPO Full Tuning & Iterative DPO & LoRA & RingAttention & RFT)

transformers vllm large-language-models raylib reinforcement-learning-from-human-feedback reinforcement-learning openai-o1 proximal-policy-optimization

Python

6328

622

14 小时前

ikostrikov / pytorch-a2c-ppo-acktr-gail

PyTorch implementation of Advantage Actor Critic (A2C), Proximal Policy Optimization (PPO), Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation (ACKTR) and Generative Adversarial Imitation Learning (GAIL).

PyTorch reinforcement-learning 深度学习 deep-reinforcement-learning actor-critic advantage-actor-critic a2c ppo proximal-policy-optimization hessian atari mujoco roboschool continuous-control ale

Python

3732

835

3 年前

nikhilbarhate99 / PPO-PyTorch

Minimal implementation of clipped objective Proximal Policy Optimization (PPO) in PyTorch

pytorch-implmention PyTorch pytorch-tutorial proximal-policy-optimization reinforcement-learning-algorithms deep-reinforcement-learning ppo policy-gradient 深度学习 reinforcement-learning

Python

1991

375

9 个月前

Khrylx / PyTorch-RL

PyTorch implementation of Deep Reinforcement Learning: Policy Gradient methods (TRPO, PPO, A2C) and Generative Adversarial Imitation Learning (GAIL). Fast Fisher vector product TRPO.

reinforcement-learning policy-gradient pytorch-rl proximal-policy-optimization ppo PyTorch a2c Generative Adversarial Network deep-reinforcement-learning

Python

1188

190

4 年前

vietnh1009 / Super-mario-bros-PPO-pytorch

Proximal Policy Optimization (PPO) algorithm for Super Mario Bros

reinforcement-learning ppo ppo2 PyTorch gym Python 深度学习 super-mario-bros mario 人工智能 proximal-policy-optimization openai openai-gym

Python

1150

209

4 年前

TianhongDai / reinforcement-learning-algorithms

This repository contains most of pytorch implementation based classic deep reinforcement learning algorithms, including - DQN, DDQN, Dueling Network, DDPG, SAC, A2C, PPO, TRPO. (More algorithms are still in progress)

deep-reinforcement-learning ddpg ppo proximal-policy-optimization 深度学习 actor-critic 算法 dqn flappy-bird a2c atari2600 dueling-dqn PyTorch soft-actor-critic sac

Python

678

111

4 年前