Edit Models filters

Inference status

Misc

Inference Endpoints

AutoTrain Compatible

text-generation-inference

Misc with no match

4-bit precision

8-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

2,033

Full-text search

Active filters: ppo

AneeshSinha/ppo-lunar-lander-v3

Reinforcement Learning • Updated 14 days ago

sErial03/ppo-LunarLander-v2

Reinforcement Learning • Updated 2 days ago • 6

Fangliuwh/ppo-CartPole-v1

Reinforcement Learning • Updated 13 days ago

Fangliuwh/LunarLander-v2-ppo-cleanrl

Reinforcement Learning • Updated 13 days ago

LunaMeme/LunarLander-PPO-v2

Reinforcement Learning • Updated 12 days ago

wirthy21/rl2v2unit8_ppo-CartPole-v1

Reinforcement Learning • Updated 9 days ago

mgoksu/LunarLander-v2

Reinforcement Learning • Updated 9 days ago

spenning/ppo-LunarLander-v2_1

Reinforcement Learning • Updated 8 days ago

tzwilliam0/maxmin-dpo-init-kl-coef-0.5-fix-lora-dongnan

Reinforcement Learning • Updated 7 days ago • 16

tzwilliam0/maxmin-dpo-init-kl-coef-0.1-fix-lora-dongnan

Reinforcement Learning • Updated 7 days ago • 16

mradermacher/Moxoff-Phi3Mini-PPO-GGUF

Updated 6 days ago • 203

mradermacher/Moxoff-Phi3Mini-PPO-i1-GGUF

Updated 6 days ago • 358

NBKi/ppoU8-LunarLander

Reinforcement Learning • Updated 5 days ago

DisposableTmep/PPO-CleanRL-LunarLander-v2

Reinforcement Learning • Updated 4 days ago

davidgaofc/POISON_PPO_base

Reinforcement Learning • Updated 3 days ago • 4

davidgaofc/POISON_PPO_0.3

Reinforcement Learning • Updated 3 days ago • 4

davidgaofc/POISON_PPO_0.4

Reinforcement Learning • Updated 3 days ago • 4

davidgaofc/POISON_PPO_0.5

Reinforcement Learning • Updated 3 days ago • 1

Stoub/ppo2-LunarLander-v2

Reinforcement Learning • Updated 1 day ago

tzwilliam0/maxmin-dpo-init-kl-coef-0.1-fix-reward-norm-dongnan

Reinforcement Learning • Updated 2 days ago • 5

tzwilliam0/maxmin-dpo-init-kl-coef-0.5-fix-reward-norm-dongnan

Reinforcement Learning • Updated 2 days ago • 5

Yooniel/ppo-LunarLander-v2-3

Reinforcement Learning • Updated 1 day ago

Yooniel/ppo-LunarLander-v2-4

Reinforcement Learning • Updated 1 day ago