Edit Models filters

Inference status

Misc

Inference Endpoints

AutoTrain Compatible

text-generation-inference

Misc with no match

4-bit precision

8-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

2,050

Full-text search

Active filters: ppo

sjkwon/4942_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • Updated Oct 25, 2024 • 2

sjkwon/3999_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • Updated Oct 25, 2024 • 2

jiaqihe/ppo-cleanrl-CartPole-v1

Reinforcement Learning • Updated Oct 26, 2024

neaven77/ppo-CartPole-v1

Reinforcement Learning • Updated Oct 27, 2024

neaven77/ppo-LunarLander-v2.1

Reinforcement Learning • Updated Oct 27, 2024

SeanLMH/myppo-LunarLander-v2

Reinforcement Learning • Updated Oct 29, 2024

sjkwon/7826_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • Updated Oct 30, 2024 • 46

sjkwon/9260_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • Updated Oct 30, 2024 • 45

stvnl/msc_ppo_en

Reinforcement Learning • Updated Oct 31, 2024 • 47

stvnl/msc_ppo_zh

Reinforcement Learning • Updated Oct 31, 2024 • 47

sjkwon/6750_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • Updated Oct 31, 2024 • 45

atharv-16/LunarLander-v2

Reinforcement Learning • Updated Oct 31, 2024

sjkwon/5e-6_6528_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • Updated Nov 1, 2024 • 47

sjkwon/2e-5_2184_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • Updated Nov 1, 2024 • 46

sjkwon/1e-5_2000_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • Updated Nov 1, 2024 • 46

bcyeung/ppo-LunarLander-v2-cleanRL

Reinforcement Learning • Updated Nov 4, 2024

rasyadanfz/LunarLander-v2-scratch

Reinforcement Learning • Updated Nov 5, 2024

InMDev/PPO-LunarLanding

Reinforcement Learning • Updated Nov 6, 2024

mnneely/LunarLandar_PPO

Reinforcement Learning • Updated Nov 6, 2024

mixklim/ppo-LunarLander-u8

Reinforcement Learning • Updated Nov 7, 2024

alidenewade/LunarLander-v2-alid

Reinforcement Learning • Updated Nov 7, 2024

Brumocas/LunarLander-v2

Reinforcement Learning • Updated Nov 8, 2024

bkuen/ppo-cleanrl-LunarLander-v2

Reinforcement Learning • Updated Nov 9, 2024

lahirum/ppo-LunarLander-v3

Reinforcement Learning • Updated Nov 9, 2024

gljj/llama-2-Singapore-fake-news-RL-PPO

Reinforcement Learning • Updated Nov 23, 2024 • 1

AndiB93/CosmicVoyage_RL

Reinforcement Learning • Updated 19 days ago • 12 • 1

ToshI4/PPO-Lunar

Reinforcement Learning • Updated Nov 10, 2024

usamabuttar/ppo-scratch-LunarLander-v2

Reinforcement Learning • Updated Nov 11, 2024

SyNgu/ppo.py

Reinforcement Learning • Updated Nov 13, 2024

sun-s/ppo-CartPole-v1

Reinforcement Learning • Updated Nov 12, 2024