Alexander Gurung's picture

Alexander Gurung PRO

agurung

·

alex-gurung

AI & ML interests

None yet

Recent Activity

updated a model about 11 hours ago

agurung/coconut-gemma-3-4b-ff-reward-filtered

published a model about 11 hours ago

agurung/coconut-gemma-3-4b-ff-reward-filtered

updated a model about 11 hours ago

agurung/coconut-qwen3-4b-ff-reward-filtered

View all activity

Organizations

agurung 's models 86

agurung/coconut-gemma-3-4b-ff-reward-filtered

Updated about 11 hours ago

agurung/coconut-qwen3-4b-ff-reward-filtered

Updated about 11 hours ago

agurung/coconut-gemma-3-1b-gsm-hard

Updated 1 day ago • 4

agurung/flawed-fictions-gemma-3-4b-litereason-sft-positive

5B • Updated 2 days ago • 12

agurung/flawed-fictions-qwen3-4b-litereason-sft-positive

4B • Updated 2 days ago • 12

agurung/colar-gemma-3-1b-gsm-hard-rl

Reinforcement Learning • 1.0B • Updated 6 days ago • 11

agurung/colar-gemma-3-1b-gsm-hard-sft

1.0B • Updated 6 days ago • 10

agurung/colar-gemma-3-4b-ff-sft

4B • Updated 6 days ago • 27

agurung/colar-qwen3-4b-ff-rl

Reinforcement Learning • 4B • Updated 6 days ago • 29

agurung/colar-qwen25-7b-ff-post-rl

Reinforcement Learning • 8B • Updated 6 days ago • 18

agurung/colar-qwen25-7b-ncp-post-rl

Reinforcement Learning • 8B • Updated 6 days ago • 17

agurung/colar-qwen25-7b-ncp-post-sft

8B • Updated 6 days ago • 18

agurung/flawed-fictions-qwen3-4b-litereason

Reinforcement Learning • 4B • Updated 25 days ago • 38

agurung/flawed-fictions-qwen3-4b

Reinforcement Learning • 4B • Updated 26 days ago • 66

agurung/colar-qwen25-7b-ff-post-sft

8B • Updated Mar 15 • 6

agurung/qwen-coconut-ff-v2

8B • Updated Mar 15 • 5

agurung/ncp-qwen25-7b-lengthpenalty

Reinforcement Learning • 8B • Updated Mar 11 • 38

agurung/flawed-fictions-qwen3-4b-lengthpenalty-litereason

Reinforcement Learning • 4B • Updated Mar 10 • 7

agurung/colar-qwen3-4b-ff-sft

4B • Updated Mar 9 • 8

agurung/flawed-fictions-gemma-3-4b-lengthpenalty

Reinforcement Learning • 4B • Updated Feb 25

agurung/flawed-fictions-qwen3-4b-lengthpenalty

Reinforcement Learning • 4B • Updated Feb 24 • 10

agurung/qwen3-4b-ff-grpo-lengthpenalty

4B • Updated Feb 24 • 6

agurung/colar-ff-qwen3-4b

4B • Updated Feb 23 • 2

agurung/flawed-fictions-qwen25-7b-lengthpenalty-litereason

Reinforcement Learning • 8B • Updated Feb 22 • 55

agurung/flawed-fictions-qwen25-7b-lengthpenalty

Reinforcement Learning • 8B • Updated Feb 20 • 49

agurung/flawed-fictions-olmo-3-7b

Reinforcement Learning • 7B • Updated Feb 16 • 3

agurung/flawed-fictions-gemma-3-4b

Reinforcement Learning • 4B • Updated Feb 15 • 22

agurung/qwen3-4b-lcb-dapo-correctness

agurung/Qwen2.5-7B-Instruct-flawedfiction-latent-grpo

Text Generation • 8B • Updated Feb 7 • 89

agurung/v4_savebestearly_sft_qwen7B_25percent_lr_1e3_bptt_offset

Text Generation • 8B • Updated Feb 5 • 1