GitBag (Zhaolin Gao)

Articles 1

Article

10

RLHF 101: A Technical Dive into RLHF

Collections 1

Papers 9

models 328

datasets 484

GitBag/aime24-0-1-Qwen3-4B-Instruct-2507-16384-n-1

Updated Oct 16, 2025 • 1

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-2048-n-1024

Viewer • Updated Oct 9, 2025 • 1 • 5

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-4096-n-1024

Viewer • Updated Oct 9, 2025 • 1 • 4

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-8192-n-1024

Viewer • Updated Oct 9, 2025 • 1 • 4

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-16384-n-1024

Viewer • Updated Oct 8, 2025 • 1 • 7

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-32768-n-1024

Viewer • Updated Oct 8, 2025 • 1 • 6

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-32768-n-8

Viewer • Updated Oct 7, 2025 • 1 • 6

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-3-n-8

Viewer • Updated Oct 7, 2025 • 1 • 5

GitBag/deepscaler-Qwen3-8B-Base-4096-n-16

Viewer • Updated Aug 30, 2025 • 40.3k • 29

GitBag/deepscaler-Qwen3-4B-Base-4096-n-16

Viewer • Updated Aug 30, 2025 • 40.3k • 5

View 484 datasets

Zhaolin Gao

AI & ML interests

Organizations

Articles 1

RLHF 101: A Technical Dive into RLHF

Collections 1

GitBag/gemma-2-9b-it-gsm8k

GitBag/llama-3_1-70b-it-gsm8k

GitBag/gemma-2-27b-it-gsm8k

GitBag/llama-3-8b-it-gsm8k

GitBag/gemma-2-9b-it-gsm8k

GitBag/llama-3_1-70b-it-gsm8k

GitBag/gemma-2-27b-it-gsm8k

GitBag/llama-3-8b-it-gsm8k

Papers 9

models 328

GitBag/a_star_final_a_star_math_1.5_random_reward_actor

GitBag/a_star_final_a_star_math_1.5_wrong_reward_actor

GitBag/a_star_final_a_star_math_3_wrong_reward_actor

GitBag/a_star_final_a_star_math_3_random_reward_actor

GitBag/a_star_final_a_star_math_7_wrong_reward_actor

GitBag/a_star_final_a_star_math_7_random_reward_actor

GitBag/a_star_final_ds-distilled-qwen-1.5b-a-star-16384_actor

GitBag/a_star_final_ds-distilled-qwen-1.5b-grpo-2-kl-1e-4-16384_actor

GitBag/a_star_final_ds-distilled-qwen-1.5b-ppo-kl-1e-4-ec-0.001-16384_critic

GitBag/a_star_final_ds-distilled-qwen-1.5b-ppo-kl-1e-4-ec-0.001-16384_actor

datasets 484

GitBag/aime24-0-1-Qwen3-4B-Instruct-2507-16384-n-1

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-2048-n-1024

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-4096-n-1024

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-8192-n-1024

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-16384-n-1024

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-32768-n-1024

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-32768-n-8

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-3-n-8

GitBag/deepscaler-Qwen3-8B-Base-4096-n-16

GitBag/deepscaler-Qwen3-4B-Base-4096-n-16

Zhaolin Gao

AI & ML interests

Organizations

Articles 1

RLHF 101: A Technical Dive into RLHF

Collections 1

Papers 9

models 328 Sort: Recently updated

datasets 484 Sort: Recently updated

models 328

datasets 484