Open to Collab

3 7 13

Jiayu (Mila) Wang

MilaWang

http://jiayuww.github.io

AI & ML interests

Large Language Model, Multimodal Large Language Model, Agentic System, Reasoning, Efficiency

Recent Activity

updated a model 24 days ago

MilaWang/grpo-fullparam-qwen3-4b-base-answeronly01-onpolicy-nokl-lr2e-6-t1-n8

updated a model 24 days ago

MilaWang/grpo-fullparam-qwen2-5-math-7b-answeronly01-onpolicy-nokl-lr2e-6-t1-n8

updated a model 25 days ago

MilaWang/lirpg-lora-intrinsic-fullparam-qwen2-5-math-7b-4000-olympiads-spk-a-rin05-rex10-lrin5e-6-rank16

View all activity

Organizations

Collections 5

View 5 collections

Papers 8

models 76

MilaWang/grpo-fullparam-qwen2-5-math-7b-answeronly01-onpolicy-nokl-lr2e-6-t1-n8

Updated 24 days ago

MilaWang/grpo-fullparam-qwen3-4b-base-answeronly01-onpolicy-nokl-lr2e-6-t1-n8

Updated 24 days ago

MilaWang/lirpg-lora-intrinsic-fullparam-qwen2-5-math-7b-4000-olympiads-spk-a-rin05-rex10-lrin5e-6-rank16

Updated 25 days ago

MilaWang/lirpg-lora-intrinsic-fullparam-qwen2-5-math-7b-4000-40k-spk-h-rin05-rex10-lrin1e-5-rank16-handro

Updated 25 days ago

MilaWang/lirpg-lora-intrinsic-fullparam-qwen2-5-math-7b-4000-40k-spk-a-rin05-rex10-lrin5e-6-rank16-handro

Updated 25 days ago

MilaWang/lirpg-lora-intrinsic-fullparam-qwen2-5-math-7b-4000-40k-spk-a-rin05-rex10-lrin1e-5-rank16-handro

Updated 25 days ago

MilaWang/lirpg-lora-intrinsic-fullparam-qwen2-5-math-7b-4000-40k-spk-a-rin01-rex10-lrin1e-5-rank16-handro

Updated 25 days ago

MilaWang/lirpg-fullparam-olmo-3-7b-instruct-sciknoweval-biology-lr5e-6-rin05-rex10-lrin2e-5-rank16-zeroin

Updated 25 days ago

MilaWang/grpo-fullparam-qwen2-5-math-7b-4000-40k-spk-a01-onpolicy-nokl-lr2e-6

Updated 25 days ago

MilaWang/lirpg-lora-intrinsic-fullparam-qwen2-5-math-7b-4000-math-spk-a-rin05-rex10-lrin5e-6-rank16-handr

Updated 26 days ago

View 76 models

datasets 213

Jiayu (Mila) Wang

AI & ML interests

Recent Activity

Organizations

Collections 5

Papers 8

models 76 Sort: Recently updated

datasets 213 Sort: Recently updated

models 76

datasets 213