tzwilliam0
/

maxmin-dpo-init-kl-coef-0.1-fix-lora-dongnan

Reinforcement Learning

Inference Endpoints

Model card Files Files and versions Community

maxmin-dpo-init-kl-coef-0.1-fix-lora-dongnan / README.md

Commit History

new upload

74ec05f

v-guidongnan commited on 22 days ago

Upload model

6b2d152
verified

tzwilliam0 commited on 22 days ago