tzwilliam0
/

maxmin-dpo-init-kl-coef-0.1-fix-lora-dongnan

Reinforcement Learning

Inference Endpoints

Model card Files Files and versions Community

maxmin-dpo-init-kl-coef-0.1-fix-lora-dongnan

2 contributors

History: 4 commits

v-guidongnan

new upload

74ec05f 8 days ago