XueyingJia
/

pythia-1b-online-dpo-HH-merge-rewardmodel-duplicated

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

pythia-1b-online-dpo-HH-merge-rewardmodel-duplicated / training_args.bin

Commit History

Model save

e8389e8
verified

XueyingJia commited on 18 days ago

Model save

280684b
verified

XueyingJia commited on 18 days ago

Model save

7e3e981
verified

XueyingJia commited on 18 days ago