XueyingJia
/

pythia-1b-online-dpo-HH-merge-rewardmodel

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

pythia-1b-online-dpo-HH-merge-rewardmodel / README.md

Commit History

End of training

685a45c
verified

XueyingJia commited on Dec 8, 2024

Model save

8a0d846
verified

XueyingJia commited on Dec 8, 2024