XueyingJia
/

pythia-1b-online-dpo-HH-merge-rewardmodel-duplicated

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

pythia-1b-online-dpo-HH-merge-rewardmodel-duplicated / tokenizer.json

XueyingJia's picture

Model save

7e3e981 verified 18 days ago

3.56 MB

File too large to display, you can check the raw version instead.