XueyingJia
/

pythia-1b-online-dpo-HH-merge-rewardmodel-resume

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

pythia-1b-online-dpo-HH-merge-rewardmodel-resume / training_args.bin

Commit History

Training in progress, step 400

ee95181
verified

XueyingJia commited on Dec 8, 2024

Training in progress, step 100

8564f6f
verified

XueyingJia commited on Dec 8, 2024

Training in progress, step 402

a429f4d
verified

XueyingJia commited on Dec 8, 2024