sfulay
/

zephyr-7b-dpo-full-ultrabin-reward-scale-1-rpo

Generated from Trainer

Model card Files Files and versions Community

zephyr-7b-dpo-full-ultrabin-reward-scale-1-rpo / model-00001-of-00003.safetensors

Commit History

Training in progress, step 478

0e5d873
verified

sfulay commited on Aug 17, 2024

Training in progress, step 400

15a1409
verified

sfulay commited on Aug 17, 2024

Training in progress, step 300

3f4f613
verified

sfulay commited on Aug 17, 2024

Training in progress, step 200

dd148a8
verified

sfulay commited on Aug 17, 2024

Training in progress, step 100

83f3f23
verified

sfulay commited on Aug 16, 2024

Training in progress, step 200

82e0b88
verified

sfulay commited on Aug 15, 2024

Training in progress, step 100

f04d5f1
verified

sfulay commited on Aug 15, 2024