angelaupc
/

reward_model

Generated from Trainer

Model card Files Files and versions Community

reward_model / special_tokens_map.json

Commit History

meta-llama-Meta-Llama-3-8B-Instruct + argilla-dpo-mix-7k + True + True_batch_size_4_train_epochs_2_gradient_acum_steps_1_logging_steps_64_learning_rate_5e-05_lr_scheduler_type_cosine_with_min_lr_min_lr_ratio_0.1_weight_decay_0.1_seed_42

8e7c96f
verified

angelaupc commited on Aug 12, 2024