metadata

license: apache-2.0
library_name: peft
tags:
  - trl
  - dpo
  - generated_from_trainer
base_model: TheBloke/OpenHermes-2-Mistral-7B-GPTQ
model-index:
  - name: openhermes-mistral-dpo-gptq
    results: []

openhermes-mistral-dpo-gptq

This model is a fine-tuned version of TheBloke/OpenHermes-2-Mistral-7B-GPTQ on the None dataset. It achieves the following results on the evaluation set:

Loss: 0.0132
Rewards/chosen: -1.4792
Rewards/rejected: -8.5855
Rewards/accuracies: 1.0
Rewards/margins: 7.1064
Logps/rejected: -319.5252
Logps/chosen: -138.4254
Logits/rejected: -2.3872
Logits/chosen: -2.5369

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0002
train_batch_size: 1
eval_batch_size: 8
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 2
training_steps: 50
mixed_precision_training: Native AMP

Training results

Training Loss	Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/accuracies	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen
0.5575	10	0.4017	0.0150	-0.6143	1.0	0.6293	-239.8125	-123.4837	-2.4102	-2.6084
0.3781	20	0.1298	-0.2390	-2.2414	1.0	2.0025	-256.0842	-126.0231	-2.3786	-2.6120
0.219	30	0.0410	-0.5640	-4.3638	1.0	3.7998	-277.3080	-129.2739	-2.3879	-2.5872
0.038	40	0.0168	-1.2083	-7.3369	1.0	6.1286	-307.0389	-135.7168	-2.3962	-2.5566
0.0669	50	0.0132	-1.4792	-8.5855	1.0	7.1064	-319.5252	-138.4254	-2.3872	-2.5369

Framework versions

PEFT 0.9.0
Transformers 4.38.2
Pytorch 2.0.1+cu117
Datasets 2.18.0
Tokenizers 0.15.2