NicholasCorrado
/

zephyr-7b-uf-rlced-conifer-group-dpo-2e

@@ -3,9 +3,15 @@ library_name: transformers
 license: apache-2.0
 base_model: alignment-handbook/zephyr-7b-sft-full
 tags:
 - trl
 - dpo
 - generated_from_trainer
 model-index:
 - name: zephyr-7b-uf-rlced-conifer-group-dpo-2e
   results: []
@@ -16,24 +22,24 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-uf-rlced-conifer-group-dpo-2e
-This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.2410
-- Rewards/chosen: -3.4515
-- Rewards/rejected: -8.7505
-- Rewards/accuracies: 0.8769
-- Rewards/margins: 5.2990
-- Logps/rejected: -1278.7848
-- Logps/chosen: -737.6204
-- Logits/rejected: 3.0507
-- Logits/chosen: 0.9407
-- Alpha0: 0.6369
-- Alpha1: 0.3631
-- Task Loss1: 0.1726
-- Task Excess Loss1: 0.0379
-- Excess Loss: 0.0341
-- Task Loss0: 0.5306
-- Task Excess Loss0: 0.0889
 ## Model description

 license: apache-2.0
 base_model: alignment-handbook/zephyr-7b-sft-full
 tags:
+- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
+- trl
+- dpo
+- generated_from_trainer
+datasets:
+- data/zephyr_uf_rlced_conifer_ref
 model-index:
 - name: zephyr-7b-uf-rlced-conifer-group-dpo-2e
   results: []
 # zephyr-7b-uf-rlced-conifer-group-dpo-2e
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the data/zephyr_uf_rlced_conifer_ref dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.2410
+- Rewards/chosen: -3.4514
+- Rewards/rejected: -8.7503
+- Rewards/accuracies: 0.8778
+- Rewards/margins: 5.2989
+- Logps/rejected: -1278.7679
+- Logps/chosen: -737.6100
+- Logits/rejected: 3.0512
+- Logits/chosen: 0.9415
+- Alpha0: 0.1957
+- Alpha1: 0.8043
+- Task Loss1: 0.1724
+- Task Excess Loss1: 0.0378
+- Excess Loss: 0.0340
+- Task Loss0: 0.5295
+- Task Excess Loss0: 0.0879
 ## Model description

all_results.json CHANGED Viewed

@@ -1,5 +1,25 @@
 {
     "epoch": 1.9986120749479528,
     "total_flos": 0.0,
     "train_loss": 0.17575526105033026,
     "train_runtime": 46867.94,

 {
     "epoch": 1.9986120749479528,
+    "eval_alpha0": 0.1956627070903778,
+    "eval_alpha1": 0.8043374419212341,
+    "eval_excess_loss": 0.03396472496617781,
+    "eval_logits/chosen": 0.941495954990387,
+    "eval_logits/rejected": 3.0511972904205322,
+    "eval_logps/chosen": -737.6100463867188,
+    "eval_logps/rejected": -1278.7679443359375,
+    "eval_loss": 0.2410118132829666,
+    "eval_rewards/accuracies": 0.8778195381164551,
+    "eval_rewards/chosen": -3.451406478881836,
+    "eval_rewards/margins": 5.298919200897217,
+    "eval_rewards/rejected": -8.750325202941895,
+    "eval_runtime": 386.05,
+    "eval_samples": 8491,
+    "eval_samples_per_second": 21.995,
+    "eval_steps_per_second": 0.345,
+    "eval_task_excess_loss0": 0.08787519361543576,
+    "eval_task_excess_loss1": 0.03778563067191184,
+    "eval_task_loss0": 0.5294545888900757,
+    "eval_task_loss1": 0.1724005937576294,
     "total_flos": 0.0,
     "train_loss": 0.17575526105033026,
     "train_runtime": 46867.94,

config.json CHANGED Viewed

@@ -22,6 +22,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.44.1",
-  "use_cache": false,
   "vocab_size": 32000
 }

   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.44.1",
+  "use_cache": true,
   "vocab_size": 32000
 }

eval_results.json ADDED Viewed

+{
+    "epoch": 1.9986120749479528,
+    "eval_alpha0": 0.1956627070903778,
+    "eval_alpha1": 0.8043374419212341,
+    "eval_excess_loss": 0.03396472496617781,
+    "eval_logits/chosen": 0.941495954990387,
+    "eval_logits/rejected": 3.0511972904205322,
+    "eval_logps/chosen": -737.6100463867188,
+    "eval_logps/rejected": -1278.7679443359375,
+    "eval_loss": 0.2410118132829666,
+    "eval_rewards/accuracies": 0.8778195381164551,
+    "eval_rewards/chosen": -3.451406478881836,
+    "eval_rewards/margins": 5.298919200897217,
+    "eval_rewards/rejected": -8.750325202941895,
+    "eval_runtime": 386.05,
+    "eval_samples": 8491,
+    "eval_samples_per_second": 21.995,
+    "eval_steps_per_second": 0.345,
+    "eval_task_excess_loss0": 0.08787519361543576,
+    "eval_task_excess_loss1": 0.03778563067191184,
+    "eval_task_loss0": 0.5294545888900757,
+    "eval_task_loss1": 0.1724005937576294
+}