Model save

Files changed (8) hide show

README.md CHANGED Viewed

@@ -60,12 +60,12 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
-|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.5545        | 0.21  | 100  | 0.5658          | -0.4953        | -1.1217          | 0.7188             | 0.6264          | -374.3159      | -312.0799    | -1.0287         | -1.3212       |
-| 0.5026        | 0.42  | 200  | 0.5202          | -0.8995        | -1.7718          | 0.7461             | 0.8723          | -439.3264      | -352.4985    | 0.5190          | -0.1773       |
-| 0.5106        | 0.63  | 300  | 0.5104          | -0.7946        | -1.6285          | 0.7656             | 0.8339          | -424.9976      | -342.0043    | 0.9099          | 0.0862        |
-| 0.4859        | 0.84  | 400  | 0.5031          | -0.9777        | -1.9580          | 0.7578             | 0.9803          | -457.9452      | -360.3139    | 1.7438          | 0.7818        |
 ### Framework versions

 ### Training results
+| Training Loss | Epoch | Step | Logits/chosen | Logits/rejected | Logps/chosen | Logps/rejected | Validation Loss | Rewards/accuracies | Rewards/chosen | Rewards/margins | Rewards/rejected |
+|:-------------:|:-----:|:----:|:-------------:|:---------------:|:------------:|:--------------:|:---------------:|:------------------:|:--------------:|:---------------:|:----------------:|
+| 0.5545        | 0.21  | 100  | -1.3212       | -1.0287         | -312.0799    | -374.3159      | 0.5658          | 0.7188             | -0.4953        | 0.6264          | -1.1217          |
+| 0.5026        | 0.42  | 200  | -0.1773       | 0.5190          | -352.4985    | -439.3264      | 0.5202          | 0.7461             | -0.8995        | 0.8723          | -1.7718          |
+| 0.5106        | 0.63  | 300  | 0.0862        | 0.9099          | -342.0043    | -424.9976      | 0.5104          | 0.7656             | -0.7946        | 0.8339          | -1.6285          |
+| 0.4859        | 0.84  | 400  | 0.7818        | 1.7438          | -360.3139    | -457.9452      | 0.5031          | 0.7578             | -0.9777        | 0.9803          | -1.9580          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -9,13 +9,13 @@
     "eval_rewards/chosen": -0.9468507170677185,
     "eval_rewards/margins": 0.946345865726471,
     "eval_rewards/rejected": -1.8931965827941895,
-    "eval_runtime": 89.0083,
     "eval_samples": 2000,
-    "eval_samples_per_second": 22.47,
-    "eval_steps_per_second": 0.36,
-    "train_loss": 0.5366686437918052,
-    "train_runtime": 5328.4749,
     "train_samples": 61135,
-    "train_samples_per_second": 11.473,
-    "train_steps_per_second": 0.09
 }

     "eval_rewards/chosen": -0.9468507170677185,
     "eval_rewards/margins": 0.946345865726471,
     "eval_rewards/rejected": -1.8931965827941895,
+    "eval_runtime": 87.2102,
     "eval_samples": 2000,
+    "eval_samples_per_second": 22.933,
+    "eval_steps_per_second": 0.367,
+    "train_loss": 0.07998354963677698,
+    "train_runtime": 779.5821,
     "train_samples": 61135,
+    "train_samples_per_second": 78.42,
+    "train_steps_per_second": 0.613
 }

eval_results.json CHANGED Viewed

@@ -9,8 +9,8 @@
     "eval_rewards/chosen": -0.9468507170677185,
     "eval_rewards/margins": 0.946345865726471,
     "eval_rewards/rejected": -1.8931965827941895,
-    "eval_runtime": 89.0083,
     "eval_samples": 2000,
-    "eval_samples_per_second": 22.47,
-    "eval_steps_per_second": 0.36
 }

     "eval_rewards/chosen": -0.9468507170677185,
     "eval_rewards/margins": 0.946345865726471,
     "eval_rewards/rejected": -1.8931965827941895,
+    "eval_runtime": 87.2102,
     "eval_samples": 2000,
+    "eval_samples_per_second": 22.933,
+    "eval_steps_per_second": 0.367
 }

runs/Jan09_02-55-51_ip-26-0-175-170/events.out.tfevents.1704769033.ip-26-0-175-170.1776380.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:4036594ae4d7bad8aeedfec87fb99717ce035a9ed82dbaaf54b103a76dd91fda
+size 9296

runs/Jan09_02-55-51_ip-26-0-175-170/events.out.tfevents.1704769900.ip-26-0-175-170.1776380.1 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b8cd2f61d20317d65398980859f5fe6d7a52dd0b093c51a764b2ce0e4643691
+size 828

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.5366686437918052,
-    "train_runtime": 5328.4749,
     "train_samples": 61135,
-    "train_samples_per_second": 11.473,
-    "train_steps_per_second": 0.09
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.07998354963677698,
+    "train_runtime": 779.5821,
     "train_samples": 61135,
+    "train_samples_per_second": 78.42,
+    "train_steps_per_second": 0.613
 }

trainer_state.json CHANGED Viewed

@@ -748,10 +748,10 @@
       "epoch": 1.0,
       "step": 478,
       "total_flos": 0.0,
-      "train_loss": 0.5366686437918052,
-      "train_runtime": 5328.4749,
-      "train_samples_per_second": 11.473,
-      "train_steps_per_second": 0.09
     }
   ],
   "logging_steps": 10,

       "epoch": 1.0,
       "step": 478,
       "total_flos": 0.0,
+      "train_loss": 0.07998354963677698,
+      "train_runtime": 779.5821,
+      "train_samples_per_second": 78.42,
+      "train_steps_per_second": 0.613
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8223da2f2f0ee9475bd12cdfd5985b88e1af713b8c6fb49804c639b8f261335
 size 5944

 version https://git-lfs.github.com/spec/v1
+oid sha256:69cf624fa75155fbc3b3306ef30d89afcf96ec1349692b912a70eb6a3e08d032
 size 5944