Updated model

Browse files

Files changed (6) hide show

rng_state.pth +3 -0
scheduler.pt +3 -0
tokenizer.json +2 -2
trainer_state.json +142 -0
training_args.bin +1 -1
vocab.json +0 -0

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:488486fdd1b1a0034a39f3e9e3b2054ddc41a4cdf9466c4afe498e8f258003fa
+size 14503

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0bceb1f245ca1f9094b4c189b4fdf6422b5a8caeb3b9924c35523a4f67426612
+size 623

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:510e560c9624313899b0a23b5a1025c0e5d2ca744868b09210dddf1ef3d37e57
-size 16394089

 version https://git-lfs.github.com/spec/v1
+oid sha256:3bda4f1ac6dbf09f1aa73e2c1d40dc5c1c9abe00fc5b2f7c354eb0f202871137
+size 14932759

trainer_state.json ADDED Viewed

	@@ -0,0 +1,142 @@

+{
+  "best_metric": 3.3264334201812744,
+  "best_model_checkpoint": "uripper/ReviewTrainingBot/checkpoint-45000",
+  "epoch": 1.0144274120829577,
+  "global_step": 45000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0009818840579710146,
+      "loss": 4.0894,
+      "step": 5000
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 3.8452765941619873,
+      "eval_runtime": 381.5421,
+      "eval_samples_per_second": 129.184,
+      "eval_steps_per_second": 6.461,
+      "step": 5000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0009592391304347826,
+      "loss": 3.7663,
+      "step": 10000
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 3.625126600265503,
+      "eval_runtime": 382.09,
+      "eval_samples_per_second": 128.998,
+      "eval_steps_per_second": 6.451,
+      "step": 10000
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0009365942028985508,
+      "loss": 3.6267,
+      "step": 15000
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 3.5167148113250732,
+      "eval_runtime": 379.2329,
+      "eval_samples_per_second": 129.97,
+      "eval_steps_per_second": 6.5,
+      "step": 15000
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0009139492753623188,
+      "loss": 3.5371,
+      "step": 20000
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 3.4787251949310303,
+      "eval_runtime": 379.8968,
+      "eval_samples_per_second": 129.743,
+      "eval_steps_per_second": 6.489,
+      "step": 20000
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0008913043478260869,
+      "loss": 3.4932,
+      "step": 25000
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 3.4222865104675293,
+      "eval_runtime": 380.3957,
+      "eval_samples_per_second": 129.573,
+      "eval_steps_per_second": 6.48,
+      "step": 25000
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0008686594202898551,
+      "loss": 3.4695,
+      "step": 30000
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 3.398277997970581,
+      "eval_runtime": 379.1493,
+      "eval_samples_per_second": 129.999,
+      "eval_steps_per_second": 6.501,
+      "step": 30000
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0008460144927536231,
+      "loss": 3.4292,
+      "step": 35000
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 3.3613269329071045,
+      "eval_runtime": 379.3995,
+      "eval_samples_per_second": 129.913,
+      "eval_steps_per_second": 6.497,
+      "step": 35000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0008233695652173913,
+      "loss": 3.401,
+      "step": 40000
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 3.334460973739624,
+      "eval_runtime": 380.9663,
+      "eval_samples_per_second": 129.379,
+      "eval_steps_per_second": 6.47,
+      "step": 40000
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0008007246376811594,
+      "loss": 3.3928,
+      "step": 45000
+    },
+    {
+      "epoch": 1.01,
+      "eval_loss": 3.3264334201812744,
+      "eval_runtime": 381.4314,
+      "eval_samples_per_second": 129.221,
+      "eval_steps_per_second": 6.462,
+      "step": 45000
+    }
+  ],
+  "max_steps": 221800,
+  "num_train_epochs": 5,
+  "total_flos": 9186152646574080.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdcb5bab7e2df84176238902483a596eb0b068ab32c9f3ba992175b3971ff3e4
 size 3311

 version https://git-lfs.github.com/spec/v1
+oid sha256:8525e5ec9879205b268919326fcb3fb922c9ca3dadc3e1ff4d3baaf550967071
 size 3311

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff