Joemgu commited on
Commit
ba6a75f
·
1 Parent(s): 73b9319

Training in progress, step 2500

Browse files
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:182386a1cf38f185b8fbbb5ff599ce8275627297c9b1aa370efb582756f589bd
3
  size 4736616809
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:25ee98c0f7b49949d81a28c9754bef9cbad66a8aef1c17fd8167889685e9b857
3
  size 4736616809
last-checkpoint/pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:33853d49cbf9ad7b457c23a5352a35dd94522e2dfba5b3588c54d70f50b930a7
3
  size 2368281769
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9aee612a0a1c2847da99ac4385fa982ffe96a11a86e9c19b170bc87c12c873b1
3
  size 2368281769
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3bc5c9c74b07d3177bd762e89b662fd9a14c29d44bea2aaaa53e33bfbfa28bfb
3
  size 14575
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7860309a9f924235d948b2eb29b2575e789c9092d1500261ccc3edc2aa2e038b
3
  size 14575
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:39eb0d941c55d9886b51c7c768c9e840e34b71d35e8711b594acadc02755ab1f
3
  size 627
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b96aa558fbc8a00885c5ed2fa77b045521eaafa17be7361a44ccd54fb7c1f7aa
3
  size 627
last-checkpoint/trainer_state.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "best_metric": 2.1167054176330566,
3
- "best_model_checkpoint": "output/checkpoint-2000",
4
- "epoch": 0.3333333333333333,
5
- "global_step": 2000,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
@@ -12058,11 +12058,3024 @@
12058
  "eval_samples_per_second": 2.609,
12059
  "eval_steps_per_second": 0.365,
12060
  "step": 2000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
12061
  }
12062
  ],
12063
  "max_steps": 6000,
12064
  "num_train_epochs": 9223372036854775807,
12065
- "total_flos": 1.9020149023156347e+18,
12066
  "trial_name": null,
12067
  "trial_params": null
12068
  }
 
1
  {
2
+ "best_metric": 2.074338674545288,
3
+ "best_model_checkpoint": "output/checkpoint-2500",
4
+ "epoch": 0.4166666666666667,
5
+ "global_step": 2500,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
 
12058
  "eval_samples_per_second": 2.609,
12059
  "eval_steps_per_second": 0.365,
12060
  "step": 2000
12061
+ },
12062
+ {
12063
+ "epoch": 0.33,
12064
+ "learning_rate": 0.0005422372881355933,
12065
+ "loss": 2.2767,
12066
+ "step": 2001
12067
+ },
12068
+ {
12069
+ "epoch": 0.33,
12070
+ "learning_rate": 0.0005421016949152543,
12071
+ "loss": 2.2243,
12072
+ "step": 2002
12073
+ },
12074
+ {
12075
+ "epoch": 0.33,
12076
+ "learning_rate": 0.0005419661016949154,
12077
+ "loss": 2.2013,
12078
+ "step": 2003
12079
+ },
12080
+ {
12081
+ "epoch": 0.33,
12082
+ "learning_rate": 0.0005418305084745763,
12083
+ "loss": 2.3124,
12084
+ "step": 2004
12085
+ },
12086
+ {
12087
+ "epoch": 0.33,
12088
+ "learning_rate": 0.0005416949152542373,
12089
+ "loss": 2.2031,
12090
+ "step": 2005
12091
+ },
12092
+ {
12093
+ "epoch": 0.33,
12094
+ "learning_rate": 0.0005415593220338983,
12095
+ "loss": 2.237,
12096
+ "step": 2006
12097
+ },
12098
+ {
12099
+ "epoch": 0.33,
12100
+ "learning_rate": 0.0005414237288135594,
12101
+ "loss": 2.2048,
12102
+ "step": 2007
12103
+ },
12104
+ {
12105
+ "epoch": 0.33,
12106
+ "learning_rate": 0.0005412881355932204,
12107
+ "loss": 2.2688,
12108
+ "step": 2008
12109
+ },
12110
+ {
12111
+ "epoch": 0.33,
12112
+ "learning_rate": 0.0005411525423728815,
12113
+ "loss": 2.2177,
12114
+ "step": 2009
12115
+ },
12116
+ {
12117
+ "epoch": 0.34,
12118
+ "learning_rate": 0.0005410169491525424,
12119
+ "loss": 2.2792,
12120
+ "step": 2010
12121
+ },
12122
+ {
12123
+ "epoch": 0.34,
12124
+ "learning_rate": 0.0005408813559322034,
12125
+ "loss": 2.2995,
12126
+ "step": 2011
12127
+ },
12128
+ {
12129
+ "epoch": 0.34,
12130
+ "learning_rate": 0.0005407457627118644,
12131
+ "loss": 2.1763,
12132
+ "step": 2012
12133
+ },
12134
+ {
12135
+ "epoch": 0.34,
12136
+ "learning_rate": 0.0005406101694915254,
12137
+ "loss": 2.1862,
12138
+ "step": 2013
12139
+ },
12140
+ {
12141
+ "epoch": 0.34,
12142
+ "learning_rate": 0.0005404745762711865,
12143
+ "loss": 2.1728,
12144
+ "step": 2014
12145
+ },
12146
+ {
12147
+ "epoch": 0.34,
12148
+ "learning_rate": 0.0005403389830508474,
12149
+ "loss": 2.1935,
12150
+ "step": 2015
12151
+ },
12152
+ {
12153
+ "epoch": 0.34,
12154
+ "learning_rate": 0.0005402033898305085,
12155
+ "loss": 2.1291,
12156
+ "step": 2016
12157
+ },
12158
+ {
12159
+ "epoch": 0.34,
12160
+ "learning_rate": 0.0005400677966101695,
12161
+ "loss": 2.1921,
12162
+ "step": 2017
12163
+ },
12164
+ {
12165
+ "epoch": 0.34,
12166
+ "learning_rate": 0.0005399322033898305,
12167
+ "loss": 2.2846,
12168
+ "step": 2018
12169
+ },
12170
+ {
12171
+ "epoch": 0.34,
12172
+ "learning_rate": 0.0005397966101694915,
12173
+ "loss": 2.2618,
12174
+ "step": 2019
12175
+ },
12176
+ {
12177
+ "epoch": 0.34,
12178
+ "learning_rate": 0.0005396610169491526,
12179
+ "loss": 2.2725,
12180
+ "step": 2020
12181
+ },
12182
+ {
12183
+ "epoch": 0.34,
12184
+ "learning_rate": 0.0005395254237288135,
12185
+ "loss": 2.2848,
12186
+ "step": 2021
12187
+ },
12188
+ {
12189
+ "epoch": 0.34,
12190
+ "learning_rate": 0.0005393898305084746,
12191
+ "loss": 2.239,
12192
+ "step": 2022
12193
+ },
12194
+ {
12195
+ "epoch": 0.34,
12196
+ "learning_rate": 0.0005392542372881356,
12197
+ "loss": 2.2086,
12198
+ "step": 2023
12199
+ },
12200
+ {
12201
+ "epoch": 0.34,
12202
+ "learning_rate": 0.0005391186440677967,
12203
+ "loss": 2.2085,
12204
+ "step": 2024
12205
+ },
12206
+ {
12207
+ "epoch": 0.34,
12208
+ "learning_rate": 0.0005389830508474577,
12209
+ "loss": 2.2464,
12210
+ "step": 2025
12211
+ },
12212
+ {
12213
+ "epoch": 0.34,
12214
+ "learning_rate": 0.0005388474576271187,
12215
+ "loss": 2.2019,
12216
+ "step": 2026
12217
+ },
12218
+ {
12219
+ "epoch": 0.34,
12220
+ "learning_rate": 0.0005387118644067796,
12221
+ "loss": 2.2168,
12222
+ "step": 2027
12223
+ },
12224
+ {
12225
+ "epoch": 0.34,
12226
+ "learning_rate": 0.0005385762711864407,
12227
+ "loss": 2.2155,
12228
+ "step": 2028
12229
+ },
12230
+ {
12231
+ "epoch": 0.34,
12232
+ "learning_rate": 0.0005384406779661017,
12233
+ "loss": 2.2504,
12234
+ "step": 2029
12235
+ },
12236
+ {
12237
+ "epoch": 0.34,
12238
+ "learning_rate": 0.0005383050847457628,
12239
+ "loss": 2.1826,
12240
+ "step": 2030
12241
+ },
12242
+ {
12243
+ "epoch": 0.34,
12244
+ "learning_rate": 0.0005381694915254238,
12245
+ "loss": 2.2056,
12246
+ "step": 2031
12247
+ },
12248
+ {
12249
+ "epoch": 0.34,
12250
+ "learning_rate": 0.0005380338983050848,
12251
+ "loss": 2.2056,
12252
+ "step": 2032
12253
+ },
12254
+ {
12255
+ "epoch": 0.34,
12256
+ "learning_rate": 0.0005378983050847457,
12257
+ "loss": 2.2294,
12258
+ "step": 2033
12259
+ },
12260
+ {
12261
+ "epoch": 0.34,
12262
+ "learning_rate": 0.0005377627118644067,
12263
+ "loss": 2.2824,
12264
+ "step": 2034
12265
+ },
12266
+ {
12267
+ "epoch": 0.34,
12268
+ "learning_rate": 0.0005376271186440678,
12269
+ "loss": 2.2414,
12270
+ "step": 2035
12271
+ },
12272
+ {
12273
+ "epoch": 0.34,
12274
+ "learning_rate": 0.0005374915254237288,
12275
+ "loss": 2.2554,
12276
+ "step": 2036
12277
+ },
12278
+ {
12279
+ "epoch": 0.34,
12280
+ "learning_rate": 0.0005373559322033899,
12281
+ "loss": 2.175,
12282
+ "step": 2037
12283
+ },
12284
+ {
12285
+ "epoch": 0.34,
12286
+ "learning_rate": 0.0005372203389830509,
12287
+ "loss": 2.2984,
12288
+ "step": 2038
12289
+ },
12290
+ {
12291
+ "epoch": 0.34,
12292
+ "learning_rate": 0.000537084745762712,
12293
+ "loss": 2.1961,
12294
+ "step": 2039
12295
+ },
12296
+ {
12297
+ "epoch": 0.34,
12298
+ "learning_rate": 0.0005369491525423728,
12299
+ "loss": 2.1751,
12300
+ "step": 2040
12301
+ },
12302
+ {
12303
+ "epoch": 0.34,
12304
+ "learning_rate": 0.0005368135593220339,
12305
+ "loss": 2.2745,
12306
+ "step": 2041
12307
+ },
12308
+ {
12309
+ "epoch": 0.34,
12310
+ "learning_rate": 0.0005366779661016949,
12311
+ "loss": 2.2797,
12312
+ "step": 2042
12313
+ },
12314
+ {
12315
+ "epoch": 0.34,
12316
+ "learning_rate": 0.000536542372881356,
12317
+ "loss": 2.282,
12318
+ "step": 2043
12319
+ },
12320
+ {
12321
+ "epoch": 0.34,
12322
+ "learning_rate": 0.000536406779661017,
12323
+ "loss": 2.2882,
12324
+ "step": 2044
12325
+ },
12326
+ {
12327
+ "epoch": 0.34,
12328
+ "learning_rate": 0.0005362711864406781,
12329
+ "loss": 2.2505,
12330
+ "step": 2045
12331
+ },
12332
+ {
12333
+ "epoch": 0.34,
12334
+ "learning_rate": 0.000536135593220339,
12335
+ "loss": 2.1641,
12336
+ "step": 2046
12337
+ },
12338
+ {
12339
+ "epoch": 0.34,
12340
+ "learning_rate": 0.000536,
12341
+ "loss": 2.2599,
12342
+ "step": 2047
12343
+ },
12344
+ {
12345
+ "epoch": 0.34,
12346
+ "learning_rate": 0.000535864406779661,
12347
+ "loss": 2.2801,
12348
+ "step": 2048
12349
+ },
12350
+ {
12351
+ "epoch": 0.34,
12352
+ "learning_rate": 0.0005357288135593221,
12353
+ "loss": 2.2227,
12354
+ "step": 2049
12355
+ },
12356
+ {
12357
+ "epoch": 0.34,
12358
+ "learning_rate": 0.0005355932203389831,
12359
+ "loss": 2.1633,
12360
+ "step": 2050
12361
+ },
12362
+ {
12363
+ "epoch": 0.34,
12364
+ "learning_rate": 0.0005354576271186442,
12365
+ "loss": 2.1906,
12366
+ "step": 2051
12367
+ },
12368
+ {
12369
+ "epoch": 0.34,
12370
+ "learning_rate": 0.0005353220338983051,
12371
+ "loss": 2.2234,
12372
+ "step": 2052
12373
+ },
12374
+ {
12375
+ "epoch": 0.34,
12376
+ "learning_rate": 0.0005351864406779661,
12377
+ "loss": 2.2721,
12378
+ "step": 2053
12379
+ },
12380
+ {
12381
+ "epoch": 0.34,
12382
+ "learning_rate": 0.0005350508474576271,
12383
+ "loss": 2.2584,
12384
+ "step": 2054
12385
+ },
12386
+ {
12387
+ "epoch": 0.34,
12388
+ "learning_rate": 0.0005349152542372881,
12389
+ "loss": 2.2241,
12390
+ "step": 2055
12391
+ },
12392
+ {
12393
+ "epoch": 0.34,
12394
+ "learning_rate": 0.0005347796610169492,
12395
+ "loss": 2.1697,
12396
+ "step": 2056
12397
+ },
12398
+ {
12399
+ "epoch": 0.34,
12400
+ "learning_rate": 0.0005346440677966101,
12401
+ "loss": 2.2947,
12402
+ "step": 2057
12403
+ },
12404
+ {
12405
+ "epoch": 0.34,
12406
+ "learning_rate": 0.0005345084745762712,
12407
+ "loss": 2.2233,
12408
+ "step": 2058
12409
+ },
12410
+ {
12411
+ "epoch": 0.34,
12412
+ "learning_rate": 0.0005343728813559322,
12413
+ "loss": 2.1829,
12414
+ "step": 2059
12415
+ },
12416
+ {
12417
+ "epoch": 0.34,
12418
+ "learning_rate": 0.0005342372881355933,
12419
+ "loss": 2.2436,
12420
+ "step": 2060
12421
+ },
12422
+ {
12423
+ "epoch": 0.34,
12424
+ "learning_rate": 0.0005341016949152543,
12425
+ "loss": 2.3029,
12426
+ "step": 2061
12427
+ },
12428
+ {
12429
+ "epoch": 0.34,
12430
+ "learning_rate": 0.0005339661016949153,
12431
+ "loss": 2.1706,
12432
+ "step": 2062
12433
+ },
12434
+ {
12435
+ "epoch": 0.34,
12436
+ "learning_rate": 0.0005338305084745762,
12437
+ "loss": 2.197,
12438
+ "step": 2063
12439
+ },
12440
+ {
12441
+ "epoch": 0.34,
12442
+ "learning_rate": 0.0005336949152542373,
12443
+ "loss": 2.1982,
12444
+ "step": 2064
12445
+ },
12446
+ {
12447
+ "epoch": 0.34,
12448
+ "learning_rate": 0.0005335593220338983,
12449
+ "loss": 2.1874,
12450
+ "step": 2065
12451
+ },
12452
+ {
12453
+ "epoch": 0.34,
12454
+ "learning_rate": 0.0005334237288135594,
12455
+ "loss": 2.2681,
12456
+ "step": 2066
12457
+ },
12458
+ {
12459
+ "epoch": 0.34,
12460
+ "learning_rate": 0.0005332881355932204,
12461
+ "loss": 2.2546,
12462
+ "step": 2067
12463
+ },
12464
+ {
12465
+ "epoch": 0.34,
12466
+ "learning_rate": 0.0005331525423728814,
12467
+ "loss": 2.2767,
12468
+ "step": 2068
12469
+ },
12470
+ {
12471
+ "epoch": 0.34,
12472
+ "learning_rate": 0.0005330169491525423,
12473
+ "loss": 2.2514,
12474
+ "step": 2069
12475
+ },
12476
+ {
12477
+ "epoch": 0.34,
12478
+ "learning_rate": 0.0005328813559322034,
12479
+ "loss": 2.2355,
12480
+ "step": 2070
12481
+ },
12482
+ {
12483
+ "epoch": 0.35,
12484
+ "learning_rate": 0.0005327457627118644,
12485
+ "loss": 2.2754,
12486
+ "step": 2071
12487
+ },
12488
+ {
12489
+ "epoch": 0.35,
12490
+ "learning_rate": 0.0005326101694915255,
12491
+ "loss": 2.2637,
12492
+ "step": 2072
12493
+ },
12494
+ {
12495
+ "epoch": 0.35,
12496
+ "learning_rate": 0.0005324745762711865,
12497
+ "loss": 2.2562,
12498
+ "step": 2073
12499
+ },
12500
+ {
12501
+ "epoch": 0.35,
12502
+ "learning_rate": 0.0005323389830508475,
12503
+ "loss": 2.2038,
12504
+ "step": 2074
12505
+ },
12506
+ {
12507
+ "epoch": 0.35,
12508
+ "learning_rate": 0.0005322033898305085,
12509
+ "loss": 2.1592,
12510
+ "step": 2075
12511
+ },
12512
+ {
12513
+ "epoch": 0.35,
12514
+ "learning_rate": 0.0005320677966101694,
12515
+ "loss": 2.2284,
12516
+ "step": 2076
12517
+ },
12518
+ {
12519
+ "epoch": 0.35,
12520
+ "learning_rate": 0.0005319322033898305,
12521
+ "loss": 2.2083,
12522
+ "step": 2077
12523
+ },
12524
+ {
12525
+ "epoch": 0.35,
12526
+ "learning_rate": 0.0005317966101694915,
12527
+ "loss": 2.2206,
12528
+ "step": 2078
12529
+ },
12530
+ {
12531
+ "epoch": 0.35,
12532
+ "learning_rate": 0.0005316610169491526,
12533
+ "loss": 2.2037,
12534
+ "step": 2079
12535
+ },
12536
+ {
12537
+ "epoch": 0.35,
12538
+ "learning_rate": 0.0005315254237288136,
12539
+ "loss": 2.2805,
12540
+ "step": 2080
12541
+ },
12542
+ {
12543
+ "epoch": 0.35,
12544
+ "learning_rate": 0.0005313898305084747,
12545
+ "loss": 2.2187,
12546
+ "step": 2081
12547
+ },
12548
+ {
12549
+ "epoch": 0.35,
12550
+ "learning_rate": 0.0005312542372881356,
12551
+ "loss": 2.2614,
12552
+ "step": 2082
12553
+ },
12554
+ {
12555
+ "epoch": 0.35,
12556
+ "learning_rate": 0.0005311186440677966,
12557
+ "loss": 2.1532,
12558
+ "step": 2083
12559
+ },
12560
+ {
12561
+ "epoch": 0.35,
12562
+ "learning_rate": 0.0005309830508474576,
12563
+ "loss": 2.2433,
12564
+ "step": 2084
12565
+ },
12566
+ {
12567
+ "epoch": 0.35,
12568
+ "learning_rate": 0.0005308474576271187,
12569
+ "loss": 2.2771,
12570
+ "step": 2085
12571
+ },
12572
+ {
12573
+ "epoch": 0.35,
12574
+ "learning_rate": 0.0005307118644067797,
12575
+ "loss": 2.2803,
12576
+ "step": 2086
12577
+ },
12578
+ {
12579
+ "epoch": 0.35,
12580
+ "learning_rate": 0.0005305762711864408,
12581
+ "loss": 2.232,
12582
+ "step": 2087
12583
+ },
12584
+ {
12585
+ "epoch": 0.35,
12586
+ "learning_rate": 0.0005304406779661017,
12587
+ "loss": 2.2147,
12588
+ "step": 2088
12589
+ },
12590
+ {
12591
+ "epoch": 0.35,
12592
+ "learning_rate": 0.0005303050847457627,
12593
+ "loss": 2.2706,
12594
+ "step": 2089
12595
+ },
12596
+ {
12597
+ "epoch": 0.35,
12598
+ "learning_rate": 0.0005301694915254237,
12599
+ "loss": 2.2839,
12600
+ "step": 2090
12601
+ },
12602
+ {
12603
+ "epoch": 0.35,
12604
+ "learning_rate": 0.0005300338983050848,
12605
+ "loss": 2.2673,
12606
+ "step": 2091
12607
+ },
12608
+ {
12609
+ "epoch": 0.35,
12610
+ "learning_rate": 0.0005298983050847458,
12611
+ "loss": 2.2017,
12612
+ "step": 2092
12613
+ },
12614
+ {
12615
+ "epoch": 0.35,
12616
+ "learning_rate": 0.0005297627118644069,
12617
+ "loss": 2.2356,
12618
+ "step": 2093
12619
+ },
12620
+ {
12621
+ "epoch": 0.35,
12622
+ "learning_rate": 0.0005296271186440678,
12623
+ "loss": 2.2475,
12624
+ "step": 2094
12625
+ },
12626
+ {
12627
+ "epoch": 0.35,
12628
+ "learning_rate": 0.0005294915254237288,
12629
+ "loss": 2.1092,
12630
+ "step": 2095
12631
+ },
12632
+ {
12633
+ "epoch": 0.35,
12634
+ "learning_rate": 0.0005293559322033899,
12635
+ "loss": 2.1665,
12636
+ "step": 2096
12637
+ },
12638
+ {
12639
+ "epoch": 0.35,
12640
+ "learning_rate": 0.0005292203389830508,
12641
+ "loss": 2.245,
12642
+ "step": 2097
12643
+ },
12644
+ {
12645
+ "epoch": 0.35,
12646
+ "learning_rate": 0.0005290847457627119,
12647
+ "loss": 2.2889,
12648
+ "step": 2098
12649
+ },
12650
+ {
12651
+ "epoch": 0.35,
12652
+ "learning_rate": 0.0005289491525423729,
12653
+ "loss": 2.2003,
12654
+ "step": 2099
12655
+ },
12656
+ {
12657
+ "epoch": 0.35,
12658
+ "learning_rate": 0.0005288135593220339,
12659
+ "loss": 2.1893,
12660
+ "step": 2100
12661
+ },
12662
+ {
12663
+ "epoch": 0.35,
12664
+ "learning_rate": 0.0005286779661016949,
12665
+ "loss": 2.2507,
12666
+ "step": 2101
12667
+ },
12668
+ {
12669
+ "epoch": 0.35,
12670
+ "learning_rate": 0.000528542372881356,
12671
+ "loss": 2.2379,
12672
+ "step": 2102
12673
+ },
12674
+ {
12675
+ "epoch": 0.35,
12676
+ "learning_rate": 0.000528406779661017,
12677
+ "loss": 2.2303,
12678
+ "step": 2103
12679
+ },
12680
+ {
12681
+ "epoch": 0.35,
12682
+ "learning_rate": 0.000528271186440678,
12683
+ "loss": 2.1895,
12684
+ "step": 2104
12685
+ },
12686
+ {
12687
+ "epoch": 0.35,
12688
+ "learning_rate": 0.000528135593220339,
12689
+ "loss": 2.2644,
12690
+ "step": 2105
12691
+ },
12692
+ {
12693
+ "epoch": 0.35,
12694
+ "learning_rate": 0.000528,
12695
+ "loss": 2.2196,
12696
+ "step": 2106
12697
+ },
12698
+ {
12699
+ "epoch": 0.35,
12700
+ "learning_rate": 0.000527864406779661,
12701
+ "loss": 2.2162,
12702
+ "step": 2107
12703
+ },
12704
+ {
12705
+ "epoch": 0.35,
12706
+ "learning_rate": 0.0005277288135593221,
12707
+ "loss": 2.1485,
12708
+ "step": 2108
12709
+ },
12710
+ {
12711
+ "epoch": 0.35,
12712
+ "learning_rate": 0.0005275932203389831,
12713
+ "loss": 2.2499,
12714
+ "step": 2109
12715
+ },
12716
+ {
12717
+ "epoch": 0.35,
12718
+ "learning_rate": 0.0005274576271186442,
12719
+ "loss": 2.1435,
12720
+ "step": 2110
12721
+ },
12722
+ {
12723
+ "epoch": 0.35,
12724
+ "learning_rate": 0.000527322033898305,
12725
+ "loss": 2.2032,
12726
+ "step": 2111
12727
+ },
12728
+ {
12729
+ "epoch": 0.35,
12730
+ "learning_rate": 0.0005271864406779661,
12731
+ "loss": 2.3032,
12732
+ "step": 2112
12733
+ },
12734
+ {
12735
+ "epoch": 0.35,
12736
+ "learning_rate": 0.0005270508474576271,
12737
+ "loss": 2.2313,
12738
+ "step": 2113
12739
+ },
12740
+ {
12741
+ "epoch": 0.35,
12742
+ "learning_rate": 0.0005269152542372882,
12743
+ "loss": 2.2046,
12744
+ "step": 2114
12745
+ },
12746
+ {
12747
+ "epoch": 0.35,
12748
+ "learning_rate": 0.0005267796610169492,
12749
+ "loss": 2.2659,
12750
+ "step": 2115
12751
+ },
12752
+ {
12753
+ "epoch": 0.35,
12754
+ "learning_rate": 0.0005266440677966102,
12755
+ "loss": 2.2319,
12756
+ "step": 2116
12757
+ },
12758
+ {
12759
+ "epoch": 0.35,
12760
+ "learning_rate": 0.0005265084745762713,
12761
+ "loss": 2.2137,
12762
+ "step": 2117
12763
+ },
12764
+ {
12765
+ "epoch": 0.35,
12766
+ "learning_rate": 0.0005263728813559322,
12767
+ "loss": 2.2479,
12768
+ "step": 2118
12769
+ },
12770
+ {
12771
+ "epoch": 0.35,
12772
+ "learning_rate": 0.0005262372881355932,
12773
+ "loss": 2.2536,
12774
+ "step": 2119
12775
+ },
12776
+ {
12777
+ "epoch": 0.35,
12778
+ "learning_rate": 0.0005261016949152542,
12779
+ "loss": 2.2788,
12780
+ "step": 2120
12781
+ },
12782
+ {
12783
+ "epoch": 0.35,
12784
+ "learning_rate": 0.0005259661016949153,
12785
+ "loss": 2.2234,
12786
+ "step": 2121
12787
+ },
12788
+ {
12789
+ "epoch": 0.35,
12790
+ "learning_rate": 0.0005258305084745763,
12791
+ "loss": 2.2601,
12792
+ "step": 2122
12793
+ },
12794
+ {
12795
+ "epoch": 0.35,
12796
+ "learning_rate": 0.0005256949152542374,
12797
+ "loss": 2.2342,
12798
+ "step": 2123
12799
+ },
12800
+ {
12801
+ "epoch": 0.35,
12802
+ "learning_rate": 0.0005255593220338983,
12803
+ "loss": 2.1995,
12804
+ "step": 2124
12805
+ },
12806
+ {
12807
+ "epoch": 0.35,
12808
+ "learning_rate": 0.0005254237288135593,
12809
+ "loss": 2.1187,
12810
+ "step": 2125
12811
+ },
12812
+ {
12813
+ "epoch": 0.35,
12814
+ "learning_rate": 0.0005252881355932203,
12815
+ "loss": 2.1746,
12816
+ "step": 2126
12817
+ },
12818
+ {
12819
+ "epoch": 0.35,
12820
+ "learning_rate": 0.0005251525423728814,
12821
+ "loss": 2.2393,
12822
+ "step": 2127
12823
+ },
12824
+ {
12825
+ "epoch": 0.35,
12826
+ "learning_rate": 0.0005250169491525424,
12827
+ "loss": 2.2106,
12828
+ "step": 2128
12829
+ },
12830
+ {
12831
+ "epoch": 0.35,
12832
+ "learning_rate": 0.0005248813559322035,
12833
+ "loss": 2.2742,
12834
+ "step": 2129
12835
+ },
12836
+ {
12837
+ "epoch": 0.35,
12838
+ "learning_rate": 0.0005247457627118644,
12839
+ "loss": 2.1978,
12840
+ "step": 2130
12841
+ },
12842
+ {
12843
+ "epoch": 0.36,
12844
+ "learning_rate": 0.0005246101694915255,
12845
+ "loss": 2.3223,
12846
+ "step": 2131
12847
+ },
12848
+ {
12849
+ "epoch": 0.36,
12850
+ "learning_rate": 0.0005244745762711865,
12851
+ "loss": 2.2252,
12852
+ "step": 2132
12853
+ },
12854
+ {
12855
+ "epoch": 0.36,
12856
+ "learning_rate": 0.0005243389830508475,
12857
+ "loss": 2.2205,
12858
+ "step": 2133
12859
+ },
12860
+ {
12861
+ "epoch": 0.36,
12862
+ "learning_rate": 0.0005242033898305085,
12863
+ "loss": 2.2369,
12864
+ "step": 2134
12865
+ },
12866
+ {
12867
+ "epoch": 0.36,
12868
+ "learning_rate": 0.0005240677966101696,
12869
+ "loss": 2.2013,
12870
+ "step": 2135
12871
+ },
12872
+ {
12873
+ "epoch": 0.36,
12874
+ "learning_rate": 0.0005239322033898305,
12875
+ "loss": 2.162,
12876
+ "step": 2136
12877
+ },
12878
+ {
12879
+ "epoch": 0.36,
12880
+ "learning_rate": 0.0005237966101694915,
12881
+ "loss": 2.1918,
12882
+ "step": 2137
12883
+ },
12884
+ {
12885
+ "epoch": 0.36,
12886
+ "learning_rate": 0.0005236610169491526,
12887
+ "loss": 2.2387,
12888
+ "step": 2138
12889
+ },
12890
+ {
12891
+ "epoch": 0.36,
12892
+ "learning_rate": 0.0005235254237288136,
12893
+ "loss": 2.1656,
12894
+ "step": 2139
12895
+ },
12896
+ {
12897
+ "epoch": 0.36,
12898
+ "learning_rate": 0.0005233898305084746,
12899
+ "loss": 2.2499,
12900
+ "step": 2140
12901
+ },
12902
+ {
12903
+ "epoch": 0.36,
12904
+ "learning_rate": 0.0005232542372881356,
12905
+ "loss": 2.1819,
12906
+ "step": 2141
12907
+ },
12908
+ {
12909
+ "epoch": 0.36,
12910
+ "learning_rate": 0.0005231186440677966,
12911
+ "loss": 2.1959,
12912
+ "step": 2142
12913
+ },
12914
+ {
12915
+ "epoch": 0.36,
12916
+ "learning_rate": 0.0005229830508474576,
12917
+ "loss": 2.2345,
12918
+ "step": 2143
12919
+ },
12920
+ {
12921
+ "epoch": 0.36,
12922
+ "learning_rate": 0.0005228474576271187,
12923
+ "loss": 2.171,
12924
+ "step": 2144
12925
+ },
12926
+ {
12927
+ "epoch": 0.36,
12928
+ "learning_rate": 0.0005227118644067797,
12929
+ "loss": 2.2297,
12930
+ "step": 2145
12931
+ },
12932
+ {
12933
+ "epoch": 0.36,
12934
+ "learning_rate": 0.0005225762711864407,
12935
+ "loss": 2.194,
12936
+ "step": 2146
12937
+ },
12938
+ {
12939
+ "epoch": 0.36,
12940
+ "learning_rate": 0.0005224406779661017,
12941
+ "loss": 2.1664,
12942
+ "step": 2147
12943
+ },
12944
+ {
12945
+ "epoch": 0.36,
12946
+ "learning_rate": 0.0005223050847457627,
12947
+ "loss": 2.2464,
12948
+ "step": 2148
12949
+ },
12950
+ {
12951
+ "epoch": 0.36,
12952
+ "learning_rate": 0.0005221694915254237,
12953
+ "loss": 2.2283,
12954
+ "step": 2149
12955
+ },
12956
+ {
12957
+ "epoch": 0.36,
12958
+ "learning_rate": 0.0005220338983050848,
12959
+ "loss": 2.2012,
12960
+ "step": 2150
12961
+ },
12962
+ {
12963
+ "epoch": 0.36,
12964
+ "learning_rate": 0.0005218983050847458,
12965
+ "loss": 2.235,
12966
+ "step": 2151
12967
+ },
12968
+ {
12969
+ "epoch": 0.36,
12970
+ "learning_rate": 0.0005217627118644069,
12971
+ "loss": 2.1997,
12972
+ "step": 2152
12973
+ },
12974
+ {
12975
+ "epoch": 0.36,
12976
+ "learning_rate": 0.0005216271186440679,
12977
+ "loss": 2.2389,
12978
+ "step": 2153
12979
+ },
12980
+ {
12981
+ "epoch": 0.36,
12982
+ "learning_rate": 0.0005214915254237288,
12983
+ "loss": 2.2689,
12984
+ "step": 2154
12985
+ },
12986
+ {
12987
+ "epoch": 0.36,
12988
+ "learning_rate": 0.0005213559322033898,
12989
+ "loss": 2.1646,
12990
+ "step": 2155
12991
+ },
12992
+ {
12993
+ "epoch": 0.36,
12994
+ "learning_rate": 0.0005212203389830509,
12995
+ "loss": 2.2834,
12996
+ "step": 2156
12997
+ },
12998
+ {
12999
+ "epoch": 0.36,
13000
+ "learning_rate": 0.0005210847457627119,
13001
+ "loss": 2.216,
13002
+ "step": 2157
13003
+ },
13004
+ {
13005
+ "epoch": 0.36,
13006
+ "learning_rate": 0.0005209491525423729,
13007
+ "loss": 2.1607,
13008
+ "step": 2158
13009
+ },
13010
+ {
13011
+ "epoch": 0.36,
13012
+ "learning_rate": 0.000520813559322034,
13013
+ "loss": 2.2098,
13014
+ "step": 2159
13015
+ },
13016
+ {
13017
+ "epoch": 0.36,
13018
+ "learning_rate": 0.0005206779661016949,
13019
+ "loss": 2.2062,
13020
+ "step": 2160
13021
+ },
13022
+ {
13023
+ "epoch": 0.36,
13024
+ "learning_rate": 0.0005205423728813559,
13025
+ "loss": 2.1718,
13026
+ "step": 2161
13027
+ },
13028
+ {
13029
+ "epoch": 0.36,
13030
+ "learning_rate": 0.0005204067796610169,
13031
+ "loss": 2.2358,
13032
+ "step": 2162
13033
+ },
13034
+ {
13035
+ "epoch": 0.36,
13036
+ "learning_rate": 0.000520271186440678,
13037
+ "loss": 2.1673,
13038
+ "step": 2163
13039
+ },
13040
+ {
13041
+ "epoch": 0.36,
13042
+ "learning_rate": 0.000520135593220339,
13043
+ "loss": 2.2097,
13044
+ "step": 2164
13045
+ },
13046
+ {
13047
+ "epoch": 0.36,
13048
+ "learning_rate": 0.0005200000000000001,
13049
+ "loss": 2.1774,
13050
+ "step": 2165
13051
+ },
13052
+ {
13053
+ "epoch": 0.36,
13054
+ "learning_rate": 0.000519864406779661,
13055
+ "loss": 2.2993,
13056
+ "step": 2166
13057
+ },
13058
+ {
13059
+ "epoch": 0.36,
13060
+ "learning_rate": 0.0005197288135593221,
13061
+ "loss": 2.2407,
13062
+ "step": 2167
13063
+ },
13064
+ {
13065
+ "epoch": 0.36,
13066
+ "learning_rate": 0.000519593220338983,
13067
+ "loss": 2.2617,
13068
+ "step": 2168
13069
+ },
13070
+ {
13071
+ "epoch": 0.36,
13072
+ "learning_rate": 0.0005194576271186441,
13073
+ "loss": 2.1817,
13074
+ "step": 2169
13075
+ },
13076
+ {
13077
+ "epoch": 0.36,
13078
+ "learning_rate": 0.0005193220338983051,
13079
+ "loss": 2.1834,
13080
+ "step": 2170
13081
+ },
13082
+ {
13083
+ "epoch": 0.36,
13084
+ "learning_rate": 0.0005191864406779662,
13085
+ "loss": 2.2564,
13086
+ "step": 2171
13087
+ },
13088
+ {
13089
+ "epoch": 0.36,
13090
+ "learning_rate": 0.0005190508474576271,
13091
+ "loss": 2.2458,
13092
+ "step": 2172
13093
+ },
13094
+ {
13095
+ "epoch": 0.36,
13096
+ "learning_rate": 0.0005189152542372882,
13097
+ "loss": 2.1405,
13098
+ "step": 2173
13099
+ },
13100
+ {
13101
+ "epoch": 0.36,
13102
+ "learning_rate": 0.0005187796610169492,
13103
+ "loss": 2.2898,
13104
+ "step": 2174
13105
+ },
13106
+ {
13107
+ "epoch": 0.36,
13108
+ "learning_rate": 0.0005186440677966102,
13109
+ "loss": 2.1571,
13110
+ "step": 2175
13111
+ },
13112
+ {
13113
+ "epoch": 0.36,
13114
+ "learning_rate": 0.0005185084745762712,
13115
+ "loss": 2.2423,
13116
+ "step": 2176
13117
+ },
13118
+ {
13119
+ "epoch": 0.36,
13120
+ "learning_rate": 0.0005183728813559323,
13121
+ "loss": 2.2498,
13122
+ "step": 2177
13123
+ },
13124
+ {
13125
+ "epoch": 0.36,
13126
+ "learning_rate": 0.0005182372881355932,
13127
+ "loss": 2.2676,
13128
+ "step": 2178
13129
+ },
13130
+ {
13131
+ "epoch": 0.36,
13132
+ "learning_rate": 0.0005181016949152542,
13133
+ "loss": 2.2495,
13134
+ "step": 2179
13135
+ },
13136
+ {
13137
+ "epoch": 0.36,
13138
+ "learning_rate": 0.0005179661016949153,
13139
+ "loss": 2.2345,
13140
+ "step": 2180
13141
+ },
13142
+ {
13143
+ "epoch": 0.36,
13144
+ "learning_rate": 0.0005178305084745763,
13145
+ "loss": 2.1844,
13146
+ "step": 2181
13147
+ },
13148
+ {
13149
+ "epoch": 0.36,
13150
+ "learning_rate": 0.0005176949152542373,
13151
+ "loss": 2.2177,
13152
+ "step": 2182
13153
+ },
13154
+ {
13155
+ "epoch": 0.36,
13156
+ "learning_rate": 0.0005175593220338983,
13157
+ "loss": 2.2959,
13158
+ "step": 2183
13159
+ },
13160
+ {
13161
+ "epoch": 0.36,
13162
+ "learning_rate": 0.0005174237288135593,
13163
+ "loss": 2.226,
13164
+ "step": 2184
13165
+ },
13166
+ {
13167
+ "epoch": 0.36,
13168
+ "learning_rate": 0.0005172881355932203,
13169
+ "loss": 2.2416,
13170
+ "step": 2185
13171
+ },
13172
+ {
13173
+ "epoch": 0.36,
13174
+ "learning_rate": 0.0005171525423728814,
13175
+ "loss": 2.2242,
13176
+ "step": 2186
13177
+ },
13178
+ {
13179
+ "epoch": 0.36,
13180
+ "learning_rate": 0.0005170169491525424,
13181
+ "loss": 2.2822,
13182
+ "step": 2187
13183
+ },
13184
+ {
13185
+ "epoch": 0.36,
13186
+ "learning_rate": 0.0005168813559322035,
13187
+ "loss": 2.289,
13188
+ "step": 2188
13189
+ },
13190
+ {
13191
+ "epoch": 0.36,
13192
+ "learning_rate": 0.0005167457627118645,
13193
+ "loss": 2.2439,
13194
+ "step": 2189
13195
+ },
13196
+ {
13197
+ "epoch": 0.36,
13198
+ "learning_rate": 0.0005166101694915254,
13199
+ "loss": 2.2245,
13200
+ "step": 2190
13201
+ },
13202
+ {
13203
+ "epoch": 0.37,
13204
+ "learning_rate": 0.0005164745762711864,
13205
+ "loss": 2.2321,
13206
+ "step": 2191
13207
+ },
13208
+ {
13209
+ "epoch": 0.37,
13210
+ "learning_rate": 0.0005163389830508475,
13211
+ "loss": 2.2557,
13212
+ "step": 2192
13213
+ },
13214
+ {
13215
+ "epoch": 0.37,
13216
+ "learning_rate": 0.0005162033898305085,
13217
+ "loss": 2.2126,
13218
+ "step": 2193
13219
+ },
13220
+ {
13221
+ "epoch": 0.37,
13222
+ "learning_rate": 0.0005160677966101696,
13223
+ "loss": 2.2241,
13224
+ "step": 2194
13225
+ },
13226
+ {
13227
+ "epoch": 0.37,
13228
+ "learning_rate": 0.0005159322033898306,
13229
+ "loss": 2.1753,
13230
+ "step": 2195
13231
+ },
13232
+ {
13233
+ "epoch": 0.37,
13234
+ "learning_rate": 0.0005157966101694915,
13235
+ "loss": 2.1543,
13236
+ "step": 2196
13237
+ },
13238
+ {
13239
+ "epoch": 0.37,
13240
+ "learning_rate": 0.0005156610169491525,
13241
+ "loss": 2.1702,
13242
+ "step": 2197
13243
+ },
13244
+ {
13245
+ "epoch": 0.37,
13246
+ "learning_rate": 0.0005155254237288136,
13247
+ "loss": 2.1949,
13248
+ "step": 2198
13249
+ },
13250
+ {
13251
+ "epoch": 0.37,
13252
+ "learning_rate": 0.0005153898305084746,
13253
+ "loss": 2.1922,
13254
+ "step": 2199
13255
+ },
13256
+ {
13257
+ "epoch": 0.37,
13258
+ "learning_rate": 0.0005152542372881356,
13259
+ "loss": 2.2306,
13260
+ "step": 2200
13261
+ },
13262
+ {
13263
+ "epoch": 0.37,
13264
+ "learning_rate": 0.0005151186440677967,
13265
+ "loss": 2.2592,
13266
+ "step": 2201
13267
+ },
13268
+ {
13269
+ "epoch": 0.37,
13270
+ "learning_rate": 0.0005149830508474576,
13271
+ "loss": 2.1785,
13272
+ "step": 2202
13273
+ },
13274
+ {
13275
+ "epoch": 0.37,
13276
+ "learning_rate": 0.0005148474576271186,
13277
+ "loss": 2.2125,
13278
+ "step": 2203
13279
+ },
13280
+ {
13281
+ "epoch": 0.37,
13282
+ "learning_rate": 0.0005147118644067796,
13283
+ "loss": 2.3134,
13284
+ "step": 2204
13285
+ },
13286
+ {
13287
+ "epoch": 0.37,
13288
+ "learning_rate": 0.0005145762711864407,
13289
+ "loss": 2.1845,
13290
+ "step": 2205
13291
+ },
13292
+ {
13293
+ "epoch": 0.37,
13294
+ "learning_rate": 0.0005144406779661017,
13295
+ "loss": 2.2326,
13296
+ "step": 2206
13297
+ },
13298
+ {
13299
+ "epoch": 0.37,
13300
+ "learning_rate": 0.0005143050847457628,
13301
+ "loss": 2.1908,
13302
+ "step": 2207
13303
+ },
13304
+ {
13305
+ "epoch": 0.37,
13306
+ "learning_rate": 0.0005141694915254237,
13307
+ "loss": 2.1466,
13308
+ "step": 2208
13309
+ },
13310
+ {
13311
+ "epoch": 0.37,
13312
+ "learning_rate": 0.0005140338983050848,
13313
+ "loss": 2.241,
13314
+ "step": 2209
13315
+ },
13316
+ {
13317
+ "epoch": 0.37,
13318
+ "learning_rate": 0.0005138983050847458,
13319
+ "loss": 2.1842,
13320
+ "step": 2210
13321
+ },
13322
+ {
13323
+ "epoch": 0.37,
13324
+ "learning_rate": 0.0005137627118644068,
13325
+ "loss": 2.2242,
13326
+ "step": 2211
13327
+ },
13328
+ {
13329
+ "epoch": 0.37,
13330
+ "learning_rate": 0.0005136271186440678,
13331
+ "loss": 2.2216,
13332
+ "step": 2212
13333
+ },
13334
+ {
13335
+ "epoch": 0.37,
13336
+ "learning_rate": 0.0005134915254237289,
13337
+ "loss": 2.1317,
13338
+ "step": 2213
13339
+ },
13340
+ {
13341
+ "epoch": 0.37,
13342
+ "learning_rate": 0.0005133559322033898,
13343
+ "loss": 2.2244,
13344
+ "step": 2214
13345
+ },
13346
+ {
13347
+ "epoch": 0.37,
13348
+ "learning_rate": 0.0005132203389830509,
13349
+ "loss": 2.2579,
13350
+ "step": 2215
13351
+ },
13352
+ {
13353
+ "epoch": 0.37,
13354
+ "learning_rate": 0.0005130847457627119,
13355
+ "loss": 2.2232,
13356
+ "step": 2216
13357
+ },
13358
+ {
13359
+ "epoch": 0.37,
13360
+ "learning_rate": 0.0005129491525423729,
13361
+ "loss": 2.2094,
13362
+ "step": 2217
13363
+ },
13364
+ {
13365
+ "epoch": 0.37,
13366
+ "learning_rate": 0.0005128135593220339,
13367
+ "loss": 2.1305,
13368
+ "step": 2218
13369
+ },
13370
+ {
13371
+ "epoch": 0.37,
13372
+ "learning_rate": 0.000512677966101695,
13373
+ "loss": 2.1747,
13374
+ "step": 2219
13375
+ },
13376
+ {
13377
+ "epoch": 0.37,
13378
+ "learning_rate": 0.000512542372881356,
13379
+ "loss": 2.2544,
13380
+ "step": 2220
13381
+ },
13382
+ {
13383
+ "epoch": 0.37,
13384
+ "learning_rate": 0.0005124067796610169,
13385
+ "loss": 2.2425,
13386
+ "step": 2221
13387
+ },
13388
+ {
13389
+ "epoch": 0.37,
13390
+ "learning_rate": 0.000512271186440678,
13391
+ "loss": 2.209,
13392
+ "step": 2222
13393
+ },
13394
+ {
13395
+ "epoch": 0.37,
13396
+ "learning_rate": 0.000512135593220339,
13397
+ "loss": 2.1374,
13398
+ "step": 2223
13399
+ },
13400
+ {
13401
+ "epoch": 0.37,
13402
+ "learning_rate": 0.0005120000000000001,
13403
+ "loss": 2.2563,
13404
+ "step": 2224
13405
+ },
13406
+ {
13407
+ "epoch": 0.37,
13408
+ "learning_rate": 0.000511864406779661,
13409
+ "loss": 2.2221,
13410
+ "step": 2225
13411
+ },
13412
+ {
13413
+ "epoch": 0.37,
13414
+ "learning_rate": 0.000511728813559322,
13415
+ "loss": 2.139,
13416
+ "step": 2226
13417
+ },
13418
+ {
13419
+ "epoch": 0.37,
13420
+ "learning_rate": 0.000511593220338983,
13421
+ "loss": 2.3112,
13422
+ "step": 2227
13423
+ },
13424
+ {
13425
+ "epoch": 0.37,
13426
+ "learning_rate": 0.0005114576271186441,
13427
+ "loss": 2.2708,
13428
+ "step": 2228
13429
+ },
13430
+ {
13431
+ "epoch": 0.37,
13432
+ "learning_rate": 0.0005113220338983051,
13433
+ "loss": 2.2005,
13434
+ "step": 2229
13435
+ },
13436
+ {
13437
+ "epoch": 0.37,
13438
+ "learning_rate": 0.0005111864406779662,
13439
+ "loss": 2.2481,
13440
+ "step": 2230
13441
+ },
13442
+ {
13443
+ "epoch": 0.37,
13444
+ "learning_rate": 0.0005110508474576272,
13445
+ "loss": 2.1684,
13446
+ "step": 2231
13447
+ },
13448
+ {
13449
+ "epoch": 0.37,
13450
+ "learning_rate": 0.0005109152542372881,
13451
+ "loss": 2.221,
13452
+ "step": 2232
13453
+ },
13454
+ {
13455
+ "epoch": 0.37,
13456
+ "learning_rate": 0.0005107796610169491,
13457
+ "loss": 2.1821,
13458
+ "step": 2233
13459
+ },
13460
+ {
13461
+ "epoch": 0.37,
13462
+ "learning_rate": 0.0005106440677966102,
13463
+ "loss": 2.1595,
13464
+ "step": 2234
13465
+ },
13466
+ {
13467
+ "epoch": 0.37,
13468
+ "learning_rate": 0.0005105084745762712,
13469
+ "loss": 2.243,
13470
+ "step": 2235
13471
+ },
13472
+ {
13473
+ "epoch": 0.37,
13474
+ "learning_rate": 0.0005103728813559323,
13475
+ "loss": 2.2372,
13476
+ "step": 2236
13477
+ },
13478
+ {
13479
+ "epoch": 0.37,
13480
+ "learning_rate": 0.0005102372881355933,
13481
+ "loss": 2.1871,
13482
+ "step": 2237
13483
+ },
13484
+ {
13485
+ "epoch": 0.37,
13486
+ "learning_rate": 0.0005101016949152544,
13487
+ "loss": 2.2035,
13488
+ "step": 2238
13489
+ },
13490
+ {
13491
+ "epoch": 0.37,
13492
+ "learning_rate": 0.0005099661016949152,
13493
+ "loss": 2.1696,
13494
+ "step": 2239
13495
+ },
13496
+ {
13497
+ "epoch": 0.37,
13498
+ "learning_rate": 0.0005098305084745762,
13499
+ "loss": 2.2175,
13500
+ "step": 2240
13501
+ },
13502
+ {
13503
+ "epoch": 0.37,
13504
+ "learning_rate": 0.0005096949152542373,
13505
+ "loss": 2.2831,
13506
+ "step": 2241
13507
+ },
13508
+ {
13509
+ "epoch": 0.37,
13510
+ "learning_rate": 0.0005095593220338983,
13511
+ "loss": 2.2307,
13512
+ "step": 2242
13513
+ },
13514
+ {
13515
+ "epoch": 0.37,
13516
+ "learning_rate": 0.0005094237288135594,
13517
+ "loss": 2.1867,
13518
+ "step": 2243
13519
+ },
13520
+ {
13521
+ "epoch": 0.37,
13522
+ "learning_rate": 0.0005092881355932203,
13523
+ "loss": 2.1615,
13524
+ "step": 2244
13525
+ },
13526
+ {
13527
+ "epoch": 0.37,
13528
+ "learning_rate": 0.0005091525423728814,
13529
+ "loss": 2.1252,
13530
+ "step": 2245
13531
+ },
13532
+ {
13533
+ "epoch": 0.37,
13534
+ "learning_rate": 0.0005090169491525424,
13535
+ "loss": 2.3275,
13536
+ "step": 2246
13537
+ },
13538
+ {
13539
+ "epoch": 0.37,
13540
+ "learning_rate": 0.0005088813559322034,
13541
+ "loss": 2.1972,
13542
+ "step": 2247
13543
+ },
13544
+ {
13545
+ "epoch": 0.37,
13546
+ "learning_rate": 0.0005087457627118644,
13547
+ "loss": 2.2314,
13548
+ "step": 2248
13549
+ },
13550
+ {
13551
+ "epoch": 0.37,
13552
+ "learning_rate": 0.0005086101694915255,
13553
+ "loss": 2.2176,
13554
+ "step": 2249
13555
+ },
13556
+ {
13557
+ "epoch": 0.38,
13558
+ "learning_rate": 0.0005084745762711864,
13559
+ "loss": 2.1716,
13560
+ "step": 2250
13561
+ },
13562
+ {
13563
+ "epoch": 0.38,
13564
+ "learning_rate": 0.0005083389830508475,
13565
+ "loss": 2.277,
13566
+ "step": 2251
13567
+ },
13568
+ {
13569
+ "epoch": 0.38,
13570
+ "learning_rate": 0.0005082033898305085,
13571
+ "loss": 2.1561,
13572
+ "step": 2252
13573
+ },
13574
+ {
13575
+ "epoch": 0.38,
13576
+ "learning_rate": 0.0005080677966101695,
13577
+ "loss": 2.1564,
13578
+ "step": 2253
13579
+ },
13580
+ {
13581
+ "epoch": 0.38,
13582
+ "learning_rate": 0.0005079322033898305,
13583
+ "loss": 2.2456,
13584
+ "step": 2254
13585
+ },
13586
+ {
13587
+ "epoch": 0.38,
13588
+ "learning_rate": 0.0005077966101694916,
13589
+ "loss": 2.1773,
13590
+ "step": 2255
13591
+ },
13592
+ {
13593
+ "epoch": 0.38,
13594
+ "learning_rate": 0.0005076610169491525,
13595
+ "loss": 2.1676,
13596
+ "step": 2256
13597
+ },
13598
+ {
13599
+ "epoch": 0.38,
13600
+ "learning_rate": 0.0005075254237288136,
13601
+ "loss": 2.1209,
13602
+ "step": 2257
13603
+ },
13604
+ {
13605
+ "epoch": 0.38,
13606
+ "learning_rate": 0.0005073898305084746,
13607
+ "loss": 2.1412,
13608
+ "step": 2258
13609
+ },
13610
+ {
13611
+ "epoch": 0.38,
13612
+ "learning_rate": 0.0005072542372881357,
13613
+ "loss": 2.173,
13614
+ "step": 2259
13615
+ },
13616
+ {
13617
+ "epoch": 0.38,
13618
+ "learning_rate": 0.0005071186440677967,
13619
+ "loss": 2.1873,
13620
+ "step": 2260
13621
+ },
13622
+ {
13623
+ "epoch": 0.38,
13624
+ "learning_rate": 0.0005069830508474576,
13625
+ "loss": 2.1775,
13626
+ "step": 2261
13627
+ },
13628
+ {
13629
+ "epoch": 0.38,
13630
+ "learning_rate": 0.0005068474576271186,
13631
+ "loss": 2.1584,
13632
+ "step": 2262
13633
+ },
13634
+ {
13635
+ "epoch": 0.38,
13636
+ "learning_rate": 0.0005067118644067796,
13637
+ "loss": 2.1945,
13638
+ "step": 2263
13639
+ },
13640
+ {
13641
+ "epoch": 0.38,
13642
+ "learning_rate": 0.0005065762711864407,
13643
+ "loss": 2.1843,
13644
+ "step": 2264
13645
+ },
13646
+ {
13647
+ "epoch": 0.38,
13648
+ "learning_rate": 0.0005064406779661017,
13649
+ "loss": 2.2238,
13650
+ "step": 2265
13651
+ },
13652
+ {
13653
+ "epoch": 0.38,
13654
+ "learning_rate": 0.0005063050847457628,
13655
+ "loss": 2.1983,
13656
+ "step": 2266
13657
+ },
13658
+ {
13659
+ "epoch": 0.38,
13660
+ "learning_rate": 0.0005061694915254238,
13661
+ "loss": 2.2141,
13662
+ "step": 2267
13663
+ },
13664
+ {
13665
+ "epoch": 0.38,
13666
+ "learning_rate": 0.0005060338983050847,
13667
+ "loss": 2.1851,
13668
+ "step": 2268
13669
+ },
13670
+ {
13671
+ "epoch": 0.38,
13672
+ "learning_rate": 0.0005058983050847457,
13673
+ "loss": 2.1856,
13674
+ "step": 2269
13675
+ },
13676
+ {
13677
+ "epoch": 0.38,
13678
+ "learning_rate": 0.0005057627118644068,
13679
+ "loss": 2.2225,
13680
+ "step": 2270
13681
+ },
13682
+ {
13683
+ "epoch": 0.38,
13684
+ "learning_rate": 0.0005056271186440678,
13685
+ "loss": 2.196,
13686
+ "step": 2271
13687
+ },
13688
+ {
13689
+ "epoch": 0.38,
13690
+ "learning_rate": 0.0005054915254237289,
13691
+ "loss": 2.2258,
13692
+ "step": 2272
13693
+ },
13694
+ {
13695
+ "epoch": 0.38,
13696
+ "learning_rate": 0.0005053559322033899,
13697
+ "loss": 2.2658,
13698
+ "step": 2273
13699
+ },
13700
+ {
13701
+ "epoch": 0.38,
13702
+ "learning_rate": 0.0005052203389830508,
13703
+ "loss": 2.277,
13704
+ "step": 2274
13705
+ },
13706
+ {
13707
+ "epoch": 0.38,
13708
+ "learning_rate": 0.0005050847457627118,
13709
+ "loss": 2.1206,
13710
+ "step": 2275
13711
+ },
13712
+ {
13713
+ "epoch": 0.38,
13714
+ "learning_rate": 0.0005049491525423729,
13715
+ "loss": 2.2684,
13716
+ "step": 2276
13717
+ },
13718
+ {
13719
+ "epoch": 0.38,
13720
+ "learning_rate": 0.0005048135593220339,
13721
+ "loss": 2.2052,
13722
+ "step": 2277
13723
+ },
13724
+ {
13725
+ "epoch": 0.38,
13726
+ "learning_rate": 0.000504677966101695,
13727
+ "loss": 2.2753,
13728
+ "step": 2278
13729
+ },
13730
+ {
13731
+ "epoch": 0.38,
13732
+ "learning_rate": 0.000504542372881356,
13733
+ "loss": 2.2171,
13734
+ "step": 2279
13735
+ },
13736
+ {
13737
+ "epoch": 0.38,
13738
+ "learning_rate": 0.0005044067796610171,
13739
+ "loss": 2.161,
13740
+ "step": 2280
13741
+ },
13742
+ {
13743
+ "epoch": 0.38,
13744
+ "learning_rate": 0.000504271186440678,
13745
+ "loss": 2.1419,
13746
+ "step": 2281
13747
+ },
13748
+ {
13749
+ "epoch": 0.38,
13750
+ "learning_rate": 0.0005041355932203389,
13751
+ "loss": 2.1022,
13752
+ "step": 2282
13753
+ },
13754
+ {
13755
+ "epoch": 0.38,
13756
+ "learning_rate": 0.000504,
13757
+ "loss": 2.1815,
13758
+ "step": 2283
13759
+ },
13760
+ {
13761
+ "epoch": 0.38,
13762
+ "learning_rate": 0.000503864406779661,
13763
+ "loss": 2.1885,
13764
+ "step": 2284
13765
+ },
13766
+ {
13767
+ "epoch": 0.38,
13768
+ "learning_rate": 0.0005037288135593221,
13769
+ "loss": 2.2415,
13770
+ "step": 2285
13771
+ },
13772
+ {
13773
+ "epoch": 0.38,
13774
+ "learning_rate": 0.000503593220338983,
13775
+ "loss": 2.2571,
13776
+ "step": 2286
13777
+ },
13778
+ {
13779
+ "epoch": 0.38,
13780
+ "learning_rate": 0.0005034576271186441,
13781
+ "loss": 2.1438,
13782
+ "step": 2287
13783
+ },
13784
+ {
13785
+ "epoch": 0.38,
13786
+ "learning_rate": 0.0005033220338983051,
13787
+ "loss": 2.2036,
13788
+ "step": 2288
13789
+ },
13790
+ {
13791
+ "epoch": 0.38,
13792
+ "learning_rate": 0.0005031864406779661,
13793
+ "loss": 2.2178,
13794
+ "step": 2289
13795
+ },
13796
+ {
13797
+ "epoch": 0.38,
13798
+ "learning_rate": 0.0005030508474576271,
13799
+ "loss": 2.2438,
13800
+ "step": 2290
13801
+ },
13802
+ {
13803
+ "epoch": 0.38,
13804
+ "learning_rate": 0.0005029152542372882,
13805
+ "loss": 2.235,
13806
+ "step": 2291
13807
+ },
13808
+ {
13809
+ "epoch": 0.38,
13810
+ "learning_rate": 0.0005027796610169491,
13811
+ "loss": 2.2191,
13812
+ "step": 2292
13813
+ },
13814
+ {
13815
+ "epoch": 0.38,
13816
+ "learning_rate": 0.0005026440677966102,
13817
+ "loss": 2.2379,
13818
+ "step": 2293
13819
+ },
13820
+ {
13821
+ "epoch": 0.38,
13822
+ "learning_rate": 0.0005025084745762712,
13823
+ "loss": 2.251,
13824
+ "step": 2294
13825
+ },
13826
+ {
13827
+ "epoch": 0.38,
13828
+ "learning_rate": 0.0005023728813559323,
13829
+ "loss": 2.244,
13830
+ "step": 2295
13831
+ },
13832
+ {
13833
+ "epoch": 0.38,
13834
+ "learning_rate": 0.0005022372881355932,
13835
+ "loss": 2.1309,
13836
+ "step": 2296
13837
+ },
13838
+ {
13839
+ "epoch": 0.38,
13840
+ "learning_rate": 0.0005021016949152543,
13841
+ "loss": 2.1837,
13842
+ "step": 2297
13843
+ },
13844
+ {
13845
+ "epoch": 0.38,
13846
+ "learning_rate": 0.0005019661016949152,
13847
+ "loss": 2.2598,
13848
+ "step": 2298
13849
+ },
13850
+ {
13851
+ "epoch": 0.38,
13852
+ "learning_rate": 0.0005018305084745763,
13853
+ "loss": 2.1708,
13854
+ "step": 2299
13855
+ },
13856
+ {
13857
+ "epoch": 0.38,
13858
+ "learning_rate": 0.0005016949152542373,
13859
+ "loss": 2.2399,
13860
+ "step": 2300
13861
+ },
13862
+ {
13863
+ "epoch": 0.38,
13864
+ "learning_rate": 0.0005015593220338984,
13865
+ "loss": 2.196,
13866
+ "step": 2301
13867
+ },
13868
+ {
13869
+ "epoch": 0.38,
13870
+ "learning_rate": 0.0005014237288135594,
13871
+ "loss": 2.1254,
13872
+ "step": 2302
13873
+ },
13874
+ {
13875
+ "epoch": 0.38,
13876
+ "learning_rate": 0.0005012881355932204,
13877
+ "loss": 2.1076,
13878
+ "step": 2303
13879
+ },
13880
+ {
13881
+ "epoch": 0.38,
13882
+ "learning_rate": 0.0005011525423728814,
13883
+ "loss": 2.1358,
13884
+ "step": 2304
13885
+ },
13886
+ {
13887
+ "epoch": 0.38,
13888
+ "learning_rate": 0.0005010169491525423,
13889
+ "loss": 2.2038,
13890
+ "step": 2305
13891
+ },
13892
+ {
13893
+ "epoch": 0.38,
13894
+ "learning_rate": 0.0005008813559322034,
13895
+ "loss": 2.182,
13896
+ "step": 2306
13897
+ },
13898
+ {
13899
+ "epoch": 0.38,
13900
+ "learning_rate": 0.0005007457627118644,
13901
+ "loss": 2.235,
13902
+ "step": 2307
13903
+ },
13904
+ {
13905
+ "epoch": 0.38,
13906
+ "learning_rate": 0.0005006101694915255,
13907
+ "loss": 2.2541,
13908
+ "step": 2308
13909
+ },
13910
+ {
13911
+ "epoch": 0.38,
13912
+ "learning_rate": 0.0005004745762711865,
13913
+ "loss": 2.2962,
13914
+ "step": 2309
13915
+ },
13916
+ {
13917
+ "epoch": 0.39,
13918
+ "learning_rate": 0.0005003389830508475,
13919
+ "loss": 2.2009,
13920
+ "step": 2310
13921
+ },
13922
+ {
13923
+ "epoch": 0.39,
13924
+ "learning_rate": 0.0005002033898305084,
13925
+ "loss": 2.1533,
13926
+ "step": 2311
13927
+ },
13928
+ {
13929
+ "epoch": 0.39,
13930
+ "learning_rate": 0.0005000677966101695,
13931
+ "loss": 2.2516,
13932
+ "step": 2312
13933
+ },
13934
+ {
13935
+ "epoch": 0.39,
13936
+ "learning_rate": 0.0004999322033898305,
13937
+ "loss": 2.1711,
13938
+ "step": 2313
13939
+ },
13940
+ {
13941
+ "epoch": 0.39,
13942
+ "learning_rate": 0.0004997966101694916,
13943
+ "loss": 2.1623,
13944
+ "step": 2314
13945
+ },
13946
+ {
13947
+ "epoch": 0.39,
13948
+ "learning_rate": 0.0004996610169491526,
13949
+ "loss": 2.2857,
13950
+ "step": 2315
13951
+ },
13952
+ {
13953
+ "epoch": 0.39,
13954
+ "learning_rate": 0.0004995254237288137,
13955
+ "loss": 2.1518,
13956
+ "step": 2316
13957
+ },
13958
+ {
13959
+ "epoch": 0.39,
13960
+ "learning_rate": 0.0004993898305084746,
13961
+ "loss": 2.1977,
13962
+ "step": 2317
13963
+ },
13964
+ {
13965
+ "epoch": 0.39,
13966
+ "learning_rate": 0.0004992542372881356,
13967
+ "loss": 2.1834,
13968
+ "step": 2318
13969
+ },
13970
+ {
13971
+ "epoch": 0.39,
13972
+ "learning_rate": 0.0004991186440677966,
13973
+ "loss": 2.2094,
13974
+ "step": 2319
13975
+ },
13976
+ {
13977
+ "epoch": 0.39,
13978
+ "learning_rate": 0.0004989830508474577,
13979
+ "loss": 2.1771,
13980
+ "step": 2320
13981
+ },
13982
+ {
13983
+ "epoch": 0.39,
13984
+ "learning_rate": 0.0004988474576271187,
13985
+ "loss": 2.1867,
13986
+ "step": 2321
13987
+ },
13988
+ {
13989
+ "epoch": 0.39,
13990
+ "learning_rate": 0.0004987118644067798,
13991
+ "loss": 2.2691,
13992
+ "step": 2322
13993
+ },
13994
+ {
13995
+ "epoch": 0.39,
13996
+ "learning_rate": 0.0004985762711864407,
13997
+ "loss": 2.1786,
13998
+ "step": 2323
13999
+ },
14000
+ {
14001
+ "epoch": 0.39,
14002
+ "learning_rate": 0.0004984406779661017,
14003
+ "loss": 2.1774,
14004
+ "step": 2324
14005
+ },
14006
+ {
14007
+ "epoch": 0.39,
14008
+ "learning_rate": 0.0004983050847457627,
14009
+ "loss": 2.2158,
14010
+ "step": 2325
14011
+ },
14012
+ {
14013
+ "epoch": 0.39,
14014
+ "learning_rate": 0.0004981694915254237,
14015
+ "loss": 2.2291,
14016
+ "step": 2326
14017
+ },
14018
+ {
14019
+ "epoch": 0.39,
14020
+ "learning_rate": 0.0004980338983050848,
14021
+ "loss": 2.296,
14022
+ "step": 2327
14023
+ },
14024
+ {
14025
+ "epoch": 0.39,
14026
+ "learning_rate": 0.0004978983050847458,
14027
+ "loss": 2.1094,
14028
+ "step": 2328
14029
+ },
14030
+ {
14031
+ "epoch": 0.39,
14032
+ "learning_rate": 0.0004977627118644068,
14033
+ "loss": 2.1932,
14034
+ "step": 2329
14035
+ },
14036
+ {
14037
+ "epoch": 0.39,
14038
+ "learning_rate": 0.0004976271186440678,
14039
+ "loss": 2.2481,
14040
+ "step": 2330
14041
+ },
14042
+ {
14043
+ "epoch": 0.39,
14044
+ "learning_rate": 0.0004974915254237288,
14045
+ "loss": 2.2036,
14046
+ "step": 2331
14047
+ },
14048
+ {
14049
+ "epoch": 0.39,
14050
+ "learning_rate": 0.0004973559322033898,
14051
+ "loss": 2.2034,
14052
+ "step": 2332
14053
+ },
14054
+ {
14055
+ "epoch": 0.39,
14056
+ "learning_rate": 0.0004972203389830509,
14057
+ "loss": 2.2023,
14058
+ "step": 2333
14059
+ },
14060
+ {
14061
+ "epoch": 0.39,
14062
+ "learning_rate": 0.0004970847457627119,
14063
+ "loss": 2.2388,
14064
+ "step": 2334
14065
+ },
14066
+ {
14067
+ "epoch": 0.39,
14068
+ "learning_rate": 0.0004969491525423729,
14069
+ "loss": 2.2445,
14070
+ "step": 2335
14071
+ },
14072
+ {
14073
+ "epoch": 0.39,
14074
+ "learning_rate": 0.0004968135593220339,
14075
+ "loss": 2.2172,
14076
+ "step": 2336
14077
+ },
14078
+ {
14079
+ "epoch": 0.39,
14080
+ "learning_rate": 0.000496677966101695,
14081
+ "loss": 2.16,
14082
+ "step": 2337
14083
+ },
14084
+ {
14085
+ "epoch": 0.39,
14086
+ "learning_rate": 0.000496542372881356,
14087
+ "loss": 2.1865,
14088
+ "step": 2338
14089
+ },
14090
+ {
14091
+ "epoch": 0.39,
14092
+ "learning_rate": 0.000496406779661017,
14093
+ "loss": 2.2012,
14094
+ "step": 2339
14095
+ },
14096
+ {
14097
+ "epoch": 0.39,
14098
+ "learning_rate": 0.000496271186440678,
14099
+ "loss": 2.1537,
14100
+ "step": 2340
14101
+ },
14102
+ {
14103
+ "epoch": 0.39,
14104
+ "learning_rate": 0.000496135593220339,
14105
+ "loss": 2.1952,
14106
+ "step": 2341
14107
+ },
14108
+ {
14109
+ "epoch": 0.39,
14110
+ "learning_rate": 0.000496,
14111
+ "loss": 2.2181,
14112
+ "step": 2342
14113
+ },
14114
+ {
14115
+ "epoch": 0.39,
14116
+ "learning_rate": 0.0004958644067796611,
14117
+ "loss": 2.2455,
14118
+ "step": 2343
14119
+ },
14120
+ {
14121
+ "epoch": 0.39,
14122
+ "learning_rate": 0.0004957288135593221,
14123
+ "loss": 2.236,
14124
+ "step": 2344
14125
+ },
14126
+ {
14127
+ "epoch": 0.39,
14128
+ "learning_rate": 0.0004955932203389831,
14129
+ "loss": 2.2591,
14130
+ "step": 2345
14131
+ },
14132
+ {
14133
+ "epoch": 0.39,
14134
+ "learning_rate": 0.000495457627118644,
14135
+ "loss": 2.169,
14136
+ "step": 2346
14137
+ },
14138
+ {
14139
+ "epoch": 0.39,
14140
+ "learning_rate": 0.000495322033898305,
14141
+ "loss": 2.1997,
14142
+ "step": 2347
14143
+ },
14144
+ {
14145
+ "epoch": 0.39,
14146
+ "learning_rate": 0.0004951864406779661,
14147
+ "loss": 2.2095,
14148
+ "step": 2348
14149
+ },
14150
+ {
14151
+ "epoch": 0.39,
14152
+ "learning_rate": 0.0004950508474576271,
14153
+ "loss": 2.281,
14154
+ "step": 2349
14155
+ },
14156
+ {
14157
+ "epoch": 0.39,
14158
+ "learning_rate": 0.0004949152542372882,
14159
+ "loss": 2.238,
14160
+ "step": 2350
14161
+ },
14162
+ {
14163
+ "epoch": 0.39,
14164
+ "learning_rate": 0.0004947796610169492,
14165
+ "loss": 2.2127,
14166
+ "step": 2351
14167
+ },
14168
+ {
14169
+ "epoch": 0.39,
14170
+ "learning_rate": 0.0004946440677966103,
14171
+ "loss": 2.1367,
14172
+ "step": 2352
14173
+ },
14174
+ {
14175
+ "epoch": 0.39,
14176
+ "learning_rate": 0.0004945084745762711,
14177
+ "loss": 2.2763,
14178
+ "step": 2353
14179
+ },
14180
+ {
14181
+ "epoch": 0.39,
14182
+ "learning_rate": 0.0004943728813559322,
14183
+ "loss": 2.2816,
14184
+ "step": 2354
14185
+ },
14186
+ {
14187
+ "epoch": 0.39,
14188
+ "learning_rate": 0.0004942372881355932,
14189
+ "loss": 2.1938,
14190
+ "step": 2355
14191
+ },
14192
+ {
14193
+ "epoch": 0.39,
14194
+ "learning_rate": 0.0004941016949152543,
14195
+ "loss": 2.2263,
14196
+ "step": 2356
14197
+ },
14198
+ {
14199
+ "epoch": 0.39,
14200
+ "learning_rate": 0.0004939661016949153,
14201
+ "loss": 2.138,
14202
+ "step": 2357
14203
+ },
14204
+ {
14205
+ "epoch": 0.39,
14206
+ "learning_rate": 0.0004938305084745764,
14207
+ "loss": 2.2155,
14208
+ "step": 2358
14209
+ },
14210
+ {
14211
+ "epoch": 0.39,
14212
+ "learning_rate": 0.0004936949152542373,
14213
+ "loss": 2.1569,
14214
+ "step": 2359
14215
+ },
14216
+ {
14217
+ "epoch": 0.39,
14218
+ "learning_rate": 0.0004935593220338983,
14219
+ "loss": 2.2237,
14220
+ "step": 2360
14221
+ },
14222
+ {
14223
+ "epoch": 0.39,
14224
+ "learning_rate": 0.0004934237288135593,
14225
+ "loss": 2.1799,
14226
+ "step": 2361
14227
+ },
14228
+ {
14229
+ "epoch": 0.39,
14230
+ "learning_rate": 0.0004932881355932204,
14231
+ "loss": 2.217,
14232
+ "step": 2362
14233
+ },
14234
+ {
14235
+ "epoch": 0.39,
14236
+ "learning_rate": 0.0004931525423728814,
14237
+ "loss": 2.1811,
14238
+ "step": 2363
14239
+ },
14240
+ {
14241
+ "epoch": 0.39,
14242
+ "learning_rate": 0.0004930169491525425,
14243
+ "loss": 2.1791,
14244
+ "step": 2364
14245
+ },
14246
+ {
14247
+ "epoch": 0.39,
14248
+ "learning_rate": 0.0004928813559322034,
14249
+ "loss": 2.1861,
14250
+ "step": 2365
14251
+ },
14252
+ {
14253
+ "epoch": 0.39,
14254
+ "learning_rate": 0.0004927457627118644,
14255
+ "loss": 2.0613,
14256
+ "step": 2366
14257
+ },
14258
+ {
14259
+ "epoch": 0.39,
14260
+ "learning_rate": 0.0004926101694915254,
14261
+ "loss": 2.2212,
14262
+ "step": 2367
14263
+ },
14264
+ {
14265
+ "epoch": 0.39,
14266
+ "learning_rate": 0.0004924745762711864,
14267
+ "loss": 2.1791,
14268
+ "step": 2368
14269
+ },
14270
+ {
14271
+ "epoch": 0.39,
14272
+ "learning_rate": 0.0004923389830508475,
14273
+ "loss": 2.2189,
14274
+ "step": 2369
14275
+ },
14276
+ {
14277
+ "epoch": 0.4,
14278
+ "learning_rate": 0.0004922033898305085,
14279
+ "loss": 2.2945,
14280
+ "step": 2370
14281
+ },
14282
+ {
14283
+ "epoch": 0.4,
14284
+ "learning_rate": 0.0004920677966101695,
14285
+ "loss": 2.2479,
14286
+ "step": 2371
14287
+ },
14288
+ {
14289
+ "epoch": 0.4,
14290
+ "learning_rate": 0.0004919322033898305,
14291
+ "loss": 2.1627,
14292
+ "step": 2372
14293
+ },
14294
+ {
14295
+ "epoch": 0.4,
14296
+ "learning_rate": 0.0004917966101694916,
14297
+ "loss": 2.3009,
14298
+ "step": 2373
14299
+ },
14300
+ {
14301
+ "epoch": 0.4,
14302
+ "learning_rate": 0.0004916610169491526,
14303
+ "loss": 2.2497,
14304
+ "step": 2374
14305
+ },
14306
+ {
14307
+ "epoch": 0.4,
14308
+ "learning_rate": 0.0004915254237288136,
14309
+ "loss": 2.2158,
14310
+ "step": 2375
14311
+ },
14312
+ {
14313
+ "epoch": 0.4,
14314
+ "learning_rate": 0.0004913898305084746,
14315
+ "loss": 2.2436,
14316
+ "step": 2376
14317
+ },
14318
+ {
14319
+ "epoch": 0.4,
14320
+ "learning_rate": 0.0004912542372881356,
14321
+ "loss": 2.1664,
14322
+ "step": 2377
14323
+ },
14324
+ {
14325
+ "epoch": 0.4,
14326
+ "learning_rate": 0.0004911186440677966,
14327
+ "loss": 2.3082,
14328
+ "step": 2378
14329
+ },
14330
+ {
14331
+ "epoch": 0.4,
14332
+ "learning_rate": 0.0004909830508474577,
14333
+ "loss": 2.2136,
14334
+ "step": 2379
14335
+ },
14336
+ {
14337
+ "epoch": 0.4,
14338
+ "learning_rate": 0.0004908474576271187,
14339
+ "loss": 2.2039,
14340
+ "step": 2380
14341
+ },
14342
+ {
14343
+ "epoch": 0.4,
14344
+ "learning_rate": 0.0004907118644067797,
14345
+ "loss": 2.1691,
14346
+ "step": 2381
14347
+ },
14348
+ {
14349
+ "epoch": 0.4,
14350
+ "learning_rate": 0.0004905762711864407,
14351
+ "loss": 2.2393,
14352
+ "step": 2382
14353
+ },
14354
+ {
14355
+ "epoch": 0.4,
14356
+ "learning_rate": 0.0004904406779661017,
14357
+ "loss": 2.2057,
14358
+ "step": 2383
14359
+ },
14360
+ {
14361
+ "epoch": 0.4,
14362
+ "learning_rate": 0.0004903050847457627,
14363
+ "loss": 2.228,
14364
+ "step": 2384
14365
+ },
14366
+ {
14367
+ "epoch": 0.4,
14368
+ "learning_rate": 0.0004901694915254238,
14369
+ "loss": 2.2407,
14370
+ "step": 2385
14371
+ },
14372
+ {
14373
+ "epoch": 0.4,
14374
+ "learning_rate": 0.0004900338983050848,
14375
+ "loss": 2.2758,
14376
+ "step": 2386
14377
+ },
14378
+ {
14379
+ "epoch": 0.4,
14380
+ "learning_rate": 0.0004898983050847458,
14381
+ "loss": 2.2038,
14382
+ "step": 2387
14383
+ },
14384
+ {
14385
+ "epoch": 0.4,
14386
+ "learning_rate": 0.0004897627118644069,
14387
+ "loss": 2.1618,
14388
+ "step": 2388
14389
+ },
14390
+ {
14391
+ "epoch": 0.4,
14392
+ "learning_rate": 0.0004896271186440677,
14393
+ "loss": 2.1851,
14394
+ "step": 2389
14395
+ },
14396
+ {
14397
+ "epoch": 0.4,
14398
+ "learning_rate": 0.0004894915254237288,
14399
+ "loss": 2.2466,
14400
+ "step": 2390
14401
+ },
14402
+ {
14403
+ "epoch": 0.4,
14404
+ "learning_rate": 0.0004893559322033898,
14405
+ "loss": 2.2039,
14406
+ "step": 2391
14407
+ },
14408
+ {
14409
+ "epoch": 0.4,
14410
+ "learning_rate": 0.0004892203389830509,
14411
+ "loss": 2.2159,
14412
+ "step": 2392
14413
+ },
14414
+ {
14415
+ "epoch": 0.4,
14416
+ "learning_rate": 0.0004890847457627119,
14417
+ "loss": 2.1462,
14418
+ "step": 2393
14419
+ },
14420
+ {
14421
+ "epoch": 0.4,
14422
+ "learning_rate": 0.000488949152542373,
14423
+ "loss": 2.2526,
14424
+ "step": 2394
14425
+ },
14426
+ {
14427
+ "epoch": 0.4,
14428
+ "learning_rate": 0.0004888135593220339,
14429
+ "loss": 2.2435,
14430
+ "step": 2395
14431
+ },
14432
+ {
14433
+ "epoch": 0.4,
14434
+ "learning_rate": 0.0004886779661016949,
14435
+ "loss": 2.1436,
14436
+ "step": 2396
14437
+ },
14438
+ {
14439
+ "epoch": 0.4,
14440
+ "learning_rate": 0.0004885423728813559,
14441
+ "loss": 2.2096,
14442
+ "step": 2397
14443
+ },
14444
+ {
14445
+ "epoch": 0.4,
14446
+ "learning_rate": 0.000488406779661017,
14447
+ "loss": 2.1266,
14448
+ "step": 2398
14449
+ },
14450
+ {
14451
+ "epoch": 0.4,
14452
+ "learning_rate": 0.000488271186440678,
14453
+ "loss": 2.2289,
14454
+ "step": 2399
14455
+ },
14456
+ {
14457
+ "epoch": 0.4,
14458
+ "learning_rate": 0.00048813559322033906,
14459
+ "loss": 2.2934,
14460
+ "step": 2400
14461
+ },
14462
+ {
14463
+ "epoch": 0.4,
14464
+ "learning_rate": 0.000488,
14465
+ "loss": 2.2464,
14466
+ "step": 2401
14467
+ },
14468
+ {
14469
+ "epoch": 0.4,
14470
+ "learning_rate": 0.0004878644067796611,
14471
+ "loss": 2.2331,
14472
+ "step": 2402
14473
+ },
14474
+ {
14475
+ "epoch": 0.4,
14476
+ "learning_rate": 0.00048772881355932206,
14477
+ "loss": 2.1999,
14478
+ "step": 2403
14479
+ },
14480
+ {
14481
+ "epoch": 0.4,
14482
+ "learning_rate": 0.0004875932203389831,
14483
+ "loss": 2.0997,
14484
+ "step": 2404
14485
+ },
14486
+ {
14487
+ "epoch": 0.4,
14488
+ "learning_rate": 0.0004874576271186441,
14489
+ "loss": 2.1379,
14490
+ "step": 2405
14491
+ },
14492
+ {
14493
+ "epoch": 0.4,
14494
+ "learning_rate": 0.00048732203389830506,
14495
+ "loss": 2.1692,
14496
+ "step": 2406
14497
+ },
14498
+ {
14499
+ "epoch": 0.4,
14500
+ "learning_rate": 0.00048718644067796614,
14501
+ "loss": 2.2341,
14502
+ "step": 2407
14503
+ },
14504
+ {
14505
+ "epoch": 0.4,
14506
+ "learning_rate": 0.0004870508474576271,
14507
+ "loss": 2.1799,
14508
+ "step": 2408
14509
+ },
14510
+ {
14511
+ "epoch": 0.4,
14512
+ "learning_rate": 0.00048691525423728816,
14513
+ "loss": 2.2183,
14514
+ "step": 2409
14515
+ },
14516
+ {
14517
+ "epoch": 0.4,
14518
+ "learning_rate": 0.00048677966101694914,
14519
+ "loss": 2.1339,
14520
+ "step": 2410
14521
+ },
14522
+ {
14523
+ "epoch": 0.4,
14524
+ "learning_rate": 0.00048664406779661023,
14525
+ "loss": 2.2833,
14526
+ "step": 2411
14527
+ },
14528
+ {
14529
+ "epoch": 0.4,
14530
+ "learning_rate": 0.00048650847457627116,
14531
+ "loss": 2.1718,
14532
+ "step": 2412
14533
+ },
14534
+ {
14535
+ "epoch": 0.4,
14536
+ "learning_rate": 0.00048637288135593224,
14537
+ "loss": 2.126,
14538
+ "step": 2413
14539
+ },
14540
+ {
14541
+ "epoch": 0.4,
14542
+ "learning_rate": 0.0004862372881355932,
14543
+ "loss": 2.2404,
14544
+ "step": 2414
14545
+ },
14546
+ {
14547
+ "epoch": 0.4,
14548
+ "learning_rate": 0.00048610169491525426,
14549
+ "loss": 2.1648,
14550
+ "step": 2415
14551
+ },
14552
+ {
14553
+ "epoch": 0.4,
14554
+ "learning_rate": 0.00048596610169491524,
14555
+ "loss": 2.242,
14556
+ "step": 2416
14557
+ },
14558
+ {
14559
+ "epoch": 0.4,
14560
+ "learning_rate": 0.00048583050847457633,
14561
+ "loss": 2.196,
14562
+ "step": 2417
14563
+ },
14564
+ {
14565
+ "epoch": 0.4,
14566
+ "learning_rate": 0.0004856949152542373,
14567
+ "loss": 2.2558,
14568
+ "step": 2418
14569
+ },
14570
+ {
14571
+ "epoch": 0.4,
14572
+ "learning_rate": 0.00048555932203389834,
14573
+ "loss": 2.1538,
14574
+ "step": 2419
14575
+ },
14576
+ {
14577
+ "epoch": 0.4,
14578
+ "learning_rate": 0.0004854237288135593,
14579
+ "loss": 2.1532,
14580
+ "step": 2420
14581
+ },
14582
+ {
14583
+ "epoch": 0.4,
14584
+ "learning_rate": 0.0004852881355932204,
14585
+ "loss": 2.1805,
14586
+ "step": 2421
14587
+ },
14588
+ {
14589
+ "epoch": 0.4,
14590
+ "learning_rate": 0.0004851525423728814,
14591
+ "loss": 2.2063,
14592
+ "step": 2422
14593
+ },
14594
+ {
14595
+ "epoch": 0.4,
14596
+ "learning_rate": 0.00048501694915254243,
14597
+ "loss": 2.2193,
14598
+ "step": 2423
14599
+ },
14600
+ {
14601
+ "epoch": 0.4,
14602
+ "learning_rate": 0.0004848813559322034,
14603
+ "loss": 2.1982,
14604
+ "step": 2424
14605
+ },
14606
+ {
14607
+ "epoch": 0.4,
14608
+ "learning_rate": 0.00048474576271186445,
14609
+ "loss": 2.2539,
14610
+ "step": 2425
14611
+ },
14612
+ {
14613
+ "epoch": 0.4,
14614
+ "learning_rate": 0.0004846101694915254,
14615
+ "loss": 2.244,
14616
+ "step": 2426
14617
+ },
14618
+ {
14619
+ "epoch": 0.4,
14620
+ "learning_rate": 0.0004844745762711864,
14621
+ "loss": 2.2449,
14622
+ "step": 2427
14623
+ },
14624
+ {
14625
+ "epoch": 0.4,
14626
+ "learning_rate": 0.0004843389830508475,
14627
+ "loss": 2.2277,
14628
+ "step": 2428
14629
+ },
14630
+ {
14631
+ "epoch": 0.4,
14632
+ "learning_rate": 0.0004842033898305085,
14633
+ "loss": 2.2147,
14634
+ "step": 2429
14635
+ },
14636
+ {
14637
+ "epoch": 0.41,
14638
+ "learning_rate": 0.0004840677966101695,
14639
+ "loss": 2.1484,
14640
+ "step": 2430
14641
+ },
14642
+ {
14643
+ "epoch": 0.41,
14644
+ "learning_rate": 0.0004839322033898305,
14645
+ "loss": 2.1931,
14646
+ "step": 2431
14647
+ },
14648
+ {
14649
+ "epoch": 0.41,
14650
+ "learning_rate": 0.0004837966101694916,
14651
+ "loss": 2.1441,
14652
+ "step": 2432
14653
+ },
14654
+ {
14655
+ "epoch": 0.41,
14656
+ "learning_rate": 0.00048366101694915256,
14657
+ "loss": 2.1878,
14658
+ "step": 2433
14659
+ },
14660
+ {
14661
+ "epoch": 0.41,
14662
+ "learning_rate": 0.0004835254237288136,
14663
+ "loss": 2.2027,
14664
+ "step": 2434
14665
+ },
14666
+ {
14667
+ "epoch": 0.41,
14668
+ "learning_rate": 0.0004833898305084746,
14669
+ "loss": 2.1994,
14670
+ "step": 2435
14671
+ },
14672
+ {
14673
+ "epoch": 0.41,
14674
+ "learning_rate": 0.0004832542372881356,
14675
+ "loss": 2.122,
14676
+ "step": 2436
14677
+ },
14678
+ {
14679
+ "epoch": 0.41,
14680
+ "learning_rate": 0.0004831186440677966,
14681
+ "loss": 2.2057,
14682
+ "step": 2437
14683
+ },
14684
+ {
14685
+ "epoch": 0.41,
14686
+ "learning_rate": 0.0004829830508474577,
14687
+ "loss": 2.2433,
14688
+ "step": 2438
14689
+ },
14690
+ {
14691
+ "epoch": 0.41,
14692
+ "learning_rate": 0.00048284745762711866,
14693
+ "loss": 2.1907,
14694
+ "step": 2439
14695
+ },
14696
+ {
14697
+ "epoch": 0.41,
14698
+ "learning_rate": 0.0004827118644067797,
14699
+ "loss": 2.1868,
14700
+ "step": 2440
14701
+ },
14702
+ {
14703
+ "epoch": 0.41,
14704
+ "learning_rate": 0.0004825762711864407,
14705
+ "loss": 2.2322,
14706
+ "step": 2441
14707
+ },
14708
+ {
14709
+ "epoch": 0.41,
14710
+ "learning_rate": 0.00048244067796610177,
14711
+ "loss": 2.22,
14712
+ "step": 2442
14713
+ },
14714
+ {
14715
+ "epoch": 0.41,
14716
+ "learning_rate": 0.00048230508474576275,
14717
+ "loss": 2.1447,
14718
+ "step": 2443
14719
+ },
14720
+ {
14721
+ "epoch": 0.41,
14722
+ "learning_rate": 0.0004821694915254238,
14723
+ "loss": 2.2558,
14724
+ "step": 2444
14725
+ },
14726
+ {
14727
+ "epoch": 0.41,
14728
+ "learning_rate": 0.00048203389830508476,
14729
+ "loss": 2.1189,
14730
+ "step": 2445
14731
+ },
14732
+ {
14733
+ "epoch": 0.41,
14734
+ "learning_rate": 0.00048189830508474585,
14735
+ "loss": 2.1803,
14736
+ "step": 2446
14737
+ },
14738
+ {
14739
+ "epoch": 0.41,
14740
+ "learning_rate": 0.0004817627118644068,
14741
+ "loss": 2.229,
14742
+ "step": 2447
14743
+ },
14744
+ {
14745
+ "epoch": 0.41,
14746
+ "learning_rate": 0.00048162711864406776,
14747
+ "loss": 2.2312,
14748
+ "step": 2448
14749
+ },
14750
+ {
14751
+ "epoch": 0.41,
14752
+ "learning_rate": 0.00048149152542372885,
14753
+ "loss": 2.2365,
14754
+ "step": 2449
14755
+ },
14756
+ {
14757
+ "epoch": 0.41,
14758
+ "learning_rate": 0.0004813559322033898,
14759
+ "loss": 2.1939,
14760
+ "step": 2450
14761
+ },
14762
+ {
14763
+ "epoch": 0.41,
14764
+ "learning_rate": 0.00048122033898305086,
14765
+ "loss": 2.1652,
14766
+ "step": 2451
14767
+ },
14768
+ {
14769
+ "epoch": 0.41,
14770
+ "learning_rate": 0.00048108474576271184,
14771
+ "loss": 2.2152,
14772
+ "step": 2452
14773
+ },
14774
+ {
14775
+ "epoch": 0.41,
14776
+ "learning_rate": 0.00048094915254237293,
14777
+ "loss": 2.1912,
14778
+ "step": 2453
14779
+ },
14780
+ {
14781
+ "epoch": 0.41,
14782
+ "learning_rate": 0.0004808135593220339,
14783
+ "loss": 2.2335,
14784
+ "step": 2454
14785
+ },
14786
+ {
14787
+ "epoch": 0.41,
14788
+ "learning_rate": 0.00048067796610169495,
14789
+ "loss": 2.2079,
14790
+ "step": 2455
14791
+ },
14792
+ {
14793
+ "epoch": 0.41,
14794
+ "learning_rate": 0.00048054237288135593,
14795
+ "loss": 2.2502,
14796
+ "step": 2456
14797
+ },
14798
+ {
14799
+ "epoch": 0.41,
14800
+ "learning_rate": 0.000480406779661017,
14801
+ "loss": 2.2381,
14802
+ "step": 2457
14803
+ },
14804
+ {
14805
+ "epoch": 0.41,
14806
+ "learning_rate": 0.00048027118644067794,
14807
+ "loss": 2.1353,
14808
+ "step": 2458
14809
+ },
14810
+ {
14811
+ "epoch": 0.41,
14812
+ "learning_rate": 0.00048013559322033903,
14813
+ "loss": 2.1691,
14814
+ "step": 2459
14815
+ },
14816
+ {
14817
+ "epoch": 0.41,
14818
+ "learning_rate": 0.00048,
14819
+ "loss": 2.199,
14820
+ "step": 2460
14821
+ },
14822
+ {
14823
+ "epoch": 0.41,
14824
+ "learning_rate": 0.00047986440677966105,
14825
+ "loss": 2.2283,
14826
+ "step": 2461
14827
+ },
14828
+ {
14829
+ "epoch": 0.41,
14830
+ "learning_rate": 0.00047972881355932203,
14831
+ "loss": 2.2119,
14832
+ "step": 2462
14833
+ },
14834
+ {
14835
+ "epoch": 0.41,
14836
+ "learning_rate": 0.0004795932203389831,
14837
+ "loss": 2.2015,
14838
+ "step": 2463
14839
+ },
14840
+ {
14841
+ "epoch": 0.41,
14842
+ "learning_rate": 0.0004794576271186441,
14843
+ "loss": 2.2787,
14844
+ "step": 2464
14845
+ },
14846
+ {
14847
+ "epoch": 0.41,
14848
+ "learning_rate": 0.00047932203389830513,
14849
+ "loss": 2.1952,
14850
+ "step": 2465
14851
+ },
14852
+ {
14853
+ "epoch": 0.41,
14854
+ "learning_rate": 0.0004791864406779661,
14855
+ "loss": 2.2289,
14856
+ "step": 2466
14857
+ },
14858
+ {
14859
+ "epoch": 0.41,
14860
+ "learning_rate": 0.0004790508474576272,
14861
+ "loss": 2.1717,
14862
+ "step": 2467
14863
+ },
14864
+ {
14865
+ "epoch": 0.41,
14866
+ "learning_rate": 0.0004789152542372882,
14867
+ "loss": 2.2153,
14868
+ "step": 2468
14869
+ },
14870
+ {
14871
+ "epoch": 0.41,
14872
+ "learning_rate": 0.0004787796610169491,
14873
+ "loss": 2.2087,
14874
+ "step": 2469
14875
+ },
14876
+ {
14877
+ "epoch": 0.41,
14878
+ "learning_rate": 0.0004786440677966102,
14879
+ "loss": 2.2092,
14880
+ "step": 2470
14881
+ },
14882
+ {
14883
+ "epoch": 0.41,
14884
+ "learning_rate": 0.0004785084745762712,
14885
+ "loss": 2.2035,
14886
+ "step": 2471
14887
+ },
14888
+ {
14889
+ "epoch": 0.41,
14890
+ "learning_rate": 0.0004783728813559322,
14891
+ "loss": 2.2069,
14892
+ "step": 2472
14893
+ },
14894
+ {
14895
+ "epoch": 0.41,
14896
+ "learning_rate": 0.0004782372881355932,
14897
+ "loss": 2.1963,
14898
+ "step": 2473
14899
+ },
14900
+ {
14901
+ "epoch": 0.41,
14902
+ "learning_rate": 0.0004781016949152543,
14903
+ "loss": 2.2076,
14904
+ "step": 2474
14905
+ },
14906
+ {
14907
+ "epoch": 0.41,
14908
+ "learning_rate": 0.00047796610169491526,
14909
+ "loss": 2.1829,
14910
+ "step": 2475
14911
+ },
14912
+ {
14913
+ "epoch": 0.41,
14914
+ "learning_rate": 0.0004778305084745763,
14915
+ "loss": 2.1764,
14916
+ "step": 2476
14917
+ },
14918
+ {
14919
+ "epoch": 0.41,
14920
+ "learning_rate": 0.0004776949152542373,
14921
+ "loss": 2.2048,
14922
+ "step": 2477
14923
+ },
14924
+ {
14925
+ "epoch": 0.41,
14926
+ "learning_rate": 0.00047755932203389837,
14927
+ "loss": 2.2038,
14928
+ "step": 2478
14929
+ },
14930
+ {
14931
+ "epoch": 0.41,
14932
+ "learning_rate": 0.00047742372881355935,
14933
+ "loss": 2.2018,
14934
+ "step": 2479
14935
+ },
14936
+ {
14937
+ "epoch": 0.41,
14938
+ "learning_rate": 0.0004772881355932204,
14939
+ "loss": 2.225,
14940
+ "step": 2480
14941
+ },
14942
+ {
14943
+ "epoch": 0.41,
14944
+ "learning_rate": 0.00047715254237288136,
14945
+ "loss": 2.1708,
14946
+ "step": 2481
14947
+ },
14948
+ {
14949
+ "epoch": 0.41,
14950
+ "learning_rate": 0.0004770169491525424,
14951
+ "loss": 2.204,
14952
+ "step": 2482
14953
+ },
14954
+ {
14955
+ "epoch": 0.41,
14956
+ "learning_rate": 0.0004768813559322034,
14957
+ "loss": 2.2076,
14958
+ "step": 2483
14959
+ },
14960
+ {
14961
+ "epoch": 0.41,
14962
+ "learning_rate": 0.00047674576271186447,
14963
+ "loss": 2.2065,
14964
+ "step": 2484
14965
+ },
14966
+ {
14967
+ "epoch": 0.41,
14968
+ "learning_rate": 0.00047661016949152545,
14969
+ "loss": 2.2204,
14970
+ "step": 2485
14971
+ },
14972
+ {
14973
+ "epoch": 0.41,
14974
+ "learning_rate": 0.0004764745762711865,
14975
+ "loss": 2.2346,
14976
+ "step": 2486
14977
+ },
14978
+ {
14979
+ "epoch": 0.41,
14980
+ "learning_rate": 0.00047633898305084746,
14981
+ "loss": 2.2114,
14982
+ "step": 2487
14983
+ },
14984
+ {
14985
+ "epoch": 0.41,
14986
+ "learning_rate": 0.00047620338983050855,
14987
+ "loss": 2.2893,
14988
+ "step": 2488
14989
+ },
14990
+ {
14991
+ "epoch": 0.41,
14992
+ "learning_rate": 0.00047606779661016953,
14993
+ "loss": 2.1737,
14994
+ "step": 2489
14995
+ },
14996
+ {
14997
+ "epoch": 0.41,
14998
+ "learning_rate": 0.0004759322033898305,
14999
+ "loss": 2.2411,
15000
+ "step": 2490
15001
+ },
15002
+ {
15003
+ "epoch": 0.42,
15004
+ "learning_rate": 0.00047579661016949155,
15005
+ "loss": 2.2292,
15006
+ "step": 2491
15007
+ },
15008
+ {
15009
+ "epoch": 0.42,
15010
+ "learning_rate": 0.00047566101694915253,
15011
+ "loss": 2.1915,
15012
+ "step": 2492
15013
+ },
15014
+ {
15015
+ "epoch": 0.42,
15016
+ "learning_rate": 0.00047552542372881356,
15017
+ "loss": 2.2041,
15018
+ "step": 2493
15019
+ },
15020
+ {
15021
+ "epoch": 0.42,
15022
+ "learning_rate": 0.00047538983050847454,
15023
+ "loss": 2.2141,
15024
+ "step": 2494
15025
+ },
15026
+ {
15027
+ "epoch": 0.42,
15028
+ "learning_rate": 0.00047525423728813563,
15029
+ "loss": 2.2215,
15030
+ "step": 2495
15031
+ },
15032
+ {
15033
+ "epoch": 0.42,
15034
+ "learning_rate": 0.0004751186440677966,
15035
+ "loss": 2.201,
15036
+ "step": 2496
15037
+ },
15038
+ {
15039
+ "epoch": 0.42,
15040
+ "learning_rate": 0.00047498305084745765,
15041
+ "loss": 2.2049,
15042
+ "step": 2497
15043
+ },
15044
+ {
15045
+ "epoch": 0.42,
15046
+ "learning_rate": 0.00047484745762711863,
15047
+ "loss": 2.1216,
15048
+ "step": 2498
15049
+ },
15050
+ {
15051
+ "epoch": 0.42,
15052
+ "learning_rate": 0.0004747118644067797,
15053
+ "loss": 2.1727,
15054
+ "step": 2499
15055
+ },
15056
+ {
15057
+ "epoch": 0.42,
15058
+ "learning_rate": 0.0004745762711864407,
15059
+ "loss": 2.2388,
15060
+ "step": 2500
15061
+ },
15062
+ {
15063
+ "epoch": 0.42,
15064
+ "eval_gen_len": 19.0,
15065
+ "eval_loss": 2.074338674545288,
15066
+ "eval_rouge1": 0.2622,
15067
+ "eval_rouge2": 0.0951,
15068
+ "eval_rougeL": 0.2241,
15069
+ "eval_rougeLsum": 0.2236,
15070
+ "eval_runtime": 42.0841,
15071
+ "eval_samples_per_second": 1.188,
15072
+ "eval_steps_per_second": 0.166,
15073
+ "step": 2500
15074
  }
15075
  ],
15076
  "max_steps": 6000,
15077
  "num_train_epochs": 9223372036854775807,
15078
+ "total_flos": 2.37606578201958e+18,
15079
  "trial_name": null,
15080
  "trial_params": null
15081
  }
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:33853d49cbf9ad7b457c23a5352a35dd94522e2dfba5b3588c54d70f50b930a7
3
  size 2368281769
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9aee612a0a1c2847da99ac4385fa982ffe96a11a86e9c19b170bc87c12c873b1
3
  size 2368281769