abdiharyadi commited on
Commit
ba3a492
·
verified ·
1 Parent(s): d7aebaa

Training in progress, epoch 7, checkpoint

Browse files
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:044e91a7c52f50e4043dc236fc046775db89767dd283738cb05dae269d0fe1f9
3
  size 1575259780
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:571650319ec1f42fe706318735bcf17f26e0f70e4eaf17bedad067fa9de6de2a
3
  size 1575259780
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:06fd3b48586725ea6ba928db3bb6432129af3d8438eb526dfaaa3ca8c57e58e5
3
  size 3150397656
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:93928c3fea38a58a1564b9c89bfb76d40443306a08a83f5185478782535e6d7d
3
  size 3150397656
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8337dd673478657a1e3e59ab5c0126da6f87ecc51591bad61e39324efa7f5883
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8d07a57233e4e4b4730ba7fab57d31511ce7c6cc9e74900d80bae4ee67482898
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:10535ed970c1f8b1967fdb1bcf70b29e64c063da0c7c6d212af5b4ef07621922
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8be5ee3163fedb7ae8db3cd8c2bffce110605cc0474c3ea444b55583a7b02cdc
3
  size 1064
last-checkpoint/special_tokens_map.json CHANGED
@@ -53,9 +53,27 @@
53
  "gl_ES",
54
  "sl_SI"
55
  ],
56
- "bos_token": "<s>",
57
- "cls_token": "<s>",
58
- "eos_token": "</s>",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
59
  "mask_token": {
60
  "content": "<mask>",
61
  "lstrip": true,
@@ -63,7 +81,25 @@
63
  "rstrip": false,
64
  "single_word": false
65
  },
66
- "pad_token": "<pad>",
67
- "sep_token": "</s>",
68
- "unk_token": "<unk>"
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
69
  }
 
53
  "gl_ES",
54
  "sl_SI"
55
  ],
56
+ "bos_token": {
57
+ "content": "<s>",
58
+ "lstrip": false,
59
+ "normalized": false,
60
+ "rstrip": false,
61
+ "single_word": false
62
+ },
63
+ "cls_token": {
64
+ "content": "<s>",
65
+ "lstrip": false,
66
+ "normalized": false,
67
+ "rstrip": false,
68
+ "single_word": false
69
+ },
70
+ "eos_token": {
71
+ "content": "</s>",
72
+ "lstrip": false,
73
+ "normalized": false,
74
+ "rstrip": false,
75
+ "single_word": false
76
+ },
77
  "mask_token": {
78
  "content": "<mask>",
79
  "lstrip": true,
 
81
  "rstrip": false,
82
  "single_word": false
83
  },
84
+ "pad_token": {
85
+ "content": "<pad>",
86
+ "lstrip": false,
87
+ "normalized": false,
88
+ "rstrip": false,
89
+ "single_word": false
90
+ },
91
+ "sep_token": {
92
+ "content": "</s>",
93
+ "lstrip": false,
94
+ "normalized": false,
95
+ "rstrip": false,
96
+ "single_word": false
97
+ },
98
+ "unk_token": {
99
+ "content": "<unk>",
100
+ "lstrip": false,
101
+ "normalized": false,
102
+ "rstrip": false,
103
+ "single_word": false
104
+ }
105
  }
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 0.5081,
3
- "best_model_checkpoint": "/kaggle/tmp/amr-tst-indo/AMRBART-id/fine-tune/../outputs/mbart-en-id-smaller-fted/checkpoint-19347",
4
- "epoch": 4.999870784339062,
5
  "eval_steps": 500,
6
- "global_step": 19347,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5865,6 +5865,3516 @@
5865
  "eval_samples_per_second": 1.019,
5866
  "eval_steps_per_second": 0.51,
5867
  "step": 19347
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5868
  }
5869
  ],
5870
  "logging_steps": 20,
@@ -5884,7 +9394,7 @@
5884
  "attributes": {}
5885
  }
5886
  },
5887
- "total_flos": 1.2701974646813491e+17,
5888
  "train_batch_size": 2,
5889
  "trial_name": null,
5890
  "trial_params": null
 
1
  {
2
+ "best_metric": 8.0263,
3
+ "best_model_checkpoint": "/kaggle/tmp/amr-tst-indo/AMRBART-id/fine-tune/../outputs/mbart-en-id-smaller-fted/checkpoint-30953",
4
+ "epoch": 7.999870784339062,
5
  "eval_steps": 500,
6
+ "global_step": 30953,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5865
  "eval_samples_per_second": 1.019,
5866
  "eval_steps_per_second": 0.51,
5867
  "step": 19347
5868
+ },
5869
+ {
5870
+ "epoch": 5.0038764698281435,
5871
+ "learning_rate": 1.6894852845844678e-07,
5872
+ "loss": 2.6522,
5873
+ "step": 19360
5874
+ },
5875
+ {
5876
+ "epoch": 5.009045096265667,
5877
+ "learning_rate": 1.6891611564890445e-07,
5878
+ "loss": 2.6008,
5879
+ "step": 19380
5880
+ },
5881
+ {
5882
+ "epoch": 5.014213722703191,
5883
+ "learning_rate": 1.688837028393621e-07,
5884
+ "loss": 2.6294,
5885
+ "step": 19400
5886
+ },
5887
+ {
5888
+ "epoch": 5.019382349140716,
5889
+ "learning_rate": 1.6885129002981977e-07,
5890
+ "loss": 2.6519,
5891
+ "step": 19420
5892
+ },
5893
+ {
5894
+ "epoch": 5.02455097557824,
5895
+ "learning_rate": 1.6881887722027743e-07,
5896
+ "loss": 2.6537,
5897
+ "step": 19440
5898
+ },
5899
+ {
5900
+ "epoch": 5.029719602015764,
5901
+ "learning_rate": 1.6878646441073512e-07,
5902
+ "loss": 2.6256,
5903
+ "step": 19460
5904
+ },
5905
+ {
5906
+ "epoch": 5.034888228453289,
5907
+ "learning_rate": 1.6875405160119278e-07,
5908
+ "loss": 2.6721,
5909
+ "step": 19480
5910
+ },
5911
+ {
5912
+ "epoch": 5.040056854890813,
5913
+ "learning_rate": 1.6872163879165044e-07,
5914
+ "loss": 2.6894,
5915
+ "step": 19500
5916
+ },
5917
+ {
5918
+ "epoch": 5.045225481328337,
5919
+ "learning_rate": 1.6868922598210813e-07,
5920
+ "loss": 2.6702,
5921
+ "step": 19520
5922
+ },
5923
+ {
5924
+ "epoch": 5.050394107765861,
5925
+ "learning_rate": 1.686568131725658e-07,
5926
+ "loss": 2.7041,
5927
+ "step": 19540
5928
+ },
5929
+ {
5930
+ "epoch": 5.055562734203385,
5931
+ "learning_rate": 1.6862440036302346e-07,
5932
+ "loss": 2.7243,
5933
+ "step": 19560
5934
+ },
5935
+ {
5936
+ "epoch": 5.06073136064091,
5937
+ "learning_rate": 1.6859198755348114e-07,
5938
+ "loss": 2.7082,
5939
+ "step": 19580
5940
+ },
5941
+ {
5942
+ "epoch": 5.065899987078434,
5943
+ "learning_rate": 1.685595747439388e-07,
5944
+ "loss": 2.6755,
5945
+ "step": 19600
5946
+ },
5947
+ {
5948
+ "epoch": 5.071068613515958,
5949
+ "learning_rate": 1.6852716193439647e-07,
5950
+ "loss": 2.6075,
5951
+ "step": 19620
5952
+ },
5953
+ {
5954
+ "epoch": 5.076237239953483,
5955
+ "learning_rate": 1.6849474912485413e-07,
5956
+ "loss": 2.6402,
5957
+ "step": 19640
5958
+ },
5959
+ {
5960
+ "epoch": 5.081405866391006,
5961
+ "learning_rate": 1.684623363153118e-07,
5962
+ "loss": 2.6928,
5963
+ "step": 19660
5964
+ },
5965
+ {
5966
+ "epoch": 5.086574492828531,
5967
+ "learning_rate": 1.6842992350576948e-07,
5968
+ "loss": 2.6689,
5969
+ "step": 19680
5970
+ },
5971
+ {
5972
+ "epoch": 5.091743119266055,
5973
+ "learning_rate": 1.6839751069622714e-07,
5974
+ "loss": 2.6848,
5975
+ "step": 19700
5976
+ },
5977
+ {
5978
+ "epoch": 5.096911745703579,
5979
+ "learning_rate": 1.683650978866848e-07,
5980
+ "loss": 2.6315,
5981
+ "step": 19720
5982
+ },
5983
+ {
5984
+ "epoch": 5.102080372141104,
5985
+ "learning_rate": 1.683326850771425e-07,
5986
+ "loss": 2.6936,
5987
+ "step": 19740
5988
+ },
5989
+ {
5990
+ "epoch": 5.107248998578628,
5991
+ "learning_rate": 1.6830027226760015e-07,
5992
+ "loss": 2.6354,
5993
+ "step": 19760
5994
+ },
5995
+ {
5996
+ "epoch": 5.112417625016152,
5997
+ "learning_rate": 1.6826785945805782e-07,
5998
+ "loss": 2.6376,
5999
+ "step": 19780
6000
+ },
6001
+ {
6002
+ "epoch": 5.117586251453676,
6003
+ "learning_rate": 1.6823544664851548e-07,
6004
+ "loss": 2.7595,
6005
+ "step": 19800
6006
+ },
6007
+ {
6008
+ "epoch": 5.1227548778912,
6009
+ "learning_rate": 1.6820303383897317e-07,
6010
+ "loss": 2.5688,
6011
+ "step": 19820
6012
+ },
6013
+ {
6014
+ "epoch": 5.127923504328725,
6015
+ "learning_rate": 1.6817062102943083e-07,
6016
+ "loss": 2.6504,
6017
+ "step": 19840
6018
+ },
6019
+ {
6020
+ "epoch": 5.133092130766249,
6021
+ "learning_rate": 1.681382082198885e-07,
6022
+ "loss": 2.701,
6023
+ "step": 19860
6024
+ },
6025
+ {
6026
+ "epoch": 5.138260757203773,
6027
+ "learning_rate": 1.6810579541034615e-07,
6028
+ "loss": 2.6691,
6029
+ "step": 19880
6030
+ },
6031
+ {
6032
+ "epoch": 5.143429383641298,
6033
+ "learning_rate": 1.6807338260080384e-07,
6034
+ "loss": 2.6396,
6035
+ "step": 19900
6036
+ },
6037
+ {
6038
+ "epoch": 5.148598010078821,
6039
+ "learning_rate": 1.680409697912615e-07,
6040
+ "loss": 2.6752,
6041
+ "step": 19920
6042
+ },
6043
+ {
6044
+ "epoch": 5.1537666365163455,
6045
+ "learning_rate": 1.6800855698171916e-07,
6046
+ "loss": 2.567,
6047
+ "step": 19940
6048
+ },
6049
+ {
6050
+ "epoch": 5.15893526295387,
6051
+ "learning_rate": 1.6797614417217685e-07,
6052
+ "loss": 2.6691,
6053
+ "step": 19960
6054
+ },
6055
+ {
6056
+ "epoch": 5.164103889391394,
6057
+ "learning_rate": 1.6794373136263451e-07,
6058
+ "loss": 2.6172,
6059
+ "step": 19980
6060
+ },
6061
+ {
6062
+ "epoch": 5.169272515828919,
6063
+ "learning_rate": 1.6791131855309218e-07,
6064
+ "loss": 2.6856,
6065
+ "step": 20000
6066
+ },
6067
+ {
6068
+ "epoch": 5.174441142266443,
6069
+ "learning_rate": 1.6787890574354984e-07,
6070
+ "loss": 2.6874,
6071
+ "step": 20020
6072
+ },
6073
+ {
6074
+ "epoch": 5.179609768703967,
6075
+ "learning_rate": 1.678464929340075e-07,
6076
+ "loss": 2.6737,
6077
+ "step": 20040
6078
+ },
6079
+ {
6080
+ "epoch": 5.184778395141491,
6081
+ "learning_rate": 1.678140801244652e-07,
6082
+ "loss": 2.6503,
6083
+ "step": 20060
6084
+ },
6085
+ {
6086
+ "epoch": 5.189947021579015,
6087
+ "learning_rate": 1.6778166731492285e-07,
6088
+ "loss": 2.6155,
6089
+ "step": 20080
6090
+ },
6091
+ {
6092
+ "epoch": 5.1951156480165395,
6093
+ "learning_rate": 1.677492545053805e-07,
6094
+ "loss": 2.7035,
6095
+ "step": 20100
6096
+ },
6097
+ {
6098
+ "epoch": 5.200284274454064,
6099
+ "learning_rate": 1.677168416958382e-07,
6100
+ "loss": 2.6192,
6101
+ "step": 20120
6102
+ },
6103
+ {
6104
+ "epoch": 5.205452900891588,
6105
+ "learning_rate": 1.6768442888629586e-07,
6106
+ "loss": 2.5974,
6107
+ "step": 20140
6108
+ },
6109
+ {
6110
+ "epoch": 5.2106215273291125,
6111
+ "learning_rate": 1.6765201607675352e-07,
6112
+ "loss": 2.694,
6113
+ "step": 20160
6114
+ },
6115
+ {
6116
+ "epoch": 5.215790153766637,
6117
+ "learning_rate": 1.676196032672112e-07,
6118
+ "loss": 2.6391,
6119
+ "step": 20180
6120
+ },
6121
+ {
6122
+ "epoch": 5.22095878020416,
6123
+ "learning_rate": 1.6758719045766887e-07,
6124
+ "loss": 2.6428,
6125
+ "step": 20200
6126
+ },
6127
+ {
6128
+ "epoch": 5.226127406641685,
6129
+ "learning_rate": 1.6755477764812654e-07,
6130
+ "loss": 2.6796,
6131
+ "step": 20220
6132
+ },
6133
+ {
6134
+ "epoch": 5.231296033079209,
6135
+ "learning_rate": 1.675223648385842e-07,
6136
+ "loss": 2.6819,
6137
+ "step": 20240
6138
+ },
6139
+ {
6140
+ "epoch": 5.2364646595167335,
6141
+ "learning_rate": 1.6748995202904186e-07,
6142
+ "loss": 2.6714,
6143
+ "step": 20260
6144
+ },
6145
+ {
6146
+ "epoch": 5.241633285954258,
6147
+ "learning_rate": 1.6745753921949955e-07,
6148
+ "loss": 2.6392,
6149
+ "step": 20280
6150
+ },
6151
+ {
6152
+ "epoch": 5.246801912391782,
6153
+ "learning_rate": 1.674251264099572e-07,
6154
+ "loss": 2.7057,
6155
+ "step": 20300
6156
+ },
6157
+ {
6158
+ "epoch": 5.2519705388293065,
6159
+ "learning_rate": 1.6739271360041487e-07,
6160
+ "loss": 2.6676,
6161
+ "step": 20320
6162
+ },
6163
+ {
6164
+ "epoch": 5.25713916526683,
6165
+ "learning_rate": 1.6736030079087256e-07,
6166
+ "loss": 2.7037,
6167
+ "step": 20340
6168
+ },
6169
+ {
6170
+ "epoch": 5.262307791704354,
6171
+ "learning_rate": 1.6732788798133022e-07,
6172
+ "loss": 2.7595,
6173
+ "step": 20360
6174
+ },
6175
+ {
6176
+ "epoch": 5.267476418141879,
6177
+ "learning_rate": 1.6729547517178788e-07,
6178
+ "loss": 2.6665,
6179
+ "step": 20380
6180
+ },
6181
+ {
6182
+ "epoch": 5.272645044579403,
6183
+ "learning_rate": 1.6726306236224554e-07,
6184
+ "loss": 2.6281,
6185
+ "step": 20400
6186
+ },
6187
+ {
6188
+ "epoch": 5.277813671016927,
6189
+ "learning_rate": 1.6723064955270323e-07,
6190
+ "loss": 2.6047,
6191
+ "step": 20420
6192
+ },
6193
+ {
6194
+ "epoch": 5.282982297454452,
6195
+ "learning_rate": 1.671982367431609e-07,
6196
+ "loss": 2.6466,
6197
+ "step": 20440
6198
+ },
6199
+ {
6200
+ "epoch": 5.288150923891976,
6201
+ "learning_rate": 1.6716582393361856e-07,
6202
+ "loss": 2.6026,
6203
+ "step": 20460
6204
+ },
6205
+ {
6206
+ "epoch": 5.2933195503295,
6207
+ "learning_rate": 1.6713341112407622e-07,
6208
+ "loss": 2.6714,
6209
+ "step": 20480
6210
+ },
6211
+ {
6212
+ "epoch": 5.298488176767024,
6213
+ "learning_rate": 1.671009983145339e-07,
6214
+ "loss": 2.6351,
6215
+ "step": 20500
6216
+ },
6217
+ {
6218
+ "epoch": 5.303656803204548,
6219
+ "learning_rate": 1.6706858550499157e-07,
6220
+ "loss": 2.6293,
6221
+ "step": 20520
6222
+ },
6223
+ {
6224
+ "epoch": 5.308825429642073,
6225
+ "learning_rate": 1.6703617269544923e-07,
6226
+ "loss": 2.6368,
6227
+ "step": 20540
6228
+ },
6229
+ {
6230
+ "epoch": 5.313994056079597,
6231
+ "learning_rate": 1.6700375988590692e-07,
6232
+ "loss": 2.6963,
6233
+ "step": 20560
6234
+ },
6235
+ {
6236
+ "epoch": 5.319162682517121,
6237
+ "learning_rate": 1.6697134707636458e-07,
6238
+ "loss": 2.6401,
6239
+ "step": 20580
6240
+ },
6241
+ {
6242
+ "epoch": 5.324331308954645,
6243
+ "learning_rate": 1.6693893426682224e-07,
6244
+ "loss": 2.669,
6245
+ "step": 20600
6246
+ },
6247
+ {
6248
+ "epoch": 5.329499935392169,
6249
+ "learning_rate": 1.669065214572799e-07,
6250
+ "loss": 2.6384,
6251
+ "step": 20620
6252
+ },
6253
+ {
6254
+ "epoch": 5.334668561829694,
6255
+ "learning_rate": 1.6687410864773757e-07,
6256
+ "loss": 2.7073,
6257
+ "step": 20640
6258
+ },
6259
+ {
6260
+ "epoch": 5.339837188267218,
6261
+ "learning_rate": 1.6684169583819526e-07,
6262
+ "loss": 2.6507,
6263
+ "step": 20660
6264
+ },
6265
+ {
6266
+ "epoch": 5.345005814704742,
6267
+ "learning_rate": 1.6680928302865292e-07,
6268
+ "loss": 2.6378,
6269
+ "step": 20680
6270
+ },
6271
+ {
6272
+ "epoch": 5.350174441142267,
6273
+ "learning_rate": 1.6677687021911058e-07,
6274
+ "loss": 2.6756,
6275
+ "step": 20700
6276
+ },
6277
+ {
6278
+ "epoch": 5.355343067579791,
6279
+ "learning_rate": 1.6674445740956827e-07,
6280
+ "loss": 2.6667,
6281
+ "step": 20720
6282
+ },
6283
+ {
6284
+ "epoch": 5.3605116940173145,
6285
+ "learning_rate": 1.6671204460002593e-07,
6286
+ "loss": 2.6714,
6287
+ "step": 20740
6288
+ },
6289
+ {
6290
+ "epoch": 5.365680320454839,
6291
+ "learning_rate": 1.666796317904836e-07,
6292
+ "loss": 2.6117,
6293
+ "step": 20760
6294
+ },
6295
+ {
6296
+ "epoch": 5.370848946892363,
6297
+ "learning_rate": 1.6664721898094128e-07,
6298
+ "loss": 2.6513,
6299
+ "step": 20780
6300
+ },
6301
+ {
6302
+ "epoch": 5.376017573329888,
6303
+ "learning_rate": 1.6661480617139894e-07,
6304
+ "loss": 2.6997,
6305
+ "step": 20800
6306
+ },
6307
+ {
6308
+ "epoch": 5.381186199767412,
6309
+ "learning_rate": 1.665823933618566e-07,
6310
+ "loss": 2.6395,
6311
+ "step": 20820
6312
+ },
6313
+ {
6314
+ "epoch": 5.386354826204936,
6315
+ "learning_rate": 1.6654998055231426e-07,
6316
+ "loss": 2.6615,
6317
+ "step": 20840
6318
+ },
6319
+ {
6320
+ "epoch": 5.39152345264246,
6321
+ "learning_rate": 1.6651756774277193e-07,
6322
+ "loss": 2.6915,
6323
+ "step": 20860
6324
+ },
6325
+ {
6326
+ "epoch": 5.396692079079984,
6327
+ "learning_rate": 1.6648515493322961e-07,
6328
+ "loss": 2.6248,
6329
+ "step": 20880
6330
+ },
6331
+ {
6332
+ "epoch": 5.4018607055175085,
6333
+ "learning_rate": 1.6645274212368728e-07,
6334
+ "loss": 2.7061,
6335
+ "step": 20900
6336
+ },
6337
+ {
6338
+ "epoch": 5.407029331955033,
6339
+ "learning_rate": 1.6642032931414494e-07,
6340
+ "loss": 2.642,
6341
+ "step": 20920
6342
+ },
6343
+ {
6344
+ "epoch": 5.412197958392557,
6345
+ "learning_rate": 1.6638791650460263e-07,
6346
+ "loss": 2.6377,
6347
+ "step": 20940
6348
+ },
6349
+ {
6350
+ "epoch": 5.417366584830082,
6351
+ "learning_rate": 1.663555036950603e-07,
6352
+ "loss": 2.6452,
6353
+ "step": 20960
6354
+ },
6355
+ {
6356
+ "epoch": 5.422535211267606,
6357
+ "learning_rate": 1.6632309088551795e-07,
6358
+ "loss": 2.7206,
6359
+ "step": 20980
6360
+ },
6361
+ {
6362
+ "epoch": 5.427703837705129,
6363
+ "learning_rate": 1.662906780759756e-07,
6364
+ "loss": 2.6524,
6365
+ "step": 21000
6366
+ },
6367
+ {
6368
+ "epoch": 5.432872464142654,
6369
+ "learning_rate": 1.662582652664333e-07,
6370
+ "loss": 2.6398,
6371
+ "step": 21020
6372
+ },
6373
+ {
6374
+ "epoch": 5.438041090580178,
6375
+ "learning_rate": 1.6622585245689096e-07,
6376
+ "loss": 2.6486,
6377
+ "step": 21040
6378
+ },
6379
+ {
6380
+ "epoch": 5.4432097170177025,
6381
+ "learning_rate": 1.6619343964734862e-07,
6382
+ "loss": 2.6466,
6383
+ "step": 21060
6384
+ },
6385
+ {
6386
+ "epoch": 5.448378343455227,
6387
+ "learning_rate": 1.6616102683780629e-07,
6388
+ "loss": 2.6818,
6389
+ "step": 21080
6390
+ },
6391
+ {
6392
+ "epoch": 5.453546969892751,
6393
+ "learning_rate": 1.6612861402826397e-07,
6394
+ "loss": 2.6826,
6395
+ "step": 21100
6396
+ },
6397
+ {
6398
+ "epoch": 5.458715596330276,
6399
+ "learning_rate": 1.6609620121872164e-07,
6400
+ "loss": 2.665,
6401
+ "step": 21120
6402
+ },
6403
+ {
6404
+ "epoch": 5.463884222767799,
6405
+ "learning_rate": 1.660637884091793e-07,
6406
+ "loss": 2.6018,
6407
+ "step": 21140
6408
+ },
6409
+ {
6410
+ "epoch": 5.469052849205323,
6411
+ "learning_rate": 1.66031375599637e-07,
6412
+ "loss": 2.6867,
6413
+ "step": 21160
6414
+ },
6415
+ {
6416
+ "epoch": 5.474221475642848,
6417
+ "learning_rate": 1.6599896279009465e-07,
6418
+ "loss": 2.6972,
6419
+ "step": 21180
6420
+ },
6421
+ {
6422
+ "epoch": 5.479390102080372,
6423
+ "learning_rate": 1.659665499805523e-07,
6424
+ "loss": 2.6775,
6425
+ "step": 21200
6426
+ },
6427
+ {
6428
+ "epoch": 5.4845587285178965,
6429
+ "learning_rate": 1.6593413717100997e-07,
6430
+ "loss": 2.7239,
6431
+ "step": 21220
6432
+ },
6433
+ {
6434
+ "epoch": 5.489727354955421,
6435
+ "learning_rate": 1.6590172436146763e-07,
6436
+ "loss": 2.6349,
6437
+ "step": 21240
6438
+ },
6439
+ {
6440
+ "epoch": 5.494895981392945,
6441
+ "learning_rate": 1.6586931155192532e-07,
6442
+ "loss": 2.6607,
6443
+ "step": 21260
6444
+ },
6445
+ {
6446
+ "epoch": 5.500064607830469,
6447
+ "learning_rate": 1.6583689874238298e-07,
6448
+ "loss": 2.6806,
6449
+ "step": 21280
6450
+ },
6451
+ {
6452
+ "epoch": 5.505233234267993,
6453
+ "learning_rate": 1.6580448593284065e-07,
6454
+ "loss": 2.7212,
6455
+ "step": 21300
6456
+ },
6457
+ {
6458
+ "epoch": 5.510401860705517,
6459
+ "learning_rate": 1.6577207312329833e-07,
6460
+ "loss": 2.6997,
6461
+ "step": 21320
6462
+ },
6463
+ {
6464
+ "epoch": 5.515570487143042,
6465
+ "learning_rate": 1.65739660313756e-07,
6466
+ "loss": 2.6277,
6467
+ "step": 21340
6468
+ },
6469
+ {
6470
+ "epoch": 5.520739113580566,
6471
+ "learning_rate": 1.6570724750421366e-07,
6472
+ "loss": 2.6953,
6473
+ "step": 21360
6474
+ },
6475
+ {
6476
+ "epoch": 5.5259077400180905,
6477
+ "learning_rate": 1.6567483469467135e-07,
6478
+ "loss": 2.7586,
6479
+ "step": 21380
6480
+ },
6481
+ {
6482
+ "epoch": 5.531076366455615,
6483
+ "learning_rate": 1.65642421885129e-07,
6484
+ "loss": 2.5887,
6485
+ "step": 21400
6486
+ },
6487
+ {
6488
+ "epoch": 5.536244992893138,
6489
+ "learning_rate": 1.6561000907558667e-07,
6490
+ "loss": 2.6364,
6491
+ "step": 21420
6492
+ },
6493
+ {
6494
+ "epoch": 5.541413619330663,
6495
+ "learning_rate": 1.6557759626604433e-07,
6496
+ "loss": 2.5951,
6497
+ "step": 21440
6498
+ },
6499
+ {
6500
+ "epoch": 5.546582245768187,
6501
+ "learning_rate": 1.65545183456502e-07,
6502
+ "loss": 2.6595,
6503
+ "step": 21460
6504
+ },
6505
+ {
6506
+ "epoch": 5.551750872205711,
6507
+ "learning_rate": 1.6551277064695968e-07,
6508
+ "loss": 2.602,
6509
+ "step": 21480
6510
+ },
6511
+ {
6512
+ "epoch": 5.556919498643236,
6513
+ "learning_rate": 1.6548035783741734e-07,
6514
+ "loss": 2.5996,
6515
+ "step": 21500
6516
+ },
6517
+ {
6518
+ "epoch": 5.56208812508076,
6519
+ "learning_rate": 1.65447945027875e-07,
6520
+ "loss": 2.6529,
6521
+ "step": 21520
6522
+ },
6523
+ {
6524
+ "epoch": 5.5672567515182845,
6525
+ "learning_rate": 1.654155322183327e-07,
6526
+ "loss": 2.6917,
6527
+ "step": 21540
6528
+ },
6529
+ {
6530
+ "epoch": 5.572425377955808,
6531
+ "learning_rate": 1.6538311940879036e-07,
6532
+ "loss": 2.6509,
6533
+ "step": 21560
6534
+ },
6535
+ {
6536
+ "epoch": 5.577594004393332,
6537
+ "learning_rate": 1.6535070659924802e-07,
6538
+ "loss": 2.6524,
6539
+ "step": 21580
6540
+ },
6541
+ {
6542
+ "epoch": 5.582762630830857,
6543
+ "learning_rate": 1.6531829378970568e-07,
6544
+ "loss": 2.6894,
6545
+ "step": 21600
6546
+ },
6547
+ {
6548
+ "epoch": 5.587931257268381,
6549
+ "learning_rate": 1.6528588098016334e-07,
6550
+ "loss": 2.6451,
6551
+ "step": 21620
6552
+ },
6553
+ {
6554
+ "epoch": 5.593099883705905,
6555
+ "learning_rate": 1.6525346817062103e-07,
6556
+ "loss": 2.6636,
6557
+ "step": 21640
6558
+ },
6559
+ {
6560
+ "epoch": 5.59826851014343,
6561
+ "learning_rate": 1.652210553610787e-07,
6562
+ "loss": 2.6696,
6563
+ "step": 21660
6564
+ },
6565
+ {
6566
+ "epoch": 5.603437136580954,
6567
+ "learning_rate": 1.6518864255153635e-07,
6568
+ "loss": 2.6577,
6569
+ "step": 21680
6570
+ },
6571
+ {
6572
+ "epoch": 5.608605763018478,
6573
+ "learning_rate": 1.6515622974199404e-07,
6574
+ "loss": 2.5968,
6575
+ "step": 21700
6576
+ },
6577
+ {
6578
+ "epoch": 5.613774389456002,
6579
+ "learning_rate": 1.651238169324517e-07,
6580
+ "loss": 2.6492,
6581
+ "step": 21720
6582
+ },
6583
+ {
6584
+ "epoch": 5.618943015893526,
6585
+ "learning_rate": 1.6509140412290937e-07,
6586
+ "loss": 2.6357,
6587
+ "step": 21740
6588
+ },
6589
+ {
6590
+ "epoch": 5.624111642331051,
6591
+ "learning_rate": 1.6505899131336705e-07,
6592
+ "loss": 2.6401,
6593
+ "step": 21760
6594
+ },
6595
+ {
6596
+ "epoch": 5.629280268768575,
6597
+ "learning_rate": 1.650265785038247e-07,
6598
+ "loss": 2.5984,
6599
+ "step": 21780
6600
+ },
6601
+ {
6602
+ "epoch": 5.6344488952060985,
6603
+ "learning_rate": 1.6499416569428238e-07,
6604
+ "loss": 2.6678,
6605
+ "step": 21800
6606
+ },
6607
+ {
6608
+ "epoch": 5.639617521643623,
6609
+ "learning_rate": 1.6496175288474004e-07,
6610
+ "loss": 2.6161,
6611
+ "step": 21820
6612
+ },
6613
+ {
6614
+ "epoch": 5.644786148081147,
6615
+ "learning_rate": 1.649293400751977e-07,
6616
+ "loss": 2.6262,
6617
+ "step": 21840
6618
+ },
6619
+ {
6620
+ "epoch": 5.649954774518672,
6621
+ "learning_rate": 1.648969272656554e-07,
6622
+ "loss": 2.6514,
6623
+ "step": 21860
6624
+ },
6625
+ {
6626
+ "epoch": 5.655123400956196,
6627
+ "learning_rate": 1.6486451445611305e-07,
6628
+ "loss": 2.6629,
6629
+ "step": 21880
6630
+ },
6631
+ {
6632
+ "epoch": 5.66029202739372,
6633
+ "learning_rate": 1.6483210164657071e-07,
6634
+ "loss": 2.6764,
6635
+ "step": 21900
6636
+ },
6637
+ {
6638
+ "epoch": 5.665460653831245,
6639
+ "learning_rate": 1.647996888370284e-07,
6640
+ "loss": 2.6414,
6641
+ "step": 21920
6642
+ },
6643
+ {
6644
+ "epoch": 5.670629280268768,
6645
+ "learning_rate": 1.6476727602748604e-07,
6646
+ "loss": 2.5379,
6647
+ "step": 21940
6648
+ },
6649
+ {
6650
+ "epoch": 5.6757979067062925,
6651
+ "learning_rate": 1.6473486321794373e-07,
6652
+ "loss": 2.6744,
6653
+ "step": 21960
6654
+ },
6655
+ {
6656
+ "epoch": 5.680966533143817,
6657
+ "learning_rate": 1.647024504084014e-07,
6658
+ "loss": 2.7254,
6659
+ "step": 21980
6660
+ },
6661
+ {
6662
+ "epoch": 5.686135159581341,
6663
+ "learning_rate": 1.6467003759885905e-07,
6664
+ "loss": 2.6408,
6665
+ "step": 22000
6666
+ },
6667
+ {
6668
+ "epoch": 5.6913037860188656,
6669
+ "learning_rate": 1.6463762478931674e-07,
6670
+ "loss": 2.6751,
6671
+ "step": 22020
6672
+ },
6673
+ {
6674
+ "epoch": 5.69647241245639,
6675
+ "learning_rate": 1.646052119797744e-07,
6676
+ "loss": 2.6391,
6677
+ "step": 22040
6678
+ },
6679
+ {
6680
+ "epoch": 5.701641038893914,
6681
+ "learning_rate": 1.6457279917023206e-07,
6682
+ "loss": 2.625,
6683
+ "step": 22060
6684
+ },
6685
+ {
6686
+ "epoch": 5.706809665331438,
6687
+ "learning_rate": 1.6454038636068975e-07,
6688
+ "loss": 2.607,
6689
+ "step": 22080
6690
+ },
6691
+ {
6692
+ "epoch": 5.711978291768962,
6693
+ "learning_rate": 1.6450797355114739e-07,
6694
+ "loss": 2.6629,
6695
+ "step": 22100
6696
+ },
6697
+ {
6698
+ "epoch": 5.7171469182064865,
6699
+ "learning_rate": 1.6447556074160507e-07,
6700
+ "loss": 2.6358,
6701
+ "step": 22120
6702
+ },
6703
+ {
6704
+ "epoch": 5.722315544644011,
6705
+ "learning_rate": 1.6444314793206274e-07,
6706
+ "loss": 2.6962,
6707
+ "step": 22140
6708
+ },
6709
+ {
6710
+ "epoch": 5.727484171081535,
6711
+ "learning_rate": 1.644107351225204e-07,
6712
+ "loss": 2.6403,
6713
+ "step": 22160
6714
+ },
6715
+ {
6716
+ "epoch": 5.7326527975190595,
6717
+ "learning_rate": 1.6437832231297809e-07,
6718
+ "loss": 2.641,
6719
+ "step": 22180
6720
+ },
6721
+ {
6722
+ "epoch": 5.737821423956584,
6723
+ "learning_rate": 1.6434590950343575e-07,
6724
+ "loss": 2.6213,
6725
+ "step": 22200
6726
+ },
6727
+ {
6728
+ "epoch": 5.742990050394107,
6729
+ "learning_rate": 1.643134966938934e-07,
6730
+ "loss": 2.6508,
6731
+ "step": 22220
6732
+ },
6733
+ {
6734
+ "epoch": 5.748158676831632,
6735
+ "learning_rate": 1.642810838843511e-07,
6736
+ "loss": 2.6528,
6737
+ "step": 22240
6738
+ },
6739
+ {
6740
+ "epoch": 5.753327303269156,
6741
+ "learning_rate": 1.6424867107480873e-07,
6742
+ "loss": 2.5921,
6743
+ "step": 22260
6744
+ },
6745
+ {
6746
+ "epoch": 5.7584959297066804,
6747
+ "learning_rate": 1.6421625826526642e-07,
6748
+ "loss": 2.6379,
6749
+ "step": 22280
6750
+ },
6751
+ {
6752
+ "epoch": 5.763664556144205,
6753
+ "learning_rate": 1.641838454557241e-07,
6754
+ "loss": 2.6838,
6755
+ "step": 22300
6756
+ },
6757
+ {
6758
+ "epoch": 5.768833182581729,
6759
+ "learning_rate": 1.6415143264618175e-07,
6760
+ "loss": 2.6511,
6761
+ "step": 22320
6762
+ },
6763
+ {
6764
+ "epoch": 5.7740018090192535,
6765
+ "learning_rate": 1.6411901983663943e-07,
6766
+ "loss": 2.6547,
6767
+ "step": 22340
6768
+ },
6769
+ {
6770
+ "epoch": 5.779170435456777,
6771
+ "learning_rate": 1.640866070270971e-07,
6772
+ "loss": 2.5962,
6773
+ "step": 22360
6774
+ },
6775
+ {
6776
+ "epoch": 5.784339061894301,
6777
+ "learning_rate": 1.6405419421755476e-07,
6778
+ "loss": 2.6074,
6779
+ "step": 22380
6780
+ },
6781
+ {
6782
+ "epoch": 5.789507688331826,
6783
+ "learning_rate": 1.6402178140801245e-07,
6784
+ "loss": 2.5927,
6785
+ "step": 22400
6786
+ },
6787
+ {
6788
+ "epoch": 5.79467631476935,
6789
+ "learning_rate": 1.6398936859847008e-07,
6790
+ "loss": 2.6697,
6791
+ "step": 22420
6792
+ },
6793
+ {
6794
+ "epoch": 5.799844941206874,
6795
+ "learning_rate": 1.6395695578892777e-07,
6796
+ "loss": 2.6267,
6797
+ "step": 22440
6798
+ },
6799
+ {
6800
+ "epoch": 5.805013567644399,
6801
+ "learning_rate": 1.6392454297938546e-07,
6802
+ "loss": 2.6833,
6803
+ "step": 22460
6804
+ },
6805
+ {
6806
+ "epoch": 5.810182194081923,
6807
+ "learning_rate": 1.638921301698431e-07,
6808
+ "loss": 2.6647,
6809
+ "step": 22480
6810
+ },
6811
+ {
6812
+ "epoch": 5.815350820519447,
6813
+ "learning_rate": 1.6385971736030078e-07,
6814
+ "loss": 2.6619,
6815
+ "step": 22500
6816
+ },
6817
+ {
6818
+ "epoch": 5.820519446956971,
6819
+ "learning_rate": 1.6382730455075847e-07,
6820
+ "loss": 2.6341,
6821
+ "step": 22520
6822
+ },
6823
+ {
6824
+ "epoch": 5.825688073394495,
6825
+ "learning_rate": 1.637948917412161e-07,
6826
+ "loss": 2.604,
6827
+ "step": 22540
6828
+ },
6829
+ {
6830
+ "epoch": 5.83085669983202,
6831
+ "learning_rate": 1.637624789316738e-07,
6832
+ "loss": 2.6344,
6833
+ "step": 22560
6834
+ },
6835
+ {
6836
+ "epoch": 5.836025326269544,
6837
+ "learning_rate": 1.6373006612213146e-07,
6838
+ "loss": 2.6453,
6839
+ "step": 22580
6840
+ },
6841
+ {
6842
+ "epoch": 5.841193952707068,
6843
+ "learning_rate": 1.6369765331258912e-07,
6844
+ "loss": 2.6433,
6845
+ "step": 22600
6846
+ },
6847
+ {
6848
+ "epoch": 5.846362579144593,
6849
+ "learning_rate": 1.636652405030468e-07,
6850
+ "loss": 2.5673,
6851
+ "step": 22620
6852
+ },
6853
+ {
6854
+ "epoch": 5.851531205582116,
6855
+ "learning_rate": 1.6363282769350444e-07,
6856
+ "loss": 2.6455,
6857
+ "step": 22640
6858
+ },
6859
+ {
6860
+ "epoch": 5.856699832019641,
6861
+ "learning_rate": 1.6360041488396213e-07,
6862
+ "loss": 2.6617,
6863
+ "step": 22660
6864
+ },
6865
+ {
6866
+ "epoch": 5.861868458457165,
6867
+ "learning_rate": 1.6356800207441982e-07,
6868
+ "loss": 2.6395,
6869
+ "step": 22680
6870
+ },
6871
+ {
6872
+ "epoch": 5.867037084894689,
6873
+ "learning_rate": 1.6353558926487745e-07,
6874
+ "loss": 2.6358,
6875
+ "step": 22700
6876
+ },
6877
+ {
6878
+ "epoch": 5.872205711332214,
6879
+ "learning_rate": 1.6350317645533514e-07,
6880
+ "loss": 2.618,
6881
+ "step": 22720
6882
+ },
6883
+ {
6884
+ "epoch": 5.877374337769738,
6885
+ "learning_rate": 1.634707636457928e-07,
6886
+ "loss": 2.6219,
6887
+ "step": 22740
6888
+ },
6889
+ {
6890
+ "epoch": 5.882542964207262,
6891
+ "learning_rate": 1.6343835083625047e-07,
6892
+ "loss": 2.6028,
6893
+ "step": 22760
6894
+ },
6895
+ {
6896
+ "epoch": 5.887711590644786,
6897
+ "learning_rate": 1.6340593802670815e-07,
6898
+ "loss": 2.599,
6899
+ "step": 22780
6900
+ },
6901
+ {
6902
+ "epoch": 5.89288021708231,
6903
+ "learning_rate": 1.633735252171658e-07,
6904
+ "loss": 2.6062,
6905
+ "step": 22800
6906
+ },
6907
+ {
6908
+ "epoch": 5.898048843519835,
6909
+ "learning_rate": 1.6334111240762348e-07,
6910
+ "loss": 2.5854,
6911
+ "step": 22820
6912
+ },
6913
+ {
6914
+ "epoch": 5.903217469957359,
6915
+ "learning_rate": 1.6330869959808117e-07,
6916
+ "loss": 2.5416,
6917
+ "step": 22840
6918
+ },
6919
+ {
6920
+ "epoch": 5.908386096394883,
6921
+ "learning_rate": 1.632762867885388e-07,
6922
+ "loss": 2.6731,
6923
+ "step": 22860
6924
+ },
6925
+ {
6926
+ "epoch": 5.913554722832407,
6927
+ "learning_rate": 1.632438739789965e-07,
6928
+ "loss": 2.6271,
6929
+ "step": 22880
6930
+ },
6931
+ {
6932
+ "epoch": 5.918723349269931,
6933
+ "learning_rate": 1.6321146116945418e-07,
6934
+ "loss": 2.5896,
6935
+ "step": 22900
6936
+ },
6937
+ {
6938
+ "epoch": 5.9238919757074555,
6939
+ "learning_rate": 1.6317904835991181e-07,
6940
+ "loss": 2.6794,
6941
+ "step": 22920
6942
+ },
6943
+ {
6944
+ "epoch": 5.92906060214498,
6945
+ "learning_rate": 1.631466355503695e-07,
6946
+ "loss": 2.6051,
6947
+ "step": 22940
6948
+ },
6949
+ {
6950
+ "epoch": 5.934229228582504,
6951
+ "learning_rate": 1.6311422274082716e-07,
6952
+ "loss": 2.6901,
6953
+ "step": 22960
6954
+ },
6955
+ {
6956
+ "epoch": 5.939397855020029,
6957
+ "learning_rate": 1.6308180993128483e-07,
6958
+ "loss": 2.6288,
6959
+ "step": 22980
6960
+ },
6961
+ {
6962
+ "epoch": 5.944566481457553,
6963
+ "learning_rate": 1.6304939712174251e-07,
6964
+ "loss": 2.6806,
6965
+ "step": 23000
6966
+ },
6967
+ {
6968
+ "epoch": 5.949735107895076,
6969
+ "learning_rate": 1.6301698431220015e-07,
6970
+ "loss": 2.6003,
6971
+ "step": 23020
6972
+ },
6973
+ {
6974
+ "epoch": 5.954903734332601,
6975
+ "learning_rate": 1.6298457150265784e-07,
6976
+ "loss": 2.6595,
6977
+ "step": 23040
6978
+ },
6979
+ {
6980
+ "epoch": 5.960072360770125,
6981
+ "learning_rate": 1.6295215869311553e-07,
6982
+ "loss": 2.6563,
6983
+ "step": 23060
6984
+ },
6985
+ {
6986
+ "epoch": 5.9652409872076495,
6987
+ "learning_rate": 1.6291974588357316e-07,
6988
+ "loss": 2.6499,
6989
+ "step": 23080
6990
+ },
6991
+ {
6992
+ "epoch": 5.970409613645174,
6993
+ "learning_rate": 1.6288733307403085e-07,
6994
+ "loss": 2.6836,
6995
+ "step": 23100
6996
+ },
6997
+ {
6998
+ "epoch": 5.975578240082698,
6999
+ "learning_rate": 1.6285492026448854e-07,
7000
+ "loss": 2.6193,
7001
+ "step": 23120
7002
+ },
7003
+ {
7004
+ "epoch": 5.980746866520223,
7005
+ "learning_rate": 1.6282250745494617e-07,
7006
+ "loss": 2.6293,
7007
+ "step": 23140
7008
+ },
7009
+ {
7010
+ "epoch": 5.985915492957746,
7011
+ "learning_rate": 1.6279009464540386e-07,
7012
+ "loss": 2.7275,
7013
+ "step": 23160
7014
+ },
7015
+ {
7016
+ "epoch": 5.99108411939527,
7017
+ "learning_rate": 1.6275768183586152e-07,
7018
+ "loss": 2.6021,
7019
+ "step": 23180
7020
+ },
7021
+ {
7022
+ "epoch": 5.996252745832795,
7023
+ "learning_rate": 1.6272526902631919e-07,
7024
+ "loss": 2.6331,
7025
+ "step": 23200
7026
+ },
7027
+ {
7028
+ "epoch": 5.999870784339062,
7029
+ "eval_bleu": 1.6991,
7030
+ "eval_gen_len": 66.9245,
7031
+ "eval_loss": 2.596095085144043,
7032
+ "eval_runtime": 1347.5897,
7033
+ "eval_samples_per_second": 1.278,
7034
+ "eval_steps_per_second": 0.639,
7035
+ "step": 23214
7036
+ },
7037
+ {
7038
+ "epoch": 6.001421372270319,
7039
+ "learning_rate": 1.6269285621677687e-07,
7040
+ "loss": 2.6423,
7041
+ "step": 23220
7042
+ },
7043
+ {
7044
+ "epoch": 6.0065899987078435,
7045
+ "learning_rate": 1.626604434072345e-07,
7046
+ "loss": 2.667,
7047
+ "step": 23240
7048
+ },
7049
+ {
7050
+ "epoch": 6.011758625145368,
7051
+ "learning_rate": 1.626280305976922e-07,
7052
+ "loss": 2.6741,
7053
+ "step": 23260
7054
+ },
7055
+ {
7056
+ "epoch": 6.016927251582892,
7057
+ "learning_rate": 1.6259561778814989e-07,
7058
+ "loss": 2.6269,
7059
+ "step": 23280
7060
+ },
7061
+ {
7062
+ "epoch": 6.022095878020416,
7063
+ "learning_rate": 1.6256320497860752e-07,
7064
+ "loss": 2.6817,
7065
+ "step": 23300
7066
+ },
7067
+ {
7068
+ "epoch": 6.02726450445794,
7069
+ "learning_rate": 1.625307921690652e-07,
7070
+ "loss": 2.6804,
7071
+ "step": 23320
7072
+ },
7073
+ {
7074
+ "epoch": 6.032433130895464,
7075
+ "learning_rate": 1.6249837935952287e-07,
7076
+ "loss": 2.6283,
7077
+ "step": 23340
7078
+ },
7079
+ {
7080
+ "epoch": 6.037601757332989,
7081
+ "learning_rate": 1.6246596654998053e-07,
7082
+ "loss": 2.6344,
7083
+ "step": 23360
7084
+ },
7085
+ {
7086
+ "epoch": 6.042770383770513,
7087
+ "learning_rate": 1.6243355374043822e-07,
7088
+ "loss": 2.6453,
7089
+ "step": 23380
7090
+ },
7091
+ {
7092
+ "epoch": 6.0479390102080375,
7093
+ "learning_rate": 1.6240114093089586e-07,
7094
+ "loss": 2.5926,
7095
+ "step": 23400
7096
+ },
7097
+ {
7098
+ "epoch": 6.053107636645562,
7099
+ "learning_rate": 1.6236872812135355e-07,
7100
+ "loss": 2.6709,
7101
+ "step": 23420
7102
+ },
7103
+ {
7104
+ "epoch": 6.058276263083085,
7105
+ "learning_rate": 1.6233631531181123e-07,
7106
+ "loss": 2.6228,
7107
+ "step": 23440
7108
+ },
7109
+ {
7110
+ "epoch": 6.06344488952061,
7111
+ "learning_rate": 1.6230390250226887e-07,
7112
+ "loss": 2.6006,
7113
+ "step": 23460
7114
+ },
7115
+ {
7116
+ "epoch": 6.068613515958134,
7117
+ "learning_rate": 1.6227148969272656e-07,
7118
+ "loss": 2.6179,
7119
+ "step": 23480
7120
+ },
7121
+ {
7122
+ "epoch": 6.073782142395658,
7123
+ "learning_rate": 1.6223907688318425e-07,
7124
+ "loss": 2.63,
7125
+ "step": 23500
7126
+ },
7127
+ {
7128
+ "epoch": 6.078950768833183,
7129
+ "learning_rate": 1.6220666407364188e-07,
7130
+ "loss": 2.653,
7131
+ "step": 23520
7132
+ },
7133
+ {
7134
+ "epoch": 6.084119395270707,
7135
+ "learning_rate": 1.6217425126409957e-07,
7136
+ "loss": 2.6129,
7137
+ "step": 23540
7138
+ },
7139
+ {
7140
+ "epoch": 6.0892880217082315,
7141
+ "learning_rate": 1.6214183845455723e-07,
7142
+ "loss": 2.6008,
7143
+ "step": 23560
7144
+ },
7145
+ {
7146
+ "epoch": 6.094456648145755,
7147
+ "learning_rate": 1.621094256450149e-07,
7148
+ "loss": 2.6594,
7149
+ "step": 23580
7150
+ },
7151
+ {
7152
+ "epoch": 6.099625274583279,
7153
+ "learning_rate": 1.6207701283547258e-07,
7154
+ "loss": 2.617,
7155
+ "step": 23600
7156
+ },
7157
+ {
7158
+ "epoch": 6.104793901020804,
7159
+ "learning_rate": 1.6204460002593022e-07,
7160
+ "loss": 2.6392,
7161
+ "step": 23620
7162
+ },
7163
+ {
7164
+ "epoch": 6.109962527458328,
7165
+ "learning_rate": 1.620121872163879e-07,
7166
+ "loss": 2.6315,
7167
+ "step": 23640
7168
+ },
7169
+ {
7170
+ "epoch": 6.115131153895852,
7171
+ "learning_rate": 1.619797744068456e-07,
7172
+ "loss": 2.6131,
7173
+ "step": 23660
7174
+ },
7175
+ {
7176
+ "epoch": 6.120299780333377,
7177
+ "learning_rate": 1.6194736159730323e-07,
7178
+ "loss": 2.6512,
7179
+ "step": 23680
7180
+ },
7181
+ {
7182
+ "epoch": 6.1254684067709,
7183
+ "learning_rate": 1.6191494878776092e-07,
7184
+ "loss": 2.6196,
7185
+ "step": 23700
7186
+ },
7187
+ {
7188
+ "epoch": 6.130637033208425,
7189
+ "learning_rate": 1.618825359782186e-07,
7190
+ "loss": 2.6234,
7191
+ "step": 23720
7192
+ },
7193
+ {
7194
+ "epoch": 6.135805659645949,
7195
+ "learning_rate": 1.6185012316867624e-07,
7196
+ "loss": 2.5817,
7197
+ "step": 23740
7198
+ },
7199
+ {
7200
+ "epoch": 6.140974286083473,
7201
+ "learning_rate": 1.6181771035913393e-07,
7202
+ "loss": 2.5873,
7203
+ "step": 23760
7204
+ },
7205
+ {
7206
+ "epoch": 6.146142912520998,
7207
+ "learning_rate": 1.617852975495916e-07,
7208
+ "loss": 2.5957,
7209
+ "step": 23780
7210
+ },
7211
+ {
7212
+ "epoch": 6.151311538958522,
7213
+ "learning_rate": 1.6175288474004925e-07,
7214
+ "loss": 2.613,
7215
+ "step": 23800
7216
+ },
7217
+ {
7218
+ "epoch": 6.156480165396046,
7219
+ "learning_rate": 1.6172047193050694e-07,
7220
+ "loss": 2.5577,
7221
+ "step": 23820
7222
+ },
7223
+ {
7224
+ "epoch": 6.16164879183357,
7225
+ "learning_rate": 1.6168805912096458e-07,
7226
+ "loss": 2.6101,
7227
+ "step": 23840
7228
+ },
7229
+ {
7230
+ "epoch": 6.166817418271094,
7231
+ "learning_rate": 1.6165564631142227e-07,
7232
+ "loss": 2.5553,
7233
+ "step": 23860
7234
+ },
7235
+ {
7236
+ "epoch": 6.171986044708619,
7237
+ "learning_rate": 1.6162323350187995e-07,
7238
+ "loss": 2.6326,
7239
+ "step": 23880
7240
+ },
7241
+ {
7242
+ "epoch": 6.177154671146143,
7243
+ "learning_rate": 1.615908206923376e-07,
7244
+ "loss": 2.5922,
7245
+ "step": 23900
7246
+ },
7247
+ {
7248
+ "epoch": 6.182323297583667,
7249
+ "learning_rate": 1.6155840788279528e-07,
7250
+ "loss": 2.5913,
7251
+ "step": 23920
7252
+ },
7253
+ {
7254
+ "epoch": 6.187491924021192,
7255
+ "learning_rate": 1.6152599507325294e-07,
7256
+ "loss": 2.6378,
7257
+ "step": 23940
7258
+ },
7259
+ {
7260
+ "epoch": 6.192660550458716,
7261
+ "learning_rate": 1.614935822637106e-07,
7262
+ "loss": 2.5969,
7263
+ "step": 23960
7264
+ },
7265
+ {
7266
+ "epoch": 6.1978291768962395,
7267
+ "learning_rate": 1.614611694541683e-07,
7268
+ "loss": 2.5971,
7269
+ "step": 23980
7270
+ },
7271
+ {
7272
+ "epoch": 6.202997803333764,
7273
+ "learning_rate": 1.6142875664462593e-07,
7274
+ "loss": 2.616,
7275
+ "step": 24000
7276
+ },
7277
+ {
7278
+ "epoch": 6.208166429771288,
7279
+ "learning_rate": 1.6139634383508361e-07,
7280
+ "loss": 2.6352,
7281
+ "step": 24020
7282
+ },
7283
+ {
7284
+ "epoch": 6.2133350562088125,
7285
+ "learning_rate": 1.613639310255413e-07,
7286
+ "loss": 2.6371,
7287
+ "step": 24040
7288
+ },
7289
+ {
7290
+ "epoch": 6.218503682646337,
7291
+ "learning_rate": 1.6133151821599894e-07,
7292
+ "loss": 2.5946,
7293
+ "step": 24060
7294
+ },
7295
+ {
7296
+ "epoch": 6.223672309083861,
7297
+ "learning_rate": 1.6129910540645663e-07,
7298
+ "loss": 2.6379,
7299
+ "step": 24080
7300
+ },
7301
+ {
7302
+ "epoch": 6.228840935521385,
7303
+ "learning_rate": 1.6126669259691431e-07,
7304
+ "loss": 2.6046,
7305
+ "step": 24100
7306
+ },
7307
+ {
7308
+ "epoch": 6.234009561958909,
7309
+ "learning_rate": 1.6123427978737195e-07,
7310
+ "loss": 2.653,
7311
+ "step": 24120
7312
+ },
7313
+ {
7314
+ "epoch": 6.2391781883964335,
7315
+ "learning_rate": 1.6120186697782964e-07,
7316
+ "loss": 2.6409,
7317
+ "step": 24140
7318
+ },
7319
+ {
7320
+ "epoch": 6.244346814833958,
7321
+ "learning_rate": 1.611694541682873e-07,
7322
+ "loss": 2.6077,
7323
+ "step": 24160
7324
+ },
7325
+ {
7326
+ "epoch": 6.249515441271482,
7327
+ "learning_rate": 1.6113704135874496e-07,
7328
+ "loss": 2.5993,
7329
+ "step": 24180
7330
+ },
7331
+ {
7332
+ "epoch": 6.2546840677090065,
7333
+ "learning_rate": 1.6110462854920265e-07,
7334
+ "loss": 2.6326,
7335
+ "step": 24200
7336
+ },
7337
+ {
7338
+ "epoch": 6.259852694146531,
7339
+ "learning_rate": 1.6107221573966029e-07,
7340
+ "loss": 2.612,
7341
+ "step": 24220
7342
+ },
7343
+ {
7344
+ "epoch": 6.265021320584054,
7345
+ "learning_rate": 1.6103980293011797e-07,
7346
+ "loss": 2.662,
7347
+ "step": 24240
7348
+ },
7349
+ {
7350
+ "epoch": 6.270189947021579,
7351
+ "learning_rate": 1.6100739012057566e-07,
7352
+ "loss": 2.6377,
7353
+ "step": 24260
7354
+ },
7355
+ {
7356
+ "epoch": 6.275358573459103,
7357
+ "learning_rate": 1.609749773110333e-07,
7358
+ "loss": 2.6113,
7359
+ "step": 24280
7360
+ },
7361
+ {
7362
+ "epoch": 6.280527199896627,
7363
+ "learning_rate": 1.6094256450149099e-07,
7364
+ "loss": 2.6094,
7365
+ "step": 24300
7366
+ },
7367
+ {
7368
+ "epoch": 6.285695826334152,
7369
+ "learning_rate": 1.6091015169194867e-07,
7370
+ "loss": 2.6185,
7371
+ "step": 24320
7372
+ },
7373
+ {
7374
+ "epoch": 6.290864452771676,
7375
+ "learning_rate": 1.608777388824063e-07,
7376
+ "loss": 2.6523,
7377
+ "step": 24340
7378
+ },
7379
+ {
7380
+ "epoch": 6.2960330792092005,
7381
+ "learning_rate": 1.60845326072864e-07,
7382
+ "loss": 2.6458,
7383
+ "step": 24360
7384
+ },
7385
+ {
7386
+ "epoch": 6.301201705646724,
7387
+ "learning_rate": 1.6081291326332166e-07,
7388
+ "loss": 2.5826,
7389
+ "step": 24380
7390
+ },
7391
+ {
7392
+ "epoch": 6.306370332084248,
7393
+ "learning_rate": 1.6078050045377932e-07,
7394
+ "loss": 2.6395,
7395
+ "step": 24400
7396
+ },
7397
+ {
7398
+ "epoch": 6.311538958521773,
7399
+ "learning_rate": 1.60748087644237e-07,
7400
+ "loss": 2.6305,
7401
+ "step": 24420
7402
+ },
7403
+ {
7404
+ "epoch": 6.316707584959297,
7405
+ "learning_rate": 1.6071567483469465e-07,
7406
+ "loss": 2.6493,
7407
+ "step": 24440
7408
+ },
7409
+ {
7410
+ "epoch": 6.321876211396821,
7411
+ "learning_rate": 1.6068326202515233e-07,
7412
+ "loss": 2.6198,
7413
+ "step": 24460
7414
+ },
7415
+ {
7416
+ "epoch": 6.327044837834346,
7417
+ "learning_rate": 1.6065084921561002e-07,
7418
+ "loss": 2.5705,
7419
+ "step": 24480
7420
+ },
7421
+ {
7422
+ "epoch": 6.33221346427187,
7423
+ "learning_rate": 1.6061843640606766e-07,
7424
+ "loss": 2.5797,
7425
+ "step": 24500
7426
+ },
7427
+ {
7428
+ "epoch": 6.337382090709394,
7429
+ "learning_rate": 1.6058602359652535e-07,
7430
+ "loss": 2.6152,
7431
+ "step": 24520
7432
+ },
7433
+ {
7434
+ "epoch": 6.342550717146918,
7435
+ "learning_rate": 1.60553610786983e-07,
7436
+ "loss": 2.6075,
7437
+ "step": 24540
7438
+ },
7439
+ {
7440
+ "epoch": 6.347719343584442,
7441
+ "learning_rate": 1.6052119797744067e-07,
7442
+ "loss": 2.6446,
7443
+ "step": 24560
7444
+ },
7445
+ {
7446
+ "epoch": 6.352887970021967,
7447
+ "learning_rate": 1.6048878516789836e-07,
7448
+ "loss": 2.6204,
7449
+ "step": 24580
7450
+ },
7451
+ {
7452
+ "epoch": 6.358056596459491,
7453
+ "learning_rate": 1.60456372358356e-07,
7454
+ "loss": 2.6079,
7455
+ "step": 24600
7456
+ },
7457
+ {
7458
+ "epoch": 6.363225222897015,
7459
+ "learning_rate": 1.6042395954881368e-07,
7460
+ "loss": 2.59,
7461
+ "step": 24620
7462
+ },
7463
+ {
7464
+ "epoch": 6.36839384933454,
7465
+ "learning_rate": 1.6039154673927137e-07,
7466
+ "loss": 2.6417,
7467
+ "step": 24640
7468
+ },
7469
+ {
7470
+ "epoch": 6.373562475772063,
7471
+ "learning_rate": 1.60359133929729e-07,
7472
+ "loss": 2.6426,
7473
+ "step": 24660
7474
+ },
7475
+ {
7476
+ "epoch": 6.378731102209588,
7477
+ "learning_rate": 1.603267211201867e-07,
7478
+ "loss": 2.6004,
7479
+ "step": 24680
7480
+ },
7481
+ {
7482
+ "epoch": 6.383899728647112,
7483
+ "learning_rate": 1.6029430831064438e-07,
7484
+ "loss": 2.6422,
7485
+ "step": 24700
7486
+ },
7487
+ {
7488
+ "epoch": 6.389068355084636,
7489
+ "learning_rate": 1.6026189550110202e-07,
7490
+ "loss": 2.595,
7491
+ "step": 24720
7492
+ },
7493
+ {
7494
+ "epoch": 6.394236981522161,
7495
+ "learning_rate": 1.602294826915597e-07,
7496
+ "loss": 2.6091,
7497
+ "step": 24740
7498
+ },
7499
+ {
7500
+ "epoch": 6.399405607959685,
7501
+ "learning_rate": 1.6019706988201737e-07,
7502
+ "loss": 2.5978,
7503
+ "step": 24760
7504
+ },
7505
+ {
7506
+ "epoch": 6.404574234397209,
7507
+ "learning_rate": 1.6016465707247503e-07,
7508
+ "loss": 2.5525,
7509
+ "step": 24780
7510
+ },
7511
+ {
7512
+ "epoch": 6.409742860834733,
7513
+ "learning_rate": 1.6013224426293272e-07,
7514
+ "loss": 2.6011,
7515
+ "step": 24800
7516
+ },
7517
+ {
7518
+ "epoch": 6.414911487272257,
7519
+ "learning_rate": 1.6009983145339035e-07,
7520
+ "loss": 2.5727,
7521
+ "step": 24820
7522
+ },
7523
+ {
7524
+ "epoch": 6.420080113709782,
7525
+ "learning_rate": 1.6006741864384804e-07,
7526
+ "loss": 2.6214,
7527
+ "step": 24840
7528
+ },
7529
+ {
7530
+ "epoch": 6.425248740147306,
7531
+ "learning_rate": 1.6003500583430573e-07,
7532
+ "loss": 2.6492,
7533
+ "step": 24860
7534
+ },
7535
+ {
7536
+ "epoch": 6.43041736658483,
7537
+ "learning_rate": 1.6000259302476336e-07,
7538
+ "loss": 2.628,
7539
+ "step": 24880
7540
+ },
7541
+ {
7542
+ "epoch": 6.435585993022355,
7543
+ "learning_rate": 1.5997018021522105e-07,
7544
+ "loss": 2.6282,
7545
+ "step": 24900
7546
+ },
7547
+ {
7548
+ "epoch": 6.440754619459878,
7549
+ "learning_rate": 1.5993776740567874e-07,
7550
+ "loss": 2.6483,
7551
+ "step": 24920
7552
+ },
7553
+ {
7554
+ "epoch": 6.4459232458974025,
7555
+ "learning_rate": 1.5990535459613638e-07,
7556
+ "loss": 2.6026,
7557
+ "step": 24940
7558
+ },
7559
+ {
7560
+ "epoch": 6.451091872334927,
7561
+ "learning_rate": 1.5987294178659407e-07,
7562
+ "loss": 2.6324,
7563
+ "step": 24960
7564
+ },
7565
+ {
7566
+ "epoch": 6.456260498772451,
7567
+ "learning_rate": 1.5984052897705173e-07,
7568
+ "loss": 2.5601,
7569
+ "step": 24980
7570
+ },
7571
+ {
7572
+ "epoch": 6.461429125209976,
7573
+ "learning_rate": 1.598081161675094e-07,
7574
+ "loss": 2.6437,
7575
+ "step": 25000
7576
+ },
7577
+ {
7578
+ "epoch": 6.4665977516475,
7579
+ "learning_rate": 1.5977570335796708e-07,
7580
+ "loss": 2.6326,
7581
+ "step": 25020
7582
+ },
7583
+ {
7584
+ "epoch": 6.471766378085024,
7585
+ "learning_rate": 1.597432905484247e-07,
7586
+ "loss": 2.6664,
7587
+ "step": 25040
7588
+ },
7589
+ {
7590
+ "epoch": 6.476935004522548,
7591
+ "learning_rate": 1.597108777388824e-07,
7592
+ "loss": 2.6057,
7593
+ "step": 25060
7594
+ },
7595
+ {
7596
+ "epoch": 6.482103630960072,
7597
+ "learning_rate": 1.596784649293401e-07,
7598
+ "loss": 2.6007,
7599
+ "step": 25080
7600
+ },
7601
+ {
7602
+ "epoch": 6.4872722573975965,
7603
+ "learning_rate": 1.5964605211979772e-07,
7604
+ "loss": 2.5935,
7605
+ "step": 25100
7606
+ },
7607
+ {
7608
+ "epoch": 6.492440883835121,
7609
+ "learning_rate": 1.5961363931025541e-07,
7610
+ "loss": 2.5344,
7611
+ "step": 25120
7612
+ },
7613
+ {
7614
+ "epoch": 6.497609510272645,
7615
+ "learning_rate": 1.5958122650071308e-07,
7616
+ "loss": 2.6249,
7617
+ "step": 25140
7618
+ },
7619
+ {
7620
+ "epoch": 6.50277813671017,
7621
+ "learning_rate": 1.5954881369117074e-07,
7622
+ "loss": 2.5882,
7623
+ "step": 25160
7624
+ },
7625
+ {
7626
+ "epoch": 6.507946763147693,
7627
+ "learning_rate": 1.5951640088162843e-07,
7628
+ "loss": 2.6219,
7629
+ "step": 25180
7630
+ },
7631
+ {
7632
+ "epoch": 6.513115389585217,
7633
+ "learning_rate": 1.5948398807208606e-07,
7634
+ "loss": 2.5838,
7635
+ "step": 25200
7636
+ },
7637
+ {
7638
+ "epoch": 6.518284016022742,
7639
+ "learning_rate": 1.5945157526254375e-07,
7640
+ "loss": 2.5943,
7641
+ "step": 25220
7642
+ },
7643
+ {
7644
+ "epoch": 6.523452642460266,
7645
+ "learning_rate": 1.5941916245300144e-07,
7646
+ "loss": 2.6468,
7647
+ "step": 25240
7648
+ },
7649
+ {
7650
+ "epoch": 6.5286212688977905,
7651
+ "learning_rate": 1.5938674964345907e-07,
7652
+ "loss": 2.6726,
7653
+ "step": 25260
7654
+ },
7655
+ {
7656
+ "epoch": 6.533789895335315,
7657
+ "learning_rate": 1.5935433683391676e-07,
7658
+ "loss": 2.5732,
7659
+ "step": 25280
7660
+ },
7661
+ {
7662
+ "epoch": 6.538958521772839,
7663
+ "learning_rate": 1.5932192402437442e-07,
7664
+ "loss": 2.5739,
7665
+ "step": 25300
7666
+ },
7667
+ {
7668
+ "epoch": 6.544127148210363,
7669
+ "learning_rate": 1.5928951121483208e-07,
7670
+ "loss": 2.5914,
7671
+ "step": 25320
7672
+ },
7673
+ {
7674
+ "epoch": 6.549295774647887,
7675
+ "learning_rate": 1.5925709840528977e-07,
7676
+ "loss": 2.6142,
7677
+ "step": 25340
7678
+ },
7679
+ {
7680
+ "epoch": 6.554464401085411,
7681
+ "learning_rate": 1.5922468559574744e-07,
7682
+ "loss": 2.6145,
7683
+ "step": 25360
7684
+ },
7685
+ {
7686
+ "epoch": 6.559633027522936,
7687
+ "learning_rate": 1.591922727862051e-07,
7688
+ "loss": 2.6449,
7689
+ "step": 25380
7690
+ },
7691
+ {
7692
+ "epoch": 6.56480165396046,
7693
+ "learning_rate": 1.5915985997666279e-07,
7694
+ "loss": 2.586,
7695
+ "step": 25400
7696
+ },
7697
+ {
7698
+ "epoch": 6.5699702803979845,
7699
+ "learning_rate": 1.5912744716712042e-07,
7700
+ "loss": 2.6136,
7701
+ "step": 25420
7702
+ },
7703
+ {
7704
+ "epoch": 6.575138906835509,
7705
+ "learning_rate": 1.590950343575781e-07,
7706
+ "loss": 2.6556,
7707
+ "step": 25440
7708
+ },
7709
+ {
7710
+ "epoch": 6.580307533273032,
7711
+ "learning_rate": 1.5906262154803577e-07,
7712
+ "loss": 2.6557,
7713
+ "step": 25460
7714
+ },
7715
+ {
7716
+ "epoch": 6.585476159710557,
7717
+ "learning_rate": 1.5903020873849343e-07,
7718
+ "loss": 2.5518,
7719
+ "step": 25480
7720
+ },
7721
+ {
7722
+ "epoch": 6.590644786148081,
7723
+ "learning_rate": 1.5899779592895112e-07,
7724
+ "loss": 2.6054,
7725
+ "step": 25500
7726
+ },
7727
+ {
7728
+ "epoch": 6.595813412585605,
7729
+ "learning_rate": 1.5896538311940878e-07,
7730
+ "loss": 2.5766,
7731
+ "step": 25520
7732
+ },
7733
+ {
7734
+ "epoch": 6.60098203902313,
7735
+ "learning_rate": 1.5893297030986644e-07,
7736
+ "loss": 2.5573,
7737
+ "step": 25540
7738
+ },
7739
+ {
7740
+ "epoch": 6.606150665460654,
7741
+ "learning_rate": 1.5890055750032413e-07,
7742
+ "loss": 2.6429,
7743
+ "step": 25560
7744
+ },
7745
+ {
7746
+ "epoch": 6.6113192918981785,
7747
+ "learning_rate": 1.588681446907818e-07,
7748
+ "loss": 2.6795,
7749
+ "step": 25580
7750
+ },
7751
+ {
7752
+ "epoch": 6.616487918335702,
7753
+ "learning_rate": 1.5883573188123946e-07,
7754
+ "loss": 2.6573,
7755
+ "step": 25600
7756
+ },
7757
+ {
7758
+ "epoch": 6.621656544773226,
7759
+ "learning_rate": 1.5880331907169712e-07,
7760
+ "loss": 2.5762,
7761
+ "step": 25620
7762
+ },
7763
+ {
7764
+ "epoch": 6.626825171210751,
7765
+ "learning_rate": 1.5877090626215478e-07,
7766
+ "loss": 2.6336,
7767
+ "step": 25640
7768
+ },
7769
+ {
7770
+ "epoch": 6.631993797648275,
7771
+ "learning_rate": 1.5873849345261247e-07,
7772
+ "loss": 2.5999,
7773
+ "step": 25660
7774
+ },
7775
+ {
7776
+ "epoch": 6.637162424085799,
7777
+ "learning_rate": 1.5870608064307013e-07,
7778
+ "loss": 2.6625,
7779
+ "step": 25680
7780
+ },
7781
+ {
7782
+ "epoch": 6.642331050523324,
7783
+ "learning_rate": 1.586736678335278e-07,
7784
+ "loss": 2.5277,
7785
+ "step": 25700
7786
+ },
7787
+ {
7788
+ "epoch": 6.647499676960848,
7789
+ "learning_rate": 1.5864125502398548e-07,
7790
+ "loss": 2.5688,
7791
+ "step": 25720
7792
+ },
7793
+ {
7794
+ "epoch": 6.652668303398372,
7795
+ "learning_rate": 1.5860884221444314e-07,
7796
+ "loss": 2.5813,
7797
+ "step": 25740
7798
+ },
7799
+ {
7800
+ "epoch": 6.657836929835896,
7801
+ "learning_rate": 1.585764294049008e-07,
7802
+ "loss": 2.622,
7803
+ "step": 25760
7804
+ },
7805
+ {
7806
+ "epoch": 6.66300555627342,
7807
+ "learning_rate": 1.5854401659535847e-07,
7808
+ "loss": 2.5956,
7809
+ "step": 25780
7810
+ },
7811
+ {
7812
+ "epoch": 6.668174182710945,
7813
+ "learning_rate": 1.5851160378581613e-07,
7814
+ "loss": 2.5834,
7815
+ "step": 25800
7816
+ },
7817
+ {
7818
+ "epoch": 6.673342809148469,
7819
+ "learning_rate": 1.5847919097627382e-07,
7820
+ "loss": 2.5737,
7821
+ "step": 25820
7822
+ },
7823
+ {
7824
+ "epoch": 6.678511435585993,
7825
+ "learning_rate": 1.5844677816673148e-07,
7826
+ "loss": 2.5815,
7827
+ "step": 25840
7828
+ },
7829
+ {
7830
+ "epoch": 6.683680062023518,
7831
+ "learning_rate": 1.5841436535718914e-07,
7832
+ "loss": 2.5868,
7833
+ "step": 25860
7834
+ },
7835
+ {
7836
+ "epoch": 6.688848688461041,
7837
+ "learning_rate": 1.5838195254764683e-07,
7838
+ "loss": 2.6376,
7839
+ "step": 25880
7840
+ },
7841
+ {
7842
+ "epoch": 6.6940173148985656,
7843
+ "learning_rate": 1.583495397381045e-07,
7844
+ "loss": 2.5857,
7845
+ "step": 25900
7846
+ },
7847
+ {
7848
+ "epoch": 6.69918594133609,
7849
+ "learning_rate": 1.5831712692856215e-07,
7850
+ "loss": 2.6078,
7851
+ "step": 25920
7852
+ },
7853
+ {
7854
+ "epoch": 6.704354567773614,
7855
+ "learning_rate": 1.5828471411901981e-07,
7856
+ "loss": 2.6262,
7857
+ "step": 25940
7858
+ },
7859
+ {
7860
+ "epoch": 6.709523194211139,
7861
+ "learning_rate": 1.582523013094775e-07,
7862
+ "loss": 2.5676,
7863
+ "step": 25960
7864
+ },
7865
+ {
7866
+ "epoch": 6.714691820648663,
7867
+ "learning_rate": 1.5821988849993516e-07,
7868
+ "loss": 2.6036,
7869
+ "step": 25980
7870
+ },
7871
+ {
7872
+ "epoch": 6.7198604470861865,
7873
+ "learning_rate": 1.5818747569039283e-07,
7874
+ "loss": 2.5575,
7875
+ "step": 26000
7876
+ },
7877
+ {
7878
+ "epoch": 6.725029073523711,
7879
+ "learning_rate": 1.581550628808505e-07,
7880
+ "loss": 2.5708,
7881
+ "step": 26020
7882
+ },
7883
+ {
7884
+ "epoch": 6.730197699961235,
7885
+ "learning_rate": 1.5812265007130818e-07,
7886
+ "loss": 2.6489,
7887
+ "step": 26040
7888
+ },
7889
+ {
7890
+ "epoch": 6.7353663263987595,
7891
+ "learning_rate": 1.5809023726176584e-07,
7892
+ "loss": 2.6338,
7893
+ "step": 26060
7894
+ },
7895
+ {
7896
+ "epoch": 6.740534952836284,
7897
+ "learning_rate": 1.580578244522235e-07,
7898
+ "loss": 2.6506,
7899
+ "step": 26080
7900
+ },
7901
+ {
7902
+ "epoch": 6.745703579273808,
7903
+ "learning_rate": 1.5802541164268116e-07,
7904
+ "loss": 2.541,
7905
+ "step": 26100
7906
+ },
7907
+ {
7908
+ "epoch": 6.750872205711332,
7909
+ "learning_rate": 1.5799299883313885e-07,
7910
+ "loss": 2.5367,
7911
+ "step": 26120
7912
+ },
7913
+ {
7914
+ "epoch": 6.756040832148856,
7915
+ "learning_rate": 1.579605860235965e-07,
7916
+ "loss": 2.5891,
7917
+ "step": 26140
7918
+ },
7919
+ {
7920
+ "epoch": 6.7612094585863804,
7921
+ "learning_rate": 1.5792817321405417e-07,
7922
+ "loss": 2.6226,
7923
+ "step": 26160
7924
+ },
7925
+ {
7926
+ "epoch": 6.766378085023905,
7927
+ "learning_rate": 1.5789576040451186e-07,
7928
+ "loss": 2.6313,
7929
+ "step": 26180
7930
+ },
7931
+ {
7932
+ "epoch": 6.771546711461429,
7933
+ "learning_rate": 1.5786334759496952e-07,
7934
+ "loss": 2.5891,
7935
+ "step": 26200
7936
+ },
7937
+ {
7938
+ "epoch": 6.7767153378989535,
7939
+ "learning_rate": 1.5783093478542719e-07,
7940
+ "loss": 2.5806,
7941
+ "step": 26220
7942
+ },
7943
+ {
7944
+ "epoch": 6.781883964336478,
7945
+ "learning_rate": 1.5779852197588485e-07,
7946
+ "loss": 2.5518,
7947
+ "step": 26240
7948
+ },
7949
+ {
7950
+ "epoch": 6.787052590774001,
7951
+ "learning_rate": 1.5776610916634254e-07,
7952
+ "loss": 2.6104,
7953
+ "step": 26260
7954
+ },
7955
+ {
7956
+ "epoch": 6.792221217211526,
7957
+ "learning_rate": 1.577336963568002e-07,
7958
+ "loss": 2.6052,
7959
+ "step": 26280
7960
+ },
7961
+ {
7962
+ "epoch": 6.79738984364905,
7963
+ "learning_rate": 1.5770128354725786e-07,
7964
+ "loss": 2.5845,
7965
+ "step": 26300
7966
+ },
7967
+ {
7968
+ "epoch": 6.802558470086574,
7969
+ "learning_rate": 1.5766887073771552e-07,
7970
+ "loss": 2.6096,
7971
+ "step": 26320
7972
+ },
7973
+ {
7974
+ "epoch": 6.807727096524099,
7975
+ "learning_rate": 1.576364579281732e-07,
7976
+ "loss": 2.5916,
7977
+ "step": 26340
7978
+ },
7979
+ {
7980
+ "epoch": 6.812895722961623,
7981
+ "learning_rate": 1.5760404511863087e-07,
7982
+ "loss": 2.584,
7983
+ "step": 26360
7984
+ },
7985
+ {
7986
+ "epoch": 6.8180643493991475,
7987
+ "learning_rate": 1.5757163230908853e-07,
7988
+ "loss": 2.6194,
7989
+ "step": 26380
7990
+ },
7991
+ {
7992
+ "epoch": 6.823232975836671,
7993
+ "learning_rate": 1.575392194995462e-07,
7994
+ "loss": 2.6581,
7995
+ "step": 26400
7996
+ },
7997
+ {
7998
+ "epoch": 6.828401602274195,
7999
+ "learning_rate": 1.5750680669000388e-07,
8000
+ "loss": 2.6636,
8001
+ "step": 26420
8002
+ },
8003
+ {
8004
+ "epoch": 6.83357022871172,
8005
+ "learning_rate": 1.5747439388046155e-07,
8006
+ "loss": 2.6135,
8007
+ "step": 26440
8008
+ },
8009
+ {
8010
+ "epoch": 6.838738855149244,
8011
+ "learning_rate": 1.574419810709192e-07,
8012
+ "loss": 2.609,
8013
+ "step": 26460
8014
+ },
8015
+ {
8016
+ "epoch": 6.843907481586768,
8017
+ "learning_rate": 1.574095682613769e-07,
8018
+ "loss": 2.6168,
8019
+ "step": 26480
8020
+ },
8021
+ {
8022
+ "epoch": 6.849076108024293,
8023
+ "learning_rate": 1.5737715545183456e-07,
8024
+ "loss": 2.5408,
8025
+ "step": 26500
8026
+ },
8027
+ {
8028
+ "epoch": 6.854244734461817,
8029
+ "learning_rate": 1.5734474264229222e-07,
8030
+ "loss": 2.6252,
8031
+ "step": 26520
8032
+ },
8033
+ {
8034
+ "epoch": 6.859413360899341,
8035
+ "learning_rate": 1.5731232983274988e-07,
8036
+ "loss": 2.5935,
8037
+ "step": 26540
8038
+ },
8039
+ {
8040
+ "epoch": 6.864581987336865,
8041
+ "learning_rate": 1.5727991702320757e-07,
8042
+ "loss": 2.5767,
8043
+ "step": 26560
8044
+ },
8045
+ {
8046
+ "epoch": 6.869750613774389,
8047
+ "learning_rate": 1.5724750421366523e-07,
8048
+ "loss": 2.6351,
8049
+ "step": 26580
8050
+ },
8051
+ {
8052
+ "epoch": 6.874919240211914,
8053
+ "learning_rate": 1.572150914041229e-07,
8054
+ "loss": 2.5793,
8055
+ "step": 26600
8056
+ },
8057
+ {
8058
+ "epoch": 6.880087866649438,
8059
+ "learning_rate": 1.5718267859458056e-07,
8060
+ "loss": 2.6026,
8061
+ "step": 26620
8062
+ },
8063
+ {
8064
+ "epoch": 6.885256493086962,
8065
+ "learning_rate": 1.5715026578503824e-07,
8066
+ "loss": 2.5796,
8067
+ "step": 26640
8068
+ },
8069
+ {
8070
+ "epoch": 6.890425119524487,
8071
+ "learning_rate": 1.571178529754959e-07,
8072
+ "loss": 2.6488,
8073
+ "step": 26660
8074
+ },
8075
+ {
8076
+ "epoch": 6.89559374596201,
8077
+ "learning_rate": 1.5708544016595357e-07,
8078
+ "loss": 2.6461,
8079
+ "step": 26680
8080
+ },
8081
+ {
8082
+ "epoch": 6.900762372399535,
8083
+ "learning_rate": 1.5705302735641123e-07,
8084
+ "loss": 2.5738,
8085
+ "step": 26700
8086
+ },
8087
+ {
8088
+ "epoch": 6.905930998837059,
8089
+ "learning_rate": 1.5702061454686892e-07,
8090
+ "loss": 2.5407,
8091
+ "step": 26720
8092
+ },
8093
+ {
8094
+ "epoch": 6.911099625274583,
8095
+ "learning_rate": 1.5698820173732658e-07,
8096
+ "loss": 2.6304,
8097
+ "step": 26740
8098
+ },
8099
+ {
8100
+ "epoch": 6.916268251712108,
8101
+ "learning_rate": 1.5695578892778424e-07,
8102
+ "loss": 2.576,
8103
+ "step": 26760
8104
+ },
8105
+ {
8106
+ "epoch": 6.921436878149632,
8107
+ "learning_rate": 1.5692337611824193e-07,
8108
+ "loss": 2.5784,
8109
+ "step": 26780
8110
+ },
8111
+ {
8112
+ "epoch": 6.926605504587156,
8113
+ "learning_rate": 1.568909633086996e-07,
8114
+ "loss": 2.6124,
8115
+ "step": 26800
8116
+ },
8117
+ {
8118
+ "epoch": 6.93177413102468,
8119
+ "learning_rate": 1.5685855049915725e-07,
8120
+ "loss": 2.5992,
8121
+ "step": 26820
8122
+ },
8123
+ {
8124
+ "epoch": 6.936942757462204,
8125
+ "learning_rate": 1.5682613768961492e-07,
8126
+ "loss": 2.5961,
8127
+ "step": 26840
8128
+ },
8129
+ {
8130
+ "epoch": 6.942111383899729,
8131
+ "learning_rate": 1.567937248800726e-07,
8132
+ "loss": 2.5989,
8133
+ "step": 26860
8134
+ },
8135
+ {
8136
+ "epoch": 6.947280010337253,
8137
+ "learning_rate": 1.5676131207053027e-07,
8138
+ "loss": 2.6514,
8139
+ "step": 26880
8140
+ },
8141
+ {
8142
+ "epoch": 6.952448636774777,
8143
+ "learning_rate": 1.5672889926098793e-07,
8144
+ "loss": 2.5921,
8145
+ "step": 26900
8146
+ },
8147
+ {
8148
+ "epoch": 6.957617263212302,
8149
+ "learning_rate": 1.566964864514456e-07,
8150
+ "loss": 2.5907,
8151
+ "step": 26920
8152
+ },
8153
+ {
8154
+ "epoch": 6.962785889649826,
8155
+ "learning_rate": 1.5666407364190328e-07,
8156
+ "loss": 2.5183,
8157
+ "step": 26940
8158
+ },
8159
+ {
8160
+ "epoch": 6.9679545160873495,
8161
+ "learning_rate": 1.5663166083236094e-07,
8162
+ "loss": 2.6151,
8163
+ "step": 26960
8164
+ },
8165
+ {
8166
+ "epoch": 6.973123142524874,
8167
+ "learning_rate": 1.565992480228186e-07,
8168
+ "loss": 2.5454,
8169
+ "step": 26980
8170
+ },
8171
+ {
8172
+ "epoch": 6.978291768962398,
8173
+ "learning_rate": 1.5656683521327626e-07,
8174
+ "loss": 2.5349,
8175
+ "step": 27000
8176
+ },
8177
+ {
8178
+ "epoch": 6.983460395399923,
8179
+ "learning_rate": 1.5653442240373395e-07,
8180
+ "loss": 2.6422,
8181
+ "step": 27020
8182
+ },
8183
+ {
8184
+ "epoch": 6.988629021837447,
8185
+ "learning_rate": 1.5650200959419161e-07,
8186
+ "loss": 2.6273,
8187
+ "step": 27040
8188
+ },
8189
+ {
8190
+ "epoch": 6.993797648274971,
8191
+ "learning_rate": 1.5646959678464928e-07,
8192
+ "loss": 2.5851,
8193
+ "step": 27060
8194
+ },
8195
+ {
8196
+ "epoch": 6.998966274712495,
8197
+ "learning_rate": 1.5643718397510696e-07,
8198
+ "loss": 2.5716,
8199
+ "step": 27080
8200
+ },
8201
+ {
8202
+ "epoch": 7.0,
8203
+ "eval_bleu": 5.2201,
8204
+ "eval_gen_len": 46.1405,
8205
+ "eval_loss": 2.561117172241211,
8206
+ "eval_runtime": 958.6568,
8207
+ "eval_samples_per_second": 1.796,
8208
+ "eval_steps_per_second": 0.898,
8209
+ "step": 27084
8210
+ },
8211
+ {
8212
+ "epoch": 7.004134901150019,
8213
+ "learning_rate": 1.5640477116556463e-07,
8214
+ "loss": 2.5946,
8215
+ "step": 27100
8216
+ },
8217
+ {
8218
+ "epoch": 7.0093035275875435,
8219
+ "learning_rate": 1.563723583560223e-07,
8220
+ "loss": 2.5941,
8221
+ "step": 27120
8222
+ },
8223
+ {
8224
+ "epoch": 7.014472154025068,
8225
+ "learning_rate": 1.5633994554647995e-07,
8226
+ "loss": 2.5895,
8227
+ "step": 27140
8228
+ },
8229
+ {
8230
+ "epoch": 7.019640780462592,
8231
+ "learning_rate": 1.5630753273693764e-07,
8232
+ "loss": 2.5711,
8233
+ "step": 27160
8234
+ },
8235
+ {
8236
+ "epoch": 7.024809406900117,
8237
+ "learning_rate": 1.562751199273953e-07,
8238
+ "loss": 2.6074,
8239
+ "step": 27180
8240
+ },
8241
+ {
8242
+ "epoch": 7.029978033337641,
8243
+ "learning_rate": 1.5624270711785296e-07,
8244
+ "loss": 2.5763,
8245
+ "step": 27200
8246
+ },
8247
+ {
8248
+ "epoch": 7.035146659775164,
8249
+ "learning_rate": 1.5621029430831062e-07,
8250
+ "loss": 2.5656,
8251
+ "step": 27220
8252
+ },
8253
+ {
8254
+ "epoch": 7.040315286212689,
8255
+ "learning_rate": 1.561778814987683e-07,
8256
+ "loss": 2.576,
8257
+ "step": 27240
8258
+ },
8259
+ {
8260
+ "epoch": 7.045483912650213,
8261
+ "learning_rate": 1.5614546868922597e-07,
8262
+ "loss": 2.6323,
8263
+ "step": 27260
8264
+ },
8265
+ {
8266
+ "epoch": 7.0506525390877375,
8267
+ "learning_rate": 1.5611305587968364e-07,
8268
+ "loss": 2.6121,
8269
+ "step": 27280
8270
+ },
8271
+ {
8272
+ "epoch": 7.055821165525262,
8273
+ "learning_rate": 1.560806430701413e-07,
8274
+ "loss": 2.5962,
8275
+ "step": 27300
8276
+ },
8277
+ {
8278
+ "epoch": 7.060989791962786,
8279
+ "learning_rate": 1.5604823026059899e-07,
8280
+ "loss": 2.614,
8281
+ "step": 27320
8282
+ },
8283
+ {
8284
+ "epoch": 7.06615841840031,
8285
+ "learning_rate": 1.5601581745105665e-07,
8286
+ "loss": 2.5828,
8287
+ "step": 27340
8288
+ },
8289
+ {
8290
+ "epoch": 7.071327044837834,
8291
+ "learning_rate": 1.559834046415143e-07,
8292
+ "loss": 2.6366,
8293
+ "step": 27360
8294
+ },
8295
+ {
8296
+ "epoch": 7.076495671275358,
8297
+ "learning_rate": 1.55950991831972e-07,
8298
+ "loss": 2.5704,
8299
+ "step": 27380
8300
+ },
8301
+ {
8302
+ "epoch": 7.081664297712883,
8303
+ "learning_rate": 1.5591857902242966e-07,
8304
+ "loss": 2.6038,
8305
+ "step": 27400
8306
+ },
8307
+ {
8308
+ "epoch": 7.086832924150407,
8309
+ "learning_rate": 1.5588616621288732e-07,
8310
+ "loss": 2.5829,
8311
+ "step": 27420
8312
+ },
8313
+ {
8314
+ "epoch": 7.0920015505879315,
8315
+ "learning_rate": 1.5585375340334498e-07,
8316
+ "loss": 2.5535,
8317
+ "step": 27440
8318
+ },
8319
+ {
8320
+ "epoch": 7.097170177025456,
8321
+ "learning_rate": 1.5582134059380267e-07,
8322
+ "loss": 2.6527,
8323
+ "step": 27460
8324
+ },
8325
+ {
8326
+ "epoch": 7.102338803462979,
8327
+ "learning_rate": 1.5578892778426033e-07,
8328
+ "loss": 2.5602,
8329
+ "step": 27480
8330
+ },
8331
+ {
8332
+ "epoch": 7.107507429900504,
8333
+ "learning_rate": 1.55756514974718e-07,
8334
+ "loss": 2.5519,
8335
+ "step": 27500
8336
+ },
8337
+ {
8338
+ "epoch": 7.112676056338028,
8339
+ "learning_rate": 1.5572410216517566e-07,
8340
+ "loss": 2.6072,
8341
+ "step": 27520
8342
+ },
8343
+ {
8344
+ "epoch": 7.117844682775552,
8345
+ "learning_rate": 1.5569168935563335e-07,
8346
+ "loss": 2.5692,
8347
+ "step": 27540
8348
+ },
8349
+ {
8350
+ "epoch": 7.123013309213077,
8351
+ "learning_rate": 1.55659276546091e-07,
8352
+ "loss": 2.5865,
8353
+ "step": 27560
8354
+ },
8355
+ {
8356
+ "epoch": 7.128181935650601,
8357
+ "learning_rate": 1.5562686373654867e-07,
8358
+ "loss": 2.5513,
8359
+ "step": 27580
8360
+ },
8361
+ {
8362
+ "epoch": 7.1333505620881255,
8363
+ "learning_rate": 1.5559445092700633e-07,
8364
+ "loss": 2.5622,
8365
+ "step": 27600
8366
+ },
8367
+ {
8368
+ "epoch": 7.138519188525649,
8369
+ "learning_rate": 1.5556203811746402e-07,
8370
+ "loss": 2.5787,
8371
+ "step": 27620
8372
+ },
8373
+ {
8374
+ "epoch": 7.143687814963173,
8375
+ "learning_rate": 1.5552962530792168e-07,
8376
+ "loss": 2.5697,
8377
+ "step": 27640
8378
+ },
8379
+ {
8380
+ "epoch": 7.148856441400698,
8381
+ "learning_rate": 1.5549721249837934e-07,
8382
+ "loss": 2.5477,
8383
+ "step": 27660
8384
+ },
8385
+ {
8386
+ "epoch": 7.154025067838222,
8387
+ "learning_rate": 1.5546479968883703e-07,
8388
+ "loss": 2.5206,
8389
+ "step": 27680
8390
+ },
8391
+ {
8392
+ "epoch": 7.159193694275746,
8393
+ "learning_rate": 1.554323868792947e-07,
8394
+ "loss": 2.6325,
8395
+ "step": 27700
8396
+ },
8397
+ {
8398
+ "epoch": 7.164362320713271,
8399
+ "learning_rate": 1.5539997406975236e-07,
8400
+ "loss": 2.5897,
8401
+ "step": 27720
8402
+ },
8403
+ {
8404
+ "epoch": 7.169530947150795,
8405
+ "learning_rate": 1.5536756126021002e-07,
8406
+ "loss": 2.5669,
8407
+ "step": 27740
8408
+ },
8409
+ {
8410
+ "epoch": 7.174699573588319,
8411
+ "learning_rate": 1.553351484506677e-07,
8412
+ "loss": 2.5391,
8413
+ "step": 27760
8414
+ },
8415
+ {
8416
+ "epoch": 7.179868200025843,
8417
+ "learning_rate": 1.5530273564112537e-07,
8418
+ "loss": 2.5715,
8419
+ "step": 27780
8420
+ },
8421
+ {
8422
+ "epoch": 7.185036826463367,
8423
+ "learning_rate": 1.5527032283158303e-07,
8424
+ "loss": 2.6015,
8425
+ "step": 27800
8426
+ },
8427
+ {
8428
+ "epoch": 7.190205452900892,
8429
+ "learning_rate": 1.552379100220407e-07,
8430
+ "loss": 2.6043,
8431
+ "step": 27820
8432
+ },
8433
+ {
8434
+ "epoch": 7.195374079338416,
8435
+ "learning_rate": 1.5520549721249838e-07,
8436
+ "loss": 2.5723,
8437
+ "step": 27840
8438
+ },
8439
+ {
8440
+ "epoch": 7.20054270577594,
8441
+ "learning_rate": 1.5517308440295604e-07,
8442
+ "loss": 2.5877,
8443
+ "step": 27860
8444
+ },
8445
+ {
8446
+ "epoch": 7.205711332213465,
8447
+ "learning_rate": 1.551406715934137e-07,
8448
+ "loss": 2.5823,
8449
+ "step": 27880
8450
+ },
8451
+ {
8452
+ "epoch": 7.210879958650988,
8453
+ "learning_rate": 1.5510825878387137e-07,
8454
+ "loss": 2.5435,
8455
+ "step": 27900
8456
+ },
8457
+ {
8458
+ "epoch": 7.2160485850885125,
8459
+ "learning_rate": 1.5507584597432905e-07,
8460
+ "loss": 2.5416,
8461
+ "step": 27920
8462
+ },
8463
+ {
8464
+ "epoch": 7.221217211526037,
8465
+ "learning_rate": 1.5504343316478672e-07,
8466
+ "loss": 2.6001,
8467
+ "step": 27940
8468
+ },
8469
+ {
8470
+ "epoch": 7.226385837963561,
8471
+ "learning_rate": 1.5501102035524438e-07,
8472
+ "loss": 2.6136,
8473
+ "step": 27960
8474
+ },
8475
+ {
8476
+ "epoch": 7.231554464401086,
8477
+ "learning_rate": 1.5497860754570204e-07,
8478
+ "loss": 2.6079,
8479
+ "step": 27980
8480
+ },
8481
+ {
8482
+ "epoch": 7.23672309083861,
8483
+ "learning_rate": 1.5494619473615973e-07,
8484
+ "loss": 2.6051,
8485
+ "step": 28000
8486
+ },
8487
+ {
8488
+ "epoch": 7.2418917172761335,
8489
+ "learning_rate": 1.549137819266174e-07,
8490
+ "loss": 2.6275,
8491
+ "step": 28020
8492
+ },
8493
+ {
8494
+ "epoch": 7.247060343713658,
8495
+ "learning_rate": 1.5488136911707505e-07,
8496
+ "loss": 2.6114,
8497
+ "step": 28040
8498
+ },
8499
+ {
8500
+ "epoch": 7.252228970151182,
8501
+ "learning_rate": 1.5484895630753274e-07,
8502
+ "loss": 2.6532,
8503
+ "step": 28060
8504
+ },
8505
+ {
8506
+ "epoch": 7.2573975965887065,
8507
+ "learning_rate": 1.548165434979904e-07,
8508
+ "loss": 2.5954,
8509
+ "step": 28080
8510
+ },
8511
+ {
8512
+ "epoch": 7.262566223026231,
8513
+ "learning_rate": 1.5478413068844806e-07,
8514
+ "loss": 2.555,
8515
+ "step": 28100
8516
+ },
8517
+ {
8518
+ "epoch": 7.267734849463755,
8519
+ "learning_rate": 1.5475171787890573e-07,
8520
+ "loss": 2.601,
8521
+ "step": 28120
8522
+ },
8523
+ {
8524
+ "epoch": 7.27290347590128,
8525
+ "learning_rate": 1.547193050693634e-07,
8526
+ "loss": 2.5666,
8527
+ "step": 28140
8528
+ },
8529
+ {
8530
+ "epoch": 7.278072102338803,
8531
+ "learning_rate": 1.5468689225982108e-07,
8532
+ "loss": 2.563,
8533
+ "step": 28160
8534
+ },
8535
+ {
8536
+ "epoch": 7.283240728776327,
8537
+ "learning_rate": 1.5465447945027874e-07,
8538
+ "loss": 2.5919,
8539
+ "step": 28180
8540
+ },
8541
+ {
8542
+ "epoch": 7.288409355213852,
8543
+ "learning_rate": 1.546220666407364e-07,
8544
+ "loss": 2.5042,
8545
+ "step": 28200
8546
+ },
8547
+ {
8548
+ "epoch": 7.293577981651376,
8549
+ "learning_rate": 1.545896538311941e-07,
8550
+ "loss": 2.614,
8551
+ "step": 28220
8552
+ },
8553
+ {
8554
+ "epoch": 7.2987466080889005,
8555
+ "learning_rate": 1.5455724102165175e-07,
8556
+ "loss": 2.5763,
8557
+ "step": 28240
8558
+ },
8559
+ {
8560
+ "epoch": 7.303915234526425,
8561
+ "learning_rate": 1.545248282121094e-07,
8562
+ "loss": 2.5852,
8563
+ "step": 28260
8564
+ },
8565
+ {
8566
+ "epoch": 7.309083860963949,
8567
+ "learning_rate": 1.544924154025671e-07,
8568
+ "loss": 2.638,
8569
+ "step": 28280
8570
+ },
8571
+ {
8572
+ "epoch": 7.314252487401473,
8573
+ "learning_rate": 1.5446000259302476e-07,
8574
+ "loss": 2.5642,
8575
+ "step": 28300
8576
+ },
8577
+ {
8578
+ "epoch": 7.319421113838997,
8579
+ "learning_rate": 1.5442758978348242e-07,
8580
+ "loss": 2.5905,
8581
+ "step": 28320
8582
+ },
8583
+ {
8584
+ "epoch": 7.324589740276521,
8585
+ "learning_rate": 1.5439517697394009e-07,
8586
+ "loss": 2.5641,
8587
+ "step": 28340
8588
+ },
8589
+ {
8590
+ "epoch": 7.329758366714046,
8591
+ "learning_rate": 1.5436276416439775e-07,
8592
+ "loss": 2.5369,
8593
+ "step": 28360
8594
+ },
8595
+ {
8596
+ "epoch": 7.33492699315157,
8597
+ "learning_rate": 1.5433035135485544e-07,
8598
+ "loss": 2.5828,
8599
+ "step": 28380
8600
+ },
8601
+ {
8602
+ "epoch": 7.3400956195890945,
8603
+ "learning_rate": 1.542979385453131e-07,
8604
+ "loss": 2.6183,
8605
+ "step": 28400
8606
+ },
8607
+ {
8608
+ "epoch": 7.345264246026618,
8609
+ "learning_rate": 1.5426552573577076e-07,
8610
+ "loss": 2.5041,
8611
+ "step": 28420
8612
+ },
8613
+ {
8614
+ "epoch": 7.350432872464142,
8615
+ "learning_rate": 1.5423311292622845e-07,
8616
+ "loss": 2.6381,
8617
+ "step": 28440
8618
+ },
8619
+ {
8620
+ "epoch": 7.355601498901667,
8621
+ "learning_rate": 1.542007001166861e-07,
8622
+ "loss": 2.607,
8623
+ "step": 28460
8624
+ },
8625
+ {
8626
+ "epoch": 7.360770125339191,
8627
+ "learning_rate": 1.5416828730714377e-07,
8628
+ "loss": 2.5654,
8629
+ "step": 28480
8630
+ },
8631
+ {
8632
+ "epoch": 7.365938751776715,
8633
+ "learning_rate": 1.5413587449760143e-07,
8634
+ "loss": 2.5333,
8635
+ "step": 28500
8636
+ },
8637
+ {
8638
+ "epoch": 7.37110737821424,
8639
+ "learning_rate": 1.5410346168805912e-07,
8640
+ "loss": 2.5771,
8641
+ "step": 28520
8642
+ },
8643
+ {
8644
+ "epoch": 7.376276004651764,
8645
+ "learning_rate": 1.5407104887851678e-07,
8646
+ "loss": 2.5225,
8647
+ "step": 28540
8648
+ },
8649
+ {
8650
+ "epoch": 7.381444631089288,
8651
+ "learning_rate": 1.5403863606897445e-07,
8652
+ "loss": 2.6159,
8653
+ "step": 28560
8654
+ },
8655
+ {
8656
+ "epoch": 7.386613257526812,
8657
+ "learning_rate": 1.540062232594321e-07,
8658
+ "loss": 2.6229,
8659
+ "step": 28580
8660
+ },
8661
+ {
8662
+ "epoch": 7.391781883964336,
8663
+ "learning_rate": 1.539738104498898e-07,
8664
+ "loss": 2.5326,
8665
+ "step": 28600
8666
+ },
8667
+ {
8668
+ "epoch": 7.396950510401861,
8669
+ "learning_rate": 1.5394139764034746e-07,
8670
+ "loss": 2.5116,
8671
+ "step": 28620
8672
+ },
8673
+ {
8674
+ "epoch": 7.402119136839385,
8675
+ "learning_rate": 1.5390898483080512e-07,
8676
+ "loss": 2.5276,
8677
+ "step": 28640
8678
+ },
8679
+ {
8680
+ "epoch": 7.407287763276909,
8681
+ "learning_rate": 1.538765720212628e-07,
8682
+ "loss": 2.5662,
8683
+ "step": 28660
8684
+ },
8685
+ {
8686
+ "epoch": 7.412456389714434,
8687
+ "learning_rate": 1.5384415921172047e-07,
8688
+ "loss": 2.5843,
8689
+ "step": 28680
8690
+ },
8691
+ {
8692
+ "epoch": 7.417625016151957,
8693
+ "learning_rate": 1.5381174640217813e-07,
8694
+ "loss": 2.6341,
8695
+ "step": 28700
8696
+ },
8697
+ {
8698
+ "epoch": 7.422793642589482,
8699
+ "learning_rate": 1.537793335926358e-07,
8700
+ "loss": 2.5741,
8701
+ "step": 28720
8702
+ },
8703
+ {
8704
+ "epoch": 7.427962269027006,
8705
+ "learning_rate": 1.5374692078309346e-07,
8706
+ "loss": 2.5658,
8707
+ "step": 28740
8708
+ },
8709
+ {
8710
+ "epoch": 7.43313089546453,
8711
+ "learning_rate": 1.5371450797355114e-07,
8712
+ "loss": 2.5909,
8713
+ "step": 28760
8714
+ },
8715
+ {
8716
+ "epoch": 7.438299521902055,
8717
+ "learning_rate": 1.536820951640088e-07,
8718
+ "loss": 2.5543,
8719
+ "step": 28780
8720
+ },
8721
+ {
8722
+ "epoch": 7.443468148339579,
8723
+ "learning_rate": 1.5364968235446647e-07,
8724
+ "loss": 2.5546,
8725
+ "step": 28800
8726
+ },
8727
+ {
8728
+ "epoch": 7.448636774777103,
8729
+ "learning_rate": 1.5361726954492416e-07,
8730
+ "loss": 2.5236,
8731
+ "step": 28820
8732
+ },
8733
+ {
8734
+ "epoch": 7.453805401214627,
8735
+ "learning_rate": 1.5358485673538182e-07,
8736
+ "loss": 2.5981,
8737
+ "step": 28840
8738
+ },
8739
+ {
8740
+ "epoch": 7.458974027652151,
8741
+ "learning_rate": 1.5355244392583948e-07,
8742
+ "loss": 2.5322,
8743
+ "step": 28860
8744
+ },
8745
+ {
8746
+ "epoch": 7.464142654089676,
8747
+ "learning_rate": 1.5352003111629717e-07,
8748
+ "loss": 2.6326,
8749
+ "step": 28880
8750
+ },
8751
+ {
8752
+ "epoch": 7.4693112805272,
8753
+ "learning_rate": 1.5348761830675483e-07,
8754
+ "loss": 2.5647,
8755
+ "step": 28900
8756
+ },
8757
+ {
8758
+ "epoch": 7.474479906964724,
8759
+ "learning_rate": 1.534552054972125e-07,
8760
+ "loss": 2.6036,
8761
+ "step": 28920
8762
+ },
8763
+ {
8764
+ "epoch": 7.479648533402249,
8765
+ "learning_rate": 1.5342279268767015e-07,
8766
+ "loss": 2.5672,
8767
+ "step": 28940
8768
+ },
8769
+ {
8770
+ "epoch": 7.484817159839773,
8771
+ "learning_rate": 1.5339037987812782e-07,
8772
+ "loss": 2.5102,
8773
+ "step": 28960
8774
+ },
8775
+ {
8776
+ "epoch": 7.4899857862772965,
8777
+ "learning_rate": 1.533579670685855e-07,
8778
+ "loss": 2.6278,
8779
+ "step": 28980
8780
+ },
8781
+ {
8782
+ "epoch": 7.495154412714821,
8783
+ "learning_rate": 1.5332555425904317e-07,
8784
+ "loss": 2.6092,
8785
+ "step": 29000
8786
+ },
8787
+ {
8788
+ "epoch": 7.500323039152345,
8789
+ "learning_rate": 1.5329314144950083e-07,
8790
+ "loss": 2.5685,
8791
+ "step": 29020
8792
+ },
8793
+ {
8794
+ "epoch": 7.50549166558987,
8795
+ "learning_rate": 1.5326072863995852e-07,
8796
+ "loss": 2.5203,
8797
+ "step": 29040
8798
+ },
8799
+ {
8800
+ "epoch": 7.510660292027394,
8801
+ "learning_rate": 1.5322831583041618e-07,
8802
+ "loss": 2.6086,
8803
+ "step": 29060
8804
+ },
8805
+ {
8806
+ "epoch": 7.515828918464918,
8807
+ "learning_rate": 1.5319590302087384e-07,
8808
+ "loss": 2.556,
8809
+ "step": 29080
8810
+ },
8811
+ {
8812
+ "epoch": 7.520997544902443,
8813
+ "learning_rate": 1.531634902113315e-07,
8814
+ "loss": 2.6068,
8815
+ "step": 29100
8816
+ },
8817
+ {
8818
+ "epoch": 7.526166171339966,
8819
+ "learning_rate": 1.531310774017892e-07,
8820
+ "loss": 2.5915,
8821
+ "step": 29120
8822
+ },
8823
+ {
8824
+ "epoch": 7.5313347977774905,
8825
+ "learning_rate": 1.5309866459224685e-07,
8826
+ "loss": 2.5853,
8827
+ "step": 29140
8828
+ },
8829
+ {
8830
+ "epoch": 7.536503424215015,
8831
+ "learning_rate": 1.5306625178270451e-07,
8832
+ "loss": 2.5933,
8833
+ "step": 29160
8834
+ },
8835
+ {
8836
+ "epoch": 7.541672050652539,
8837
+ "learning_rate": 1.5303383897316218e-07,
8838
+ "loss": 2.5732,
8839
+ "step": 29180
8840
+ },
8841
+ {
8842
+ "epoch": 7.546840677090064,
8843
+ "learning_rate": 1.5300142616361986e-07,
8844
+ "loss": 2.5925,
8845
+ "step": 29200
8846
+ },
8847
+ {
8848
+ "epoch": 7.552009303527588,
8849
+ "learning_rate": 1.5296901335407753e-07,
8850
+ "loss": 2.6029,
8851
+ "step": 29220
8852
+ },
8853
+ {
8854
+ "epoch": 7.557177929965111,
8855
+ "learning_rate": 1.529366005445352e-07,
8856
+ "loss": 2.6053,
8857
+ "step": 29240
8858
+ },
8859
+ {
8860
+ "epoch": 7.562346556402636,
8861
+ "learning_rate": 1.5290418773499288e-07,
8862
+ "loss": 2.5341,
8863
+ "step": 29260
8864
+ },
8865
+ {
8866
+ "epoch": 7.56751518284016,
8867
+ "learning_rate": 1.5287177492545054e-07,
8868
+ "loss": 2.4981,
8869
+ "step": 29280
8870
+ },
8871
+ {
8872
+ "epoch": 7.5726838092776845,
8873
+ "learning_rate": 1.528393621159082e-07,
8874
+ "loss": 2.5551,
8875
+ "step": 29300
8876
+ },
8877
+ {
8878
+ "epoch": 7.577852435715209,
8879
+ "learning_rate": 1.5280694930636586e-07,
8880
+ "loss": 2.5029,
8881
+ "step": 29320
8882
+ },
8883
+ {
8884
+ "epoch": 7.583021062152733,
8885
+ "learning_rate": 1.5277453649682352e-07,
8886
+ "loss": 2.6108,
8887
+ "step": 29340
8888
+ },
8889
+ {
8890
+ "epoch": 7.588189688590257,
8891
+ "learning_rate": 1.527421236872812e-07,
8892
+ "loss": 2.5652,
8893
+ "step": 29360
8894
+ },
8895
+ {
8896
+ "epoch": 7.593358315027781,
8897
+ "learning_rate": 1.5270971087773887e-07,
8898
+ "loss": 2.5423,
8899
+ "step": 29380
8900
+ },
8901
+ {
8902
+ "epoch": 7.598526941465305,
8903
+ "learning_rate": 1.5267729806819654e-07,
8904
+ "loss": 2.5123,
8905
+ "step": 29400
8906
+ },
8907
+ {
8908
+ "epoch": 7.60369556790283,
8909
+ "learning_rate": 1.5264488525865422e-07,
8910
+ "loss": 2.5787,
8911
+ "step": 29420
8912
+ },
8913
+ {
8914
+ "epoch": 7.608864194340354,
8915
+ "learning_rate": 1.5261247244911189e-07,
8916
+ "loss": 2.5894,
8917
+ "step": 29440
8918
+ },
8919
+ {
8920
+ "epoch": 7.6140328207778785,
8921
+ "learning_rate": 1.5258005963956955e-07,
8922
+ "loss": 2.5427,
8923
+ "step": 29460
8924
+ },
8925
+ {
8926
+ "epoch": 7.619201447215403,
8927
+ "learning_rate": 1.5254764683002724e-07,
8928
+ "loss": 2.6234,
8929
+ "step": 29480
8930
+ },
8931
+ {
8932
+ "epoch": 7.624370073652926,
8933
+ "learning_rate": 1.525152340204849e-07,
8934
+ "loss": 2.5201,
8935
+ "step": 29500
8936
+ },
8937
+ {
8938
+ "epoch": 7.629538700090451,
8939
+ "learning_rate": 1.5248282121094256e-07,
8940
+ "loss": 2.5933,
8941
+ "step": 29520
8942
+ },
8943
+ {
8944
+ "epoch": 7.634707326527975,
8945
+ "learning_rate": 1.5245040840140022e-07,
8946
+ "loss": 2.555,
8947
+ "step": 29540
8948
+ },
8949
+ {
8950
+ "epoch": 7.639875952965499,
8951
+ "learning_rate": 1.5241799559185788e-07,
8952
+ "loss": 2.5297,
8953
+ "step": 29560
8954
+ },
8955
+ {
8956
+ "epoch": 7.645044579403024,
8957
+ "learning_rate": 1.5238558278231557e-07,
8958
+ "loss": 2.574,
8959
+ "step": 29580
8960
+ },
8961
+ {
8962
+ "epoch": 7.650213205840548,
8963
+ "learning_rate": 1.5235316997277323e-07,
8964
+ "loss": 2.6062,
8965
+ "step": 29600
8966
+ },
8967
+ {
8968
+ "epoch": 7.6553818322780725,
8969
+ "learning_rate": 1.523207571632309e-07,
8970
+ "loss": 2.5437,
8971
+ "step": 29620
8972
+ },
8973
+ {
8974
+ "epoch": 7.660550458715596,
8975
+ "learning_rate": 1.5228834435368858e-07,
8976
+ "loss": 2.599,
8977
+ "step": 29640
8978
+ },
8979
+ {
8980
+ "epoch": 7.66571908515312,
8981
+ "learning_rate": 1.5225593154414625e-07,
8982
+ "loss": 2.5211,
8983
+ "step": 29660
8984
+ },
8985
+ {
8986
+ "epoch": 7.670887711590645,
8987
+ "learning_rate": 1.522235187346039e-07,
8988
+ "loss": 2.538,
8989
+ "step": 29680
8990
+ },
8991
+ {
8992
+ "epoch": 7.676056338028169,
8993
+ "learning_rate": 1.5219110592506157e-07,
8994
+ "loss": 2.5887,
8995
+ "step": 29700
8996
+ },
8997
+ {
8998
+ "epoch": 7.681224964465693,
8999
+ "learning_rate": 1.5215869311551926e-07,
9000
+ "loss": 2.5519,
9001
+ "step": 29720
9002
+ },
9003
+ {
9004
+ "epoch": 7.686393590903218,
9005
+ "learning_rate": 1.5212628030597692e-07,
9006
+ "loss": 2.5509,
9007
+ "step": 29740
9008
+ },
9009
+ {
9010
+ "epoch": 7.691562217340742,
9011
+ "learning_rate": 1.5209386749643458e-07,
9012
+ "loss": 2.5353,
9013
+ "step": 29760
9014
+ },
9015
+ {
9016
+ "epoch": 7.6967308437782656,
9017
+ "learning_rate": 1.5206145468689224e-07,
9018
+ "loss": 2.6387,
9019
+ "step": 29780
9020
+ },
9021
+ {
9022
+ "epoch": 7.70189947021579,
9023
+ "learning_rate": 1.5202904187734993e-07,
9024
+ "loss": 2.5547,
9025
+ "step": 29800
9026
+ },
9027
+ {
9028
+ "epoch": 7.707068096653314,
9029
+ "learning_rate": 1.519966290678076e-07,
9030
+ "loss": 2.65,
9031
+ "step": 29820
9032
+ },
9033
+ {
9034
+ "epoch": 7.712236723090839,
9035
+ "learning_rate": 1.5196421625826526e-07,
9036
+ "loss": 2.5733,
9037
+ "step": 29840
9038
+ },
9039
+ {
9040
+ "epoch": 7.717405349528363,
9041
+ "learning_rate": 1.5193180344872294e-07,
9042
+ "loss": 2.5608,
9043
+ "step": 29860
9044
+ },
9045
+ {
9046
+ "epoch": 7.722573975965887,
9047
+ "learning_rate": 1.518993906391806e-07,
9048
+ "loss": 2.5819,
9049
+ "step": 29880
9050
+ },
9051
+ {
9052
+ "epoch": 7.727742602403412,
9053
+ "learning_rate": 1.5186697782963827e-07,
9054
+ "loss": 2.6017,
9055
+ "step": 29900
9056
+ },
9057
+ {
9058
+ "epoch": 7.732911228840935,
9059
+ "learning_rate": 1.5183456502009593e-07,
9060
+ "loss": 2.5467,
9061
+ "step": 29920
9062
+ },
9063
+ {
9064
+ "epoch": 7.7380798552784595,
9065
+ "learning_rate": 1.518021522105536e-07,
9066
+ "loss": 2.558,
9067
+ "step": 29940
9068
+ },
9069
+ {
9070
+ "epoch": 7.743248481715984,
9071
+ "learning_rate": 1.5176973940101128e-07,
9072
+ "loss": 2.5716,
9073
+ "step": 29960
9074
+ },
9075
+ {
9076
+ "epoch": 7.748417108153508,
9077
+ "learning_rate": 1.5173732659146894e-07,
9078
+ "loss": 2.5765,
9079
+ "step": 29980
9080
+ },
9081
+ {
9082
+ "epoch": 7.753585734591033,
9083
+ "learning_rate": 1.517049137819266e-07,
9084
+ "loss": 2.6051,
9085
+ "step": 30000
9086
+ },
9087
+ {
9088
+ "epoch": 7.758754361028557,
9089
+ "learning_rate": 1.516725009723843e-07,
9090
+ "loss": 2.6049,
9091
+ "step": 30020
9092
+ },
9093
+ {
9094
+ "epoch": 7.763922987466081,
9095
+ "learning_rate": 1.5164008816284195e-07,
9096
+ "loss": 2.5621,
9097
+ "step": 30040
9098
+ },
9099
+ {
9100
+ "epoch": 7.769091613903605,
9101
+ "learning_rate": 1.5160767535329962e-07,
9102
+ "loss": 2.5449,
9103
+ "step": 30060
9104
+ },
9105
+ {
9106
+ "epoch": 7.774260240341129,
9107
+ "learning_rate": 1.515752625437573e-07,
9108
+ "loss": 2.5652,
9109
+ "step": 30080
9110
+ },
9111
+ {
9112
+ "epoch": 7.7794288667786535,
9113
+ "learning_rate": 1.5154284973421497e-07,
9114
+ "loss": 2.5216,
9115
+ "step": 30100
9116
+ },
9117
+ {
9118
+ "epoch": 7.784597493216178,
9119
+ "learning_rate": 1.5151043692467263e-07,
9120
+ "loss": 2.521,
9121
+ "step": 30120
9122
+ },
9123
+ {
9124
+ "epoch": 7.789766119653702,
9125
+ "learning_rate": 1.514780241151303e-07,
9126
+ "loss": 2.5561,
9127
+ "step": 30140
9128
+ },
9129
+ {
9130
+ "epoch": 7.794934746091227,
9131
+ "learning_rate": 1.5144561130558795e-07,
9132
+ "loss": 2.5601,
9133
+ "step": 30160
9134
+ },
9135
+ {
9136
+ "epoch": 7.800103372528751,
9137
+ "learning_rate": 1.5141319849604564e-07,
9138
+ "loss": 2.5599,
9139
+ "step": 30180
9140
+ },
9141
+ {
9142
+ "epoch": 7.805271998966274,
9143
+ "learning_rate": 1.513807856865033e-07,
9144
+ "loss": 2.6198,
9145
+ "step": 30200
9146
+ },
9147
+ {
9148
+ "epoch": 7.810440625403799,
9149
+ "learning_rate": 1.5134837287696096e-07,
9150
+ "loss": 2.6023,
9151
+ "step": 30220
9152
+ },
9153
+ {
9154
+ "epoch": 7.815609251841323,
9155
+ "learning_rate": 1.5131596006741865e-07,
9156
+ "loss": 2.5248,
9157
+ "step": 30240
9158
+ },
9159
+ {
9160
+ "epoch": 7.8207778782788475,
9161
+ "learning_rate": 1.5128354725787631e-07,
9162
+ "loss": 2.5971,
9163
+ "step": 30260
9164
+ },
9165
+ {
9166
+ "epoch": 7.825946504716372,
9167
+ "learning_rate": 1.5125113444833398e-07,
9168
+ "loss": 2.5428,
9169
+ "step": 30280
9170
+ },
9171
+ {
9172
+ "epoch": 7.831115131153896,
9173
+ "learning_rate": 1.5121872163879164e-07,
9174
+ "loss": 2.5757,
9175
+ "step": 30300
9176
+ },
9177
+ {
9178
+ "epoch": 7.83628375759142,
9179
+ "learning_rate": 1.5118630882924933e-07,
9180
+ "loss": 2.561,
9181
+ "step": 30320
9182
+ },
9183
+ {
9184
+ "epoch": 7.841452384028944,
9185
+ "learning_rate": 1.51153896019707e-07,
9186
+ "loss": 2.5586,
9187
+ "step": 30340
9188
+ },
9189
+ {
9190
+ "epoch": 7.846621010466468,
9191
+ "learning_rate": 1.5112148321016465e-07,
9192
+ "loss": 2.612,
9193
+ "step": 30360
9194
+ },
9195
+ {
9196
+ "epoch": 7.851789636903993,
9197
+ "learning_rate": 1.510890704006223e-07,
9198
+ "loss": 2.5565,
9199
+ "step": 30380
9200
+ },
9201
+ {
9202
+ "epoch": 7.856958263341517,
9203
+ "learning_rate": 1.5105665759108e-07,
9204
+ "loss": 2.5571,
9205
+ "step": 30400
9206
+ },
9207
+ {
9208
+ "epoch": 7.8621268897790415,
9209
+ "learning_rate": 1.5102424478153766e-07,
9210
+ "loss": 2.5895,
9211
+ "step": 30420
9212
+ },
9213
+ {
9214
+ "epoch": 7.867295516216565,
9215
+ "learning_rate": 1.5099183197199532e-07,
9216
+ "loss": 2.5987,
9217
+ "step": 30440
9218
+ },
9219
+ {
9220
+ "epoch": 7.872464142654089,
9221
+ "learning_rate": 1.5095941916245298e-07,
9222
+ "loss": 2.5516,
9223
+ "step": 30460
9224
+ },
9225
+ {
9226
+ "epoch": 7.877632769091614,
9227
+ "learning_rate": 1.5092700635291067e-07,
9228
+ "loss": 2.5649,
9229
+ "step": 30480
9230
+ },
9231
+ {
9232
+ "epoch": 7.882801395529138,
9233
+ "learning_rate": 1.5089459354336834e-07,
9234
+ "loss": 2.5498,
9235
+ "step": 30500
9236
+ },
9237
+ {
9238
+ "epoch": 7.887970021966662,
9239
+ "learning_rate": 1.50862180733826e-07,
9240
+ "loss": 2.6242,
9241
+ "step": 30520
9242
+ },
9243
+ {
9244
+ "epoch": 7.893138648404187,
9245
+ "learning_rate": 1.5082976792428366e-07,
9246
+ "loss": 2.5774,
9247
+ "step": 30540
9248
+ },
9249
+ {
9250
+ "epoch": 7.898307274841711,
9251
+ "learning_rate": 1.5079735511474135e-07,
9252
+ "loss": 2.5298,
9253
+ "step": 30560
9254
+ },
9255
+ {
9256
+ "epoch": 7.903475901279235,
9257
+ "learning_rate": 1.50764942305199e-07,
9258
+ "loss": 2.55,
9259
+ "step": 30580
9260
+ },
9261
+ {
9262
+ "epoch": 7.908644527716759,
9263
+ "learning_rate": 1.5073252949565667e-07,
9264
+ "loss": 2.5924,
9265
+ "step": 30600
9266
+ },
9267
+ {
9268
+ "epoch": 7.913813154154283,
9269
+ "learning_rate": 1.5070011668611436e-07,
9270
+ "loss": 2.515,
9271
+ "step": 30620
9272
+ },
9273
+ {
9274
+ "epoch": 7.918981780591808,
9275
+ "learning_rate": 1.5066770387657202e-07,
9276
+ "loss": 2.5605,
9277
+ "step": 30640
9278
+ },
9279
+ {
9280
+ "epoch": 7.924150407029332,
9281
+ "learning_rate": 1.5063529106702968e-07,
9282
+ "loss": 2.6101,
9283
+ "step": 30660
9284
+ },
9285
+ {
9286
+ "epoch": 7.929319033466856,
9287
+ "learning_rate": 1.5060287825748734e-07,
9288
+ "loss": 2.5612,
9289
+ "step": 30680
9290
+ },
9291
+ {
9292
+ "epoch": 7.934487659904381,
9293
+ "learning_rate": 1.5057046544794503e-07,
9294
+ "loss": 2.6157,
9295
+ "step": 30700
9296
+ },
9297
+ {
9298
+ "epoch": 7.939656286341904,
9299
+ "learning_rate": 1.505380526384027e-07,
9300
+ "loss": 2.5566,
9301
+ "step": 30720
9302
+ },
9303
+ {
9304
+ "epoch": 7.944824912779429,
9305
+ "learning_rate": 1.5050563982886036e-07,
9306
+ "loss": 2.5501,
9307
+ "step": 30740
9308
+ },
9309
+ {
9310
+ "epoch": 7.949993539216953,
9311
+ "learning_rate": 1.5047322701931802e-07,
9312
+ "loss": 2.5918,
9313
+ "step": 30760
9314
+ },
9315
+ {
9316
+ "epoch": 7.955162165654477,
9317
+ "learning_rate": 1.504408142097757e-07,
9318
+ "loss": 2.5722,
9319
+ "step": 30780
9320
+ },
9321
+ {
9322
+ "epoch": 7.960330792092002,
9323
+ "learning_rate": 1.5040840140023337e-07,
9324
+ "loss": 2.5233,
9325
+ "step": 30800
9326
+ },
9327
+ {
9328
+ "epoch": 7.965499418529526,
9329
+ "learning_rate": 1.5037598859069103e-07,
9330
+ "loss": 2.5999,
9331
+ "step": 30820
9332
+ },
9333
+ {
9334
+ "epoch": 7.97066804496705,
9335
+ "learning_rate": 1.503435757811487e-07,
9336
+ "loss": 2.5356,
9337
+ "step": 30840
9338
+ },
9339
+ {
9340
+ "epoch": 7.975836671404574,
9341
+ "learning_rate": 1.5031116297160638e-07,
9342
+ "loss": 2.5524,
9343
+ "step": 30860
9344
+ },
9345
+ {
9346
+ "epoch": 7.981005297842098,
9347
+ "learning_rate": 1.5027875016206404e-07,
9348
+ "loss": 2.6066,
9349
+ "step": 30880
9350
+ },
9351
+ {
9352
+ "epoch": 7.986173924279623,
9353
+ "learning_rate": 1.502463373525217e-07,
9354
+ "loss": 2.5563,
9355
+ "step": 30900
9356
+ },
9357
+ {
9358
+ "epoch": 7.991342550717147,
9359
+ "learning_rate": 1.502139245429794e-07,
9360
+ "loss": 2.5131,
9361
+ "step": 30920
9362
+ },
9363
+ {
9364
+ "epoch": 7.996511177154671,
9365
+ "learning_rate": 1.5018151173343705e-07,
9366
+ "loss": 2.5943,
9367
+ "step": 30940
9368
+ },
9369
+ {
9370
+ "epoch": 7.999870784339062,
9371
+ "eval_bleu": 8.0263,
9372
+ "eval_gen_len": 40.7538,
9373
+ "eval_loss": 2.5299909114837646,
9374
+ "eval_runtime": 863.7677,
9375
+ "eval_samples_per_second": 1.994,
9376
+ "eval_steps_per_second": 0.997,
9377
+ "step": 30953
9378
  }
9379
  ],
9380
  "logging_steps": 20,
 
9394
  "attributes": {}
9395
  }
9396
  },
9397
+ "total_flos": 2.0319229861453824e+17,
9398
  "train_batch_size": 2,
9399
  "trial_name": null,
9400
  "trial_params": null
last-checkpoint/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:581ac533a892239697e45b2f3ff1f250e5eee0be2c398f8f8ef23a485abea95b
3
- size 5688
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6d11a3b4036b5ce40442d47a4051217581bc97fdd9805ef76304488e63693998
3
+ size 5752