robertou2 commited on
Commit
4445afb
·
verified ·
1 Parent(s): fc66c1c

Upload folder using huggingface_hub

Browse files
adapter_config.json CHANGED
@@ -12,20 +12,20 @@
12
  "layers_pattern": null,
13
  "layers_to_transform": null,
14
  "loftq_config": {},
15
- "lora_alpha": 32,
16
  "lora_bias": false,
17
- "lora_dropout": 0.1,
18
  "megatron_config": null,
19
  "megatron_core": "megatron.core",
20
  "modules_to_save": null,
21
  "peft_type": "LORA",
22
- "r": 8,
23
  "rank_pattern": {},
24
  "revision": null,
25
  "target_modules": [
26
- "o_proj",
27
- "qkv_proj",
28
  "down_proj",
 
 
29
  "gate_up_proj"
30
  ],
31
  "task_type": "CAUSAL_LM",
 
12
  "layers_pattern": null,
13
  "layers_to_transform": null,
14
  "loftq_config": {},
15
+ "lora_alpha": 256,
16
  "lora_bias": false,
17
+ "lora_dropout": 0.05,
18
  "megatron_config": null,
19
  "megatron_core": "megatron.core",
20
  "modules_to_save": null,
21
  "peft_type": "LORA",
22
+ "r": 128,
23
  "rank_pattern": {},
24
  "revision": null,
25
  "target_modules": [
 
 
26
  "down_proj",
27
+ "qkv_proj",
28
+ "o_proj",
29
  "gate_up_proj"
30
  ],
31
  "task_type": "CAUSAL_LM",
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3d75d2f1900d136150bc9f69c7a9e0e33ad74cfafdc4b538c3cdc1ff84b1f858
3
- size 50365768
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f0100030b7ff8690190e7ef79dced9b7035174add1f46efa84ec4fffa0cb9653
3
+ size 805341552
all_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "epoch": 13.16,
3
- "total_flos": 4.609006707373056e+16,
4
- "train_loss": 0.19649009137786924,
5
- "train_runtime": 1023.2839,
6
- "train_samples_per_second": 1.954,
7
- "train_steps_per_second": 0.489
8
  }
 
1
  {
2
+ "epoch": 0.5911330049261084,
3
+ "total_flos": 3091040890361856.0,
4
+ "train_loss": 0.8071238994598389,
5
+ "train_runtime": 47.5593,
6
+ "train_samples_per_second": 2.523,
7
+ "train_steps_per_second": 0.631
8
  }
checkpoint-30/adapter_config.json CHANGED
@@ -12,21 +12,21 @@
12
  "layers_pattern": null,
13
  "layers_to_transform": null,
14
  "loftq_config": {},
15
- "lora_alpha": 32,
16
  "lora_bias": false,
17
- "lora_dropout": 0.1,
18
  "megatron_config": null,
19
  "megatron_core": "megatron.core",
20
  "modules_to_save": null,
21
  "peft_type": "LORA",
22
- "r": 8,
23
  "rank_pattern": {},
24
  "revision": null,
25
  "target_modules": [
26
- "o_proj",
27
  "down_proj",
28
- "gate_up_proj",
29
- "qkv_proj"
 
30
  ],
31
  "task_type": "CAUSAL_LM",
32
  "use_dora": false,
 
12
  "layers_pattern": null,
13
  "layers_to_transform": null,
14
  "loftq_config": {},
15
+ "lora_alpha": 256,
16
  "lora_bias": false,
17
+ "lora_dropout": 0.05,
18
  "megatron_config": null,
19
  "megatron_core": "megatron.core",
20
  "modules_to_save": null,
21
  "peft_type": "LORA",
22
+ "r": 128,
23
  "rank_pattern": {},
24
  "revision": null,
25
  "target_modules": [
 
26
  "down_proj",
27
+ "qkv_proj",
28
+ "o_proj",
29
+ "gate_up_proj"
30
  ],
31
  "task_type": "CAUSAL_LM",
32
  "use_dora": false,
checkpoint-30/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ac312c75ecc11be8143282ae902ba4553cd5eb4ea1d88f7a7b71ea13c423069b
3
- size 50365768
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f0100030b7ff8690190e7ef79dced9b7035174add1f46efa84ec4fffa0cb9653
3
+ size 805341552
checkpoint-30/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2f510fdb4aa58dff1c9046b1ff0b0c55c43d10af6eb99941ec5bf247cb52555f
3
- size 25860052
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4d45990c959b5aa8e27ea783400216ad58534b9e5ebaf22d1c4adb668c4b1860
3
+ size 409252308
checkpoint-30/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8621019308244c1919ff02f7bf511346d02d639f5e292e9a89b62a1b2014a9f2
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:da0abae75724381db855439e8d725b6b5fb3609dc4b6a8234767cd8c6a72a7a1
3
  size 14244
checkpoint-30/trainer_state.json CHANGED
@@ -1,7 +1,8 @@
1
  {
 
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.8888888888888888,
5
  "eval_steps": 500,
6
  "global_step": 30,
7
  "is_hyper_param_search": false,
@@ -9,45 +10,45 @@
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
- "epoch": 0.14814814814814814,
13
- "grad_norm": 0.698034405708313,
14
  "learning_rate": 1e-05,
15
- "loss": 1.0499,
16
  "step": 5
17
  },
18
  {
19
- "epoch": 0.2962962962962963,
20
- "grad_norm": 0.6879444122314453,
21
  "learning_rate": 2e-05,
22
- "loss": 0.8464,
23
  "step": 10
24
  },
25
  {
26
- "epoch": 0.4444444444444444,
27
- "grad_norm": 0.7698917388916016,
28
  "learning_rate": 3e-05,
29
- "loss": 0.6753,
30
  "step": 15
31
  },
32
  {
33
- "epoch": 0.5925925925925926,
34
- "grad_norm": 0.4968474805355072,
35
  "learning_rate": 4e-05,
36
- "loss": 0.7402,
37
  "step": 20
38
  },
39
  {
40
- "epoch": 0.7407407407407407,
41
- "grad_norm": 0.5698899030685425,
42
  "learning_rate": 5e-05,
43
- "loss": 0.8461,
44
  "step": 25
45
  },
46
  {
47
- "epoch": 0.8888888888888888,
48
- "grad_norm": 0.7157831192016602,
49
  "learning_rate": 6e-05,
50
- "loss": 0.701,
51
  "step": 30
52
  }
53
  ],
@@ -68,7 +69,7 @@
68
  "attributes": {}
69
  }
70
  },
71
- "total_flos": 2711727507456000.0,
72
  "train_batch_size": 1,
73
  "trial_name": null,
74
  "trial_params": null
 
1
  {
2
+ "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.5911330049261084,
6
  "eval_steps": 500,
7
  "global_step": 30,
8
  "is_hyper_param_search": false,
 
10
  "is_world_process_zero": true,
11
  "log_history": [
12
  {
13
+ "epoch": 0.09852216748768473,
14
+ "grad_norm": 0.9535083770751953,
15
  "learning_rate": 1e-05,
16
+ "loss": 0.8235,
17
  "step": 5
18
  },
19
  {
20
+ "epoch": 0.19704433497536947,
21
+ "grad_norm": 0.8967114686965942,
22
  "learning_rate": 2e-05,
23
+ "loss": 0.8996,
24
  "step": 10
25
  },
26
  {
27
+ "epoch": 0.2955665024630542,
28
+ "grad_norm": 0.7553922533988953,
29
  "learning_rate": 3e-05,
30
+ "loss": 0.8739,
31
  "step": 15
32
  },
33
  {
34
+ "epoch": 0.39408866995073893,
35
+ "grad_norm": 12.434737205505371,
36
  "learning_rate": 4e-05,
37
+ "loss": 0.6414,
38
  "step": 20
39
  },
40
  {
41
+ "epoch": 0.49261083743842365,
42
+ "grad_norm": 0.6539486646652222,
43
  "learning_rate": 5e-05,
44
+ "loss": 0.8106,
45
  "step": 25
46
  },
47
  {
48
+ "epoch": 0.5911330049261084,
49
+ "grad_norm": 0.5894852876663208,
50
  "learning_rate": 6e-05,
51
+ "loss": 0.7937,
52
  "step": 30
53
  }
54
  ],
 
69
  "attributes": {}
70
  }
71
  },
72
+ "total_flos": 3091040890361856.0,
73
  "train_batch_size": 1,
74
  "trial_name": null,
75
  "trial_params": null
checkpoint-30/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:817e2e9b05f7dcf5f31e63215ed31a70e206564ea84572c749c7ec4ca9472831
3
  size 5624
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:922e5b73b28d4a5fc21d104d65d092a911369bf70e2e80308e7ad3d59b401c73
3
  size 5624
train_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "epoch": 13.16,
3
- "total_flos": 4.609006707373056e+16,
4
- "train_loss": 0.19649009137786924,
5
- "train_runtime": 1023.2839,
6
- "train_samples_per_second": 1.954,
7
- "train_steps_per_second": 0.489
8
  }
 
1
  {
2
+ "epoch": 0.5911330049261084,
3
+ "total_flos": 3091040890361856.0,
4
+ "train_loss": 0.8071238994598389,
5
+ "train_runtime": 47.5593,
6
+ "train_samples_per_second": 2.523,
7
+ "train_steps_per_second": 0.631
8
  }
trainer_state.json CHANGED
@@ -1,727 +1,70 @@
1
  {
 
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 13.16,
5
  "eval_steps": 500,
6
- "global_step": 500,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
- "epoch": 0.13333333333333333,
13
- "grad_norm": 1.4048924446105957,
14
  "learning_rate": 1e-05,
15
- "loss": 0.7666,
16
  "step": 5
17
  },
18
  {
19
- "epoch": 0.26666666666666666,
20
- "grad_norm": 0.779962420463562,
21
  "learning_rate": 2e-05,
22
- "loss": 0.8227,
23
  "step": 10
24
  },
25
  {
26
- "epoch": 0.4,
27
- "grad_norm": 0.6772681474685669,
28
  "learning_rate": 3e-05,
29
- "loss": 0.8927,
30
  "step": 15
31
  },
32
  {
33
- "epoch": 0.5333333333333333,
34
- "grad_norm": 0.3558235168457031,
35
  "learning_rate": 4e-05,
36
- "loss": 0.7447,
37
  "step": 20
38
  },
39
  {
40
- "epoch": 0.6666666666666666,
41
- "grad_norm": 0.8107256889343262,
42
  "learning_rate": 5e-05,
43
- "loss": 0.7544,
44
  "step": 25
45
  },
46
  {
47
- "epoch": 0.8,
48
- "grad_norm": 0.3786630630493164,
49
  "learning_rate": 6e-05,
50
- "loss": 0.6356,
51
  "step": 30
52
  },
53
  {
54
- "epoch": 0.9333333333333333,
55
- "grad_norm": 0.46198970079421997,
56
- "learning_rate": 7e-05,
57
- "loss": 0.7019,
58
- "step": 35
59
- },
60
- {
61
- "epoch": 1.0533333333333332,
62
- "grad_norm": 0.42797496914863586,
63
- "learning_rate": 8e-05,
64
- "loss": 0.5952,
65
- "step": 40
66
- },
67
- {
68
- "epoch": 1.1866666666666668,
69
- "grad_norm": 0.49653759598731995,
70
- "learning_rate": 9e-05,
71
- "loss": 0.6872,
72
- "step": 45
73
- },
74
- {
75
- "epoch": 1.32,
76
- "grad_norm": 0.7207635641098022,
77
- "learning_rate": 0.0001,
78
- "loss": 0.5546,
79
- "step": 50
80
- },
81
- {
82
- "epoch": 1.4533333333333334,
83
- "grad_norm": 0.7673625946044922,
84
- "learning_rate": 0.00011000000000000002,
85
- "loss": 0.5981,
86
- "step": 55
87
- },
88
- {
89
- "epoch": 1.5866666666666667,
90
- "grad_norm": 1.0735150575637817,
91
- "learning_rate": 0.00012,
92
- "loss": 0.6894,
93
- "step": 60
94
- },
95
- {
96
- "epoch": 1.72,
97
- "grad_norm": 0.6854905486106873,
98
- "learning_rate": 0.00013000000000000002,
99
- "loss": 0.6419,
100
- "step": 65
101
- },
102
- {
103
- "epoch": 1.8533333333333335,
104
- "grad_norm": 0.6493762731552124,
105
- "learning_rate": 0.00014,
106
- "loss": 0.5509,
107
- "step": 70
108
- },
109
- {
110
- "epoch": 1.9866666666666668,
111
- "grad_norm": 0.33443498611450195,
112
- "learning_rate": 0.00015000000000000001,
113
- "loss": 0.5289,
114
- "step": 75
115
- },
116
- {
117
- "epoch": 2.1066666666666665,
118
- "grad_norm": 0.274117648601532,
119
- "learning_rate": 0.00016,
120
- "loss": 0.5782,
121
- "step": 80
122
- },
123
- {
124
- "epoch": 2.24,
125
- "grad_norm": 0.6764754056930542,
126
- "learning_rate": 0.00017,
127
- "loss": 0.5571,
128
- "step": 85
129
- },
130
- {
131
- "epoch": 2.3733333333333335,
132
- "grad_norm": 0.5324050784111023,
133
- "learning_rate": 0.00018,
134
- "loss": 0.4483,
135
- "step": 90
136
- },
137
- {
138
- "epoch": 2.506666666666667,
139
- "grad_norm": 0.5388379096984863,
140
- "learning_rate": 0.00019,
141
- "loss": 0.3829,
142
- "step": 95
143
- },
144
- {
145
- "epoch": 2.64,
146
- "grad_norm": 0.5039830207824707,
147
- "learning_rate": 0.0002,
148
- "loss": 0.5479,
149
- "step": 100
150
- },
151
- {
152
- "epoch": 2.7733333333333334,
153
- "grad_norm": 1.287005066871643,
154
- "learning_rate": 0.0001999229036240723,
155
- "loss": 0.5669,
156
- "step": 105
157
- },
158
- {
159
- "epoch": 2.9066666666666667,
160
- "grad_norm": 0.7880101799964905,
161
- "learning_rate": 0.0001996917333733128,
162
- "loss": 0.4038,
163
- "step": 110
164
- },
165
- {
166
- "epoch": 3.026666666666667,
167
- "grad_norm": 0.8152766227722168,
168
- "learning_rate": 0.00019930684569549264,
169
- "loss": 0.439,
170
- "step": 115
171
- },
172
- {
173
- "epoch": 3.16,
174
- "grad_norm": 0.660615861415863,
175
- "learning_rate": 0.00019876883405951377,
176
- "loss": 0.2819,
177
- "step": 120
178
- },
179
- {
180
- "epoch": 3.2933333333333334,
181
- "grad_norm": 0.9776943325996399,
182
- "learning_rate": 0.00019807852804032305,
183
- "loss": 0.3127,
184
- "step": 125
185
- },
186
- {
187
- "epoch": 3.4266666666666667,
188
- "grad_norm": 0.8148934245109558,
189
- "learning_rate": 0.00019723699203976766,
190
- "loss": 0.3398,
191
- "step": 130
192
- },
193
- {
194
- "epoch": 3.56,
195
- "grad_norm": 1.9235339164733887,
196
- "learning_rate": 0.00019624552364536473,
197
- "loss": 0.3509,
198
- "step": 135
199
- },
200
- {
201
- "epoch": 3.6933333333333334,
202
- "grad_norm": 1.205474853515625,
203
- "learning_rate": 0.00019510565162951537,
204
- "loss": 0.4016,
205
- "step": 140
206
- },
207
- {
208
- "epoch": 3.8266666666666667,
209
- "grad_norm": 0.6102964282035828,
210
- "learning_rate": 0.00019381913359224842,
211
- "loss": 0.2612,
212
- "step": 145
213
- },
214
- {
215
- "epoch": 3.96,
216
- "grad_norm": 0.9407595992088318,
217
- "learning_rate": 0.0001923879532511287,
218
- "loss": 0.3213,
219
- "step": 150
220
- },
221
- {
222
- "epoch": 4.08,
223
- "grad_norm": 0.7562478184700012,
224
- "learning_rate": 0.00019081431738250814,
225
- "loss": 0.2491,
226
- "step": 155
227
- },
228
- {
229
- "epoch": 4.213333333333333,
230
- "grad_norm": 0.791593074798584,
231
- "learning_rate": 0.0001891006524188368,
232
- "loss": 0.1952,
233
- "step": 160
234
- },
235
- {
236
- "epoch": 4.346666666666667,
237
- "grad_norm": 1.438049077987671,
238
- "learning_rate": 0.00018724960070727972,
239
- "loss": 0.2156,
240
- "step": 165
241
- },
242
- {
243
- "epoch": 4.48,
244
- "grad_norm": 0.6928703784942627,
245
- "learning_rate": 0.00018526401643540922,
246
- "loss": 0.1574,
247
- "step": 170
248
- },
249
- {
250
- "epoch": 4.613333333333333,
251
- "grad_norm": 1.160597801208496,
252
- "learning_rate": 0.00018314696123025454,
253
- "loss": 0.2015,
254
- "step": 175
255
- },
256
- {
257
- "epoch": 4.746666666666667,
258
- "grad_norm": 1.8100343942642212,
259
- "learning_rate": 0.00018090169943749476,
260
- "loss": 0.2436,
261
- "step": 180
262
- },
263
- {
264
- "epoch": 4.88,
265
- "grad_norm": 0.8268325924873352,
266
- "learning_rate": 0.00017853169308807448,
267
- "loss": 0.2164,
268
- "step": 185
269
- },
270
- {
271
- "epoch": 5.0,
272
- "grad_norm": 2.3288047313690186,
273
- "learning_rate": 0.0001760405965600031,
274
- "loss": 0.2071,
275
- "step": 190
276
- },
277
- {
278
- "epoch": 5.133333333333334,
279
- "grad_norm": 1.0968126058578491,
280
- "learning_rate": 0.00017343225094356855,
281
- "loss": 0.1335,
282
- "step": 195
283
- },
284
- {
285
- "epoch": 5.266666666666667,
286
- "grad_norm": 0.9570348858833313,
287
- "learning_rate": 0.00017071067811865476,
288
- "loss": 0.0857,
289
- "step": 200
290
- },
291
- {
292
- "epoch": 5.4,
293
- "grad_norm": 1.313133955001831,
294
- "learning_rate": 0.0001678800745532942,
295
- "loss": 0.1254,
296
- "step": 205
297
- },
298
- {
299
- "epoch": 5.533333333333333,
300
- "grad_norm": 1.1976529359817505,
301
- "learning_rate": 0.00016494480483301836,
302
- "loss": 0.1338,
303
- "step": 210
304
- },
305
- {
306
- "epoch": 5.666666666666667,
307
- "grad_norm": 1.234705924987793,
308
- "learning_rate": 0.00016190939493098344,
309
- "loss": 0.1117,
310
- "step": 215
311
- },
312
- {
313
- "epoch": 5.8,
314
- "grad_norm": 0.729626476764679,
315
- "learning_rate": 0.00015877852522924732,
316
- "loss": 0.0908,
317
- "step": 220
318
- },
319
- {
320
- "epoch": 5.933333333333334,
321
- "grad_norm": 0.6159748435020447,
322
- "learning_rate": 0.00015555702330196023,
323
- "loss": 0.0859,
324
- "step": 225
325
- },
326
- {
327
- "epoch": 6.053333333333334,
328
- "grad_norm": 0.6365455389022827,
329
- "learning_rate": 0.0001522498564715949,
330
- "loss": 0.0752,
331
- "step": 230
332
- },
333
- {
334
- "epoch": 6.1866666666666665,
335
- "grad_norm": 0.6191051006317139,
336
- "learning_rate": 0.00014886212414969553,
337
- "loss": 0.0496,
338
- "step": 235
339
- },
340
- {
341
- "epoch": 6.32,
342
- "grad_norm": 0.835532009601593,
343
- "learning_rate": 0.00014539904997395468,
344
- "loss": 0.0642,
345
- "step": 240
346
- },
347
- {
348
- "epoch": 6.453333333333333,
349
- "grad_norm": 0.9120854139328003,
350
- "learning_rate": 0.0001418659737537428,
351
- "loss": 0.0552,
352
- "step": 245
353
- },
354
- {
355
- "epoch": 6.586666666666667,
356
- "grad_norm": 1.309117078781128,
357
- "learning_rate": 0.000138268343236509,
358
- "loss": 0.0523,
359
- "step": 250
360
- },
361
- {
362
- "epoch": 6.72,
363
- "grad_norm": 0.5572851896286011,
364
- "learning_rate": 0.0001346117057077493,
365
- "loss": 0.048,
366
- "step": 255
367
- },
368
- {
369
- "epoch": 6.8533333333333335,
370
- "grad_norm": 0.6184096336364746,
371
- "learning_rate": 0.00013090169943749476,
372
- "loss": 0.0481,
373
- "step": 260
374
- },
375
- {
376
- "epoch": 6.986666666666666,
377
- "grad_norm": 0.8938915729522705,
378
- "learning_rate": 0.00012714404498650743,
379
- "loss": 0.0531,
380
- "step": 265
381
- },
382
- {
383
- "epoch": 7.1066666666666665,
384
- "grad_norm": 0.33379557728767395,
385
- "learning_rate": 0.00012334453638559057,
386
- "loss": 0.0439,
387
- "step": 270
388
- },
389
- {
390
- "epoch": 7.24,
391
- "grad_norm": 0.6010497212409973,
392
- "learning_rate": 0.00011950903220161285,
393
- "loss": 0.0223,
394
- "step": 275
395
- },
396
- {
397
- "epoch": 7.373333333333333,
398
- "grad_norm": 0.3853472173213959,
399
- "learning_rate": 0.0001156434465040231,
400
- "loss": 0.0269,
401
- "step": 280
402
- },
403
- {
404
- "epoch": 7.506666666666667,
405
- "grad_norm": 0.6208595037460327,
406
- "learning_rate": 0.00011175373974578378,
407
- "loss": 0.0235,
408
- "step": 285
409
- },
410
- {
411
- "epoch": 7.64,
412
- "grad_norm": 0.5462209582328796,
413
- "learning_rate": 0.0001078459095727845,
414
- "loss": 0.0293,
415
- "step": 290
416
- },
417
- {
418
- "epoch": 7.773333333333333,
419
- "grad_norm": 0.7936717867851257,
420
- "learning_rate": 0.00010392598157590688,
421
- "loss": 0.0221,
422
- "step": 295
423
- },
424
- {
425
- "epoch": 7.906666666666666,
426
- "grad_norm": 0.6207137703895569,
427
- "learning_rate": 0.0001,
428
- "loss": 0.0244,
429
- "step": 300
430
- },
431
- {
432
- "epoch": 8.026666666666667,
433
- "grad_norm": 0.30363529920578003,
434
- "learning_rate": 9.607401842409317e-05,
435
- "loss": 0.0192,
436
- "step": 305
437
- },
438
- {
439
- "epoch": 8.16,
440
- "grad_norm": 0.19360464811325073,
441
- "learning_rate": 9.215409042721552e-05,
442
- "loss": 0.0112,
443
- "step": 310
444
- },
445
- {
446
- "epoch": 8.293333333333333,
447
- "grad_norm": 0.18830697238445282,
448
- "learning_rate": 8.824626025421626e-05,
449
- "loss": 0.0144,
450
- "step": 315
451
- },
452
- {
453
- "epoch": 8.426666666666666,
454
- "grad_norm": 0.2931200861930847,
455
- "learning_rate": 8.435655349597689e-05,
456
- "loss": 0.0121,
457
- "step": 320
458
- },
459
- {
460
- "epoch": 8.56,
461
- "grad_norm": 0.20501606166362762,
462
- "learning_rate": 8.049096779838719e-05,
463
- "loss": 0.0087,
464
- "step": 325
465
- },
466
- {
467
- "epoch": 8.693333333333333,
468
- "grad_norm": 0.28209131956100464,
469
- "learning_rate": 7.66554636144095e-05,
470
- "loss": 0.0097,
471
- "step": 330
472
- },
473
- {
474
- "epoch": 8.826666666666666,
475
- "grad_norm": 0.39202964305877686,
476
- "learning_rate": 7.285595501349258e-05,
477
- "loss": 0.0107,
478
- "step": 335
479
- },
480
- {
481
- "epoch": 8.96,
482
- "grad_norm": 0.8103435039520264,
483
- "learning_rate": 6.909830056250527e-05,
484
- "loss": 0.0101,
485
- "step": 340
486
- },
487
- {
488
- "epoch": 9.08,
489
- "grad_norm": 0.3019217252731323,
490
- "learning_rate": 6.538829429225069e-05,
491
- "loss": 0.0076,
492
- "step": 345
493
- },
494
- {
495
- "epoch": 9.213333333333333,
496
- "grad_norm": 0.1781633049249649,
497
- "learning_rate": 6.173165676349103e-05,
498
- "loss": 0.0049,
499
- "step": 350
500
- },
501
- {
502
- "epoch": 9.346666666666668,
503
- "grad_norm": 0.2368287593126297,
504
- "learning_rate": 5.8134026246257225e-05,
505
- "loss": 0.0044,
506
- "step": 355
507
- },
508
- {
509
- "epoch": 9.48,
510
- "grad_norm": 0.1763859987258911,
511
- "learning_rate": 5.4600950026045326e-05,
512
- "loss": 0.0065,
513
- "step": 360
514
- },
515
- {
516
- "epoch": 9.613333333333333,
517
- "grad_norm": 0.2830829918384552,
518
- "learning_rate": 5.113787585030454e-05,
519
- "loss": 0.0043,
520
- "step": 365
521
- },
522
- {
523
- "epoch": 9.746666666666666,
524
- "grad_norm": 0.17518676817417145,
525
- "learning_rate": 4.7750143528405126e-05,
526
- "loss": 0.0047,
527
- "step": 370
528
- },
529
- {
530
- "epoch": 9.88,
531
- "grad_norm": 0.10696718096733093,
532
- "learning_rate": 4.444297669803981e-05,
533
- "loss": 0.0044,
534
- "step": 375
535
- },
536
- {
537
- "epoch": 10.0,
538
- "grad_norm": 0.18552780151367188,
539
- "learning_rate": 4.12214747707527e-05,
540
- "loss": 0.0049,
541
- "step": 380
542
- },
543
- {
544
- "epoch": 10.133333333333333,
545
- "grad_norm": 0.07388182729482651,
546
- "learning_rate": 3.8090605069016595e-05,
547
- "loss": 0.0031,
548
- "step": 385
549
- },
550
- {
551
- "epoch": 10.266666666666667,
552
- "grad_norm": 0.15940183401107788,
553
- "learning_rate": 3.5055195166981645e-05,
554
- "loss": 0.0029,
555
- "step": 390
556
- },
557
- {
558
- "epoch": 10.4,
559
- "grad_norm": 0.07301970571279526,
560
- "learning_rate": 3.211992544670582e-05,
561
- "loss": 0.0023,
562
- "step": 395
563
- },
564
- {
565
- "epoch": 10.533333333333333,
566
- "grad_norm": 0.18599063158035278,
567
- "learning_rate": 2.9289321881345254e-05,
568
- "loss": 0.003,
569
- "step": 400
570
- },
571
- {
572
- "epoch": 10.666666666666666,
573
- "grad_norm": 0.08508925139904022,
574
- "learning_rate": 2.6567749056431467e-05,
575
- "loss": 0.003,
576
- "step": 405
577
- },
578
- {
579
- "epoch": 10.8,
580
- "grad_norm": 0.051980435848236084,
581
- "learning_rate": 2.3959403439996907e-05,
582
- "loss": 0.0031,
583
- "step": 410
584
- },
585
- {
586
- "epoch": 10.933333333333334,
587
- "grad_norm": 0.09313967078924179,
588
- "learning_rate": 2.146830691192553e-05,
589
- "loss": 0.0032,
590
- "step": 415
591
- },
592
- {
593
- "epoch": 11.053333333333333,
594
- "grad_norm": 0.04667476937174797,
595
- "learning_rate": 1.9098300562505266e-05,
596
- "loss": 0.0028,
597
- "step": 420
598
- },
599
- {
600
- "epoch": 11.186666666666667,
601
- "grad_norm": 0.05424318090081215,
602
- "learning_rate": 1.6853038769745467e-05,
603
- "loss": 0.0025,
604
- "step": 425
605
- },
606
- {
607
- "epoch": 11.32,
608
- "grad_norm": 0.06408827006816864,
609
- "learning_rate": 1.4735983564590783e-05,
610
- "loss": 0.0026,
611
- "step": 430
612
- },
613
- {
614
- "epoch": 11.453333333333333,
615
- "grad_norm": 0.06944520026445389,
616
- "learning_rate": 1.2750399292720283e-05,
617
- "loss": 0.0029,
618
- "step": 435
619
- },
620
- {
621
- "epoch": 11.586666666666666,
622
- "grad_norm": 0.05019211769104004,
623
- "learning_rate": 1.0899347581163221e-05,
624
- "loss": 0.0023,
625
- "step": 440
626
- },
627
- {
628
- "epoch": 11.72,
629
- "grad_norm": 0.042886920273303986,
630
- "learning_rate": 9.185682617491863e-06,
631
- "loss": 0.0024,
632
- "step": 445
633
- },
634
- {
635
- "epoch": 11.853333333333333,
636
- "grad_norm": 0.07555174082517624,
637
- "learning_rate": 7.612046748871327e-06,
638
- "loss": 0.0024,
639
- "step": 450
640
- },
641
- {
642
- "epoch": 11.986666666666666,
643
- "grad_norm": 0.05007031559944153,
644
- "learning_rate": 6.180866407751595e-06,
645
- "loss": 0.0024,
646
- "step": 455
647
- },
648
- {
649
- "epoch": 12.106666666666667,
650
- "grad_norm": 0.044344205409288406,
651
- "learning_rate": 4.8943483704846475e-06,
652
- "loss": 0.0023,
653
- "step": 460
654
- },
655
- {
656
- "epoch": 12.24,
657
- "grad_norm": 0.09977416694164276,
658
- "learning_rate": 3.7544763546352834e-06,
659
- "loss": 0.0024,
660
- "step": 465
661
- },
662
- {
663
- "epoch": 12.373333333333333,
664
- "grad_norm": 0.051654569804668427,
665
- "learning_rate": 2.7630079602323442e-06,
666
- "loss": 0.0024,
667
- "step": 470
668
- },
669
- {
670
- "epoch": 12.506666666666666,
671
- "grad_norm": 0.06595998257398605,
672
- "learning_rate": 1.921471959676957e-06,
673
- "loss": 0.0024,
674
- "step": 475
675
- },
676
- {
677
- "epoch": 12.64,
678
- "grad_norm": 0.05855317786335945,
679
- "learning_rate": 1.231165940486234e-06,
680
- "loss": 0.0025,
681
- "step": 480
682
- },
683
- {
684
- "epoch": 12.773333333333333,
685
- "grad_norm": 0.05403890460729599,
686
- "learning_rate": 6.931543045073708e-07,
687
- "loss": 0.0024,
688
- "step": 485
689
- },
690
- {
691
- "epoch": 12.906666666666666,
692
- "grad_norm": 0.05437196418642998,
693
- "learning_rate": 3.0826662668720364e-07,
694
- "loss": 0.0028,
695
- "step": 490
696
- },
697
- {
698
- "epoch": 13.026666666666667,
699
- "grad_norm": 0.035325415432453156,
700
- "learning_rate": 7.709637592770991e-08,
701
- "loss": 0.0015,
702
- "step": 495
703
- },
704
- {
705
- "epoch": 13.16,
706
- "grad_norm": 0.046797532588243484,
707
- "learning_rate": 0.0,
708
- "loss": 0.0026,
709
- "step": 500
710
- },
711
- {
712
- "epoch": 13.16,
713
- "step": 500,
714
- "total_flos": 4.609006707373056e+16,
715
- "train_loss": 0.19649009137786924,
716
- "train_runtime": 1023.2839,
717
- "train_samples_per_second": 1.954,
718
- "train_steps_per_second": 0.489
719
  }
720
  ],
721
  "logging_steps": 5,
722
- "max_steps": 500,
723
  "num_input_tokens_seen": 0,
724
- "num_train_epochs": 14,
725
  "save_steps": 500,
726
  "stateful_callbacks": {
727
  "TrainerControl": {
@@ -735,7 +78,7 @@
735
  "attributes": {}
736
  }
737
  },
738
- "total_flos": 4.609006707373056e+16,
739
  "train_batch_size": 1,
740
  "trial_name": null,
741
  "trial_params": null
 
1
  {
2
+ "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.5911330049261084,
6
  "eval_steps": 500,
7
+ "global_step": 30,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
11
  "log_history": [
12
  {
13
+ "epoch": 0.09852216748768473,
14
+ "grad_norm": 0.9535083770751953,
15
  "learning_rate": 1e-05,
16
+ "loss": 0.8235,
17
  "step": 5
18
  },
19
  {
20
+ "epoch": 0.19704433497536947,
21
+ "grad_norm": 0.8967114686965942,
22
  "learning_rate": 2e-05,
23
+ "loss": 0.8996,
24
  "step": 10
25
  },
26
  {
27
+ "epoch": 0.2955665024630542,
28
+ "grad_norm": 0.7553922533988953,
29
  "learning_rate": 3e-05,
30
+ "loss": 0.8739,
31
  "step": 15
32
  },
33
  {
34
+ "epoch": 0.39408866995073893,
35
+ "grad_norm": 12.434737205505371,
36
  "learning_rate": 4e-05,
37
+ "loss": 0.6414,
38
  "step": 20
39
  },
40
  {
41
+ "epoch": 0.49261083743842365,
42
+ "grad_norm": 0.6539486646652222,
43
  "learning_rate": 5e-05,
44
+ "loss": 0.8106,
45
  "step": 25
46
  },
47
  {
48
+ "epoch": 0.5911330049261084,
49
+ "grad_norm": 0.5894852876663208,
50
  "learning_rate": 6e-05,
51
+ "loss": 0.7937,
52
  "step": 30
53
  },
54
  {
55
+ "epoch": 0.5911330049261084,
56
+ "step": 30,
57
+ "total_flos": 3091040890361856.0,
58
+ "train_loss": 0.8071238994598389,
59
+ "train_runtime": 47.5593,
60
+ "train_samples_per_second": 2.523,
61
+ "train_steps_per_second": 0.631
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
62
  }
63
  ],
64
  "logging_steps": 5,
65
+ "max_steps": 30,
66
  "num_input_tokens_seen": 0,
67
+ "num_train_epochs": 1,
68
  "save_steps": 500,
69
  "stateful_callbacks": {
70
  "TrainerControl": {
 
78
  "attributes": {}
79
  }
80
  },
81
+ "total_flos": 3091040890361856.0,
82
  "train_batch_size": 1,
83
  "trial_name": null,
84
  "trial_params": null
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8ebbcac17cd5daf972173dc1f308a23f7ea1748c02fb8f80e2a6c5471ca8fdbb
3
  size 5624
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:922e5b73b28d4a5fc21d104d65d092a911369bf70e2e80308e7ad3d59b401c73
3
  size 5624