Namronaldo2004 commited on
Commit
be673c2
·
1 Parent(s): bbf2cd4

Update fine-tuned model

Browse files
adapter_config.json CHANGED
@@ -20,13 +20,13 @@
20
  "rank_pattern": {},
21
  "revision": null,
22
  "target_modules": [
23
- "o_proj",
24
  "v_proj",
25
- "gate_proj",
26
- "q_proj",
27
  "k_proj",
 
28
  "down_proj",
29
- "up_proj"
 
30
  ],
31
  "task_type": " CAUSAL_LM",
32
  "use_dora": false,
 
20
  "rank_pattern": {},
21
  "revision": null,
22
  "target_modules": [
23
+ "up_proj",
24
  "v_proj",
 
 
25
  "k_proj",
26
+ "o_proj",
27
  "down_proj",
28
+ "q_proj",
29
+ "gate_proj"
30
  ],
31
  "task_type": " CAUSAL_LM",
32
  "use_dora": false,
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4a641f6d2564a6076878554540bdfe200bfec1fc0994c52eb1b36ef9117046a1
3
  size 159967880
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5071eefd11452403100752dcc8e9cf21826af65505b32f044995ac421709a382
3
  size 159967880
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:66f85623ed373017f1217e306ec9e8d3699fa5a4bd07aa5e758198be749b67e4
3
  size 852876198
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1ceb9954b27df0a9c7b22a4b0dd40f1a6d9b2c5115174dc93ae5e730e35959d7
3
  size 852876198
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7bcd1946989dec18b20ec0998bdf631c74a9092694d6c30d23748c8509993d51
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7b918787de9d3efe75e74ec5c4be660d11de629db20fd08362ba694defebb8f6
3
  size 14244
trainer_state.json CHANGED
@@ -10,527 +10,527 @@
10
  "log_history": [
11
  {
12
  "epoch": 0.06666666666666667,
13
- "grad_norm": 0.9476538300514221,
14
  "learning_rate": 5e-05,
15
- "loss": 0.9643,
16
  "step": 1
17
  },
18
  {
19
  "epoch": 0.13333333333333333,
20
- "grad_norm": 0.9662647843360901,
21
  "learning_rate": 0.0001,
22
- "loss": 0.9546,
23
  "step": 2
24
  },
25
  {
26
  "epoch": 0.2,
27
- "grad_norm": 0.7108058333396912,
28
  "learning_rate": 0.00015000000000000001,
29
- "loss": 0.8759,
30
  "step": 3
31
  },
32
  {
33
  "epoch": 0.26666666666666666,
34
- "grad_norm": 0.5320820212364197,
35
  "learning_rate": 0.0002,
36
- "loss": 0.8395,
37
  "step": 4
38
  },
39
  {
40
  "epoch": 0.3333333333333333,
41
- "grad_norm": 0.48567327857017517,
42
  "learning_rate": 0.00019990212265199738,
43
- "loss": 0.7871,
44
  "step": 5
45
  },
46
  {
47
  "epoch": 0.4,
48
- "grad_norm": 0.41398224234580994,
49
  "learning_rate": 0.00019960868220749448,
50
- "loss": 0.7754,
51
  "step": 6
52
  },
53
  {
54
  "epoch": 0.4666666666666667,
55
- "grad_norm": 0.3813694715499878,
56
  "learning_rate": 0.00019912025308994148,
57
- "loss": 0.7711,
58
  "step": 7
59
  },
60
  {
61
  "epoch": 0.5333333333333333,
62
- "grad_norm": 0.3496707081794739,
63
  "learning_rate": 0.00019843779142227256,
64
- "loss": 0.812,
65
  "step": 8
66
  },
67
  {
68
  "epoch": 0.6,
69
- "grad_norm": 0.31798169016838074,
70
  "learning_rate": 0.0001975626331552507,
71
- "loss": 0.7317,
72
  "step": 9
73
  },
74
  {
75
  "epoch": 0.6666666666666666,
76
- "grad_norm": 0.29637330770492554,
77
  "learning_rate": 0.00019649649145228102,
78
- "loss": 0.7586,
79
  "step": 10
80
  },
81
  {
82
  "epoch": 0.7333333333333333,
83
- "grad_norm": 0.27794530987739563,
84
  "learning_rate": 0.00019524145333581317,
85
- "loss": 0.7274,
86
  "step": 11
87
  },
88
  {
89
  "epoch": 0.8,
90
- "grad_norm": 0.2824317216873169,
91
  "learning_rate": 0.00019379997560189675,
92
- "loss": 0.7263,
93
  "step": 12
94
  },
95
  {
96
  "epoch": 0.8666666666666667,
97
- "grad_norm": 0.27272021770477295,
98
  "learning_rate": 0.00019217488001088784,
99
- "loss": 0.7107,
100
  "step": 13
101
  },
102
  {
103
  "epoch": 0.9333333333333333,
104
- "grad_norm": 0.2762473523616791,
105
  "learning_rate": 0.0001903693477637204,
106
- "loss": 0.7007,
107
  "step": 14
108
  },
109
  {
110
  "epoch": 1.0,
111
- "grad_norm": 0.2674989104270935,
112
  "learning_rate": 0.0001883869132745561,
113
- "loss": 0.6997,
114
  "step": 15
115
  },
116
  {
117
  "epoch": 1.0666666666666667,
118
- "grad_norm": 0.3227459490299225,
119
  "learning_rate": 0.00018623145725200278,
120
- "loss": 0.6351,
121
  "step": 16
122
  },
123
  {
124
  "epoch": 1.1333333333333333,
125
- "grad_norm": 0.2768968939781189,
126
  "learning_rate": 0.00018390719910244487,
127
- "loss": 0.6226,
128
  "step": 17
129
  },
130
  {
131
  "epoch": 1.2,
132
- "grad_norm": 0.27085432410240173,
133
  "learning_rate": 0.00018141868867035745,
134
- "loss": 0.5835,
135
  "step": 18
136
  },
137
  {
138
  "epoch": 1.2666666666666666,
139
- "grad_norm": 0.2956984043121338,
140
  "learning_rate": 0.00017877079733177184,
141
- "loss": 0.6212,
142
  "step": 19
143
  },
144
  {
145
  "epoch": 1.3333333333333333,
146
- "grad_norm": 0.2729918360710144,
147
  "learning_rate": 0.0001759687084583285,
148
- "loss": 0.6001,
149
  "step": 20
150
  },
151
  {
152
  "epoch": 1.4,
153
- "grad_norm": 0.26887187361717224,
154
  "learning_rate": 0.00017301790727058345,
155
- "loss": 0.5663,
156
  "step": 21
157
  },
158
  {
159
  "epoch": 1.4666666666666668,
160
- "grad_norm": 0.2910808324813843,
161
  "learning_rate": 0.00016992417010043142,
162
- "loss": 0.5958,
163
  "step": 22
164
  },
165
  {
166
  "epoch": 1.5333333333333332,
167
- "grad_norm": 0.27241790294647217,
168
  "learning_rate": 0.0001666935530836651,
169
- "loss": 0.5866,
170
  "step": 23
171
  },
172
  {
173
  "epoch": 1.6,
174
- "grad_norm": 0.26449328660964966,
175
  "learning_rate": 0.0001633323803048047,
176
- "loss": 0.5758,
177
  "step": 24
178
  },
179
  {
180
  "epoch": 1.6666666666666665,
181
- "grad_norm": 0.24551400542259216,
182
  "learning_rate": 0.00015984723141740576,
183
- "loss": 0.551,
184
  "step": 25
185
  },
186
  {
187
  "epoch": 1.7333333333333334,
188
- "grad_norm": 0.24193474650382996,
189
  "learning_rate": 0.0001562449287640781,
190
- "loss": 0.5664,
191
  "step": 26
192
  },
193
  {
194
  "epoch": 1.8,
195
- "grad_norm": 0.2385631799697876,
196
  "learning_rate": 0.00015253252402142988,
197
- "loss": 0.5449,
198
  "step": 27
199
  },
200
  {
201
  "epoch": 1.8666666666666667,
202
- "grad_norm": 0.24548892676830292,
203
  "learning_rate": 0.00014871728439607966,
204
- "loss": 0.531,
205
  "step": 28
206
  },
207
  {
208
  "epoch": 1.9333333333333333,
209
- "grad_norm": 0.24892379343509674,
210
  "learning_rate": 0.00014480667839875786,
211
- "loss": 0.5413,
212
  "step": 29
213
  },
214
  {
215
  "epoch": 2.0,
216
- "grad_norm": 0.24928441643714905,
217
  "learning_rate": 0.0001408083612243465,
218
- "loss": 0.5393,
219
  "step": 30
220
  },
221
  {
222
  "epoch": 2.066666666666667,
223
- "grad_norm": 0.2353409379720688,
224
  "learning_rate": 0.00013673015976647568,
225
- "loss": 0.5004,
226
  "step": 31
227
  },
228
  {
229
  "epoch": 2.1333333333333333,
230
- "grad_norm": 0.23783504962921143,
231
  "learning_rate": 0.00013258005729601177,
232
- "loss": 0.4859,
233
  "step": 32
234
  },
235
  {
236
  "epoch": 2.2,
237
- "grad_norm": 0.22492557764053345,
238
  "learning_rate": 0.0001283661778334297,
239
- "loss": 0.4805,
240
  "step": 33
241
  },
242
  {
243
  "epoch": 2.2666666666666666,
244
- "grad_norm": 0.24246421456336975,
245
  "learning_rate": 0.00012409677024566144,
246
- "loss": 0.466,
247
  "step": 34
248
  },
249
  {
250
  "epoch": 2.3333333333333335,
251
- "grad_norm": 0.22781789302825928,
252
  "learning_rate": 0.00011978019209855174,
253
- "loss": 0.444,
254
  "step": 35
255
  },
256
  {
257
  "epoch": 2.4,
258
- "grad_norm": 0.2497468739748001,
259
  "learning_rate": 0.00011542489329653024,
260
- "loss": 0.4322,
261
  "step": 36
262
  },
263
  {
264
  "epoch": 2.466666666666667,
265
- "grad_norm": 0.2430230975151062,
266
  "learning_rate": 0.000111039399541527,
267
- "loss": 0.4522,
268
  "step": 37
269
  },
270
  {
271
  "epoch": 2.533333333333333,
272
- "grad_norm": 0.2502894103527069,
273
  "learning_rate": 0.00010663229564351041,
274
- "loss": 0.445,
275
  "step": 38
276
  },
277
  {
278
  "epoch": 2.6,
279
- "grad_norm": 0.2519069314002991,
280
  "learning_rate": 0.00010221220871531869,
281
- "loss": 0.4538,
282
  "step": 39
283
  },
284
  {
285
  "epoch": 2.6666666666666665,
286
- "grad_norm": 0.26106491684913635,
287
  "learning_rate": 9.778779128468132e-05,
288
- "loss": 0.4281,
289
  "step": 40
290
  },
291
  {
292
  "epoch": 2.7333333333333334,
293
- "grad_norm": 0.2525814175605774,
294
  "learning_rate": 9.336770435648964e-05,
295
- "loss": 0.4355,
296
  "step": 41
297
  },
298
  {
299
  "epoch": 2.8,
300
- "grad_norm": 0.265308678150177,
301
  "learning_rate": 8.896060045847304e-05,
302
- "loss": 0.4473,
303
  "step": 42
304
  },
305
  {
306
  "epoch": 2.8666666666666667,
307
- "grad_norm": 0.2648494839668274,
308
  "learning_rate": 8.457510670346976e-05,
309
- "loss": 0.4022,
310
  "step": 43
311
  },
312
  {
313
  "epoch": 2.9333333333333336,
314
- "grad_norm": 0.2691289186477661,
315
  "learning_rate": 8.021980790144827e-05,
316
- "loss": 0.4406,
317
  "step": 44
318
  },
319
  {
320
  "epoch": 3.0,
321
- "grad_norm": 0.2824676036834717,
322
  "learning_rate": 7.590322975433857e-05,
323
- "loss": 0.452,
324
  "step": 45
325
  },
326
  {
327
  "epoch": 3.066666666666667,
328
- "grad_norm": 0.2525165379047394,
329
  "learning_rate": 7.163382216657034e-05,
330
- "loss": 0.3927,
331
  "step": 46
332
  },
333
  {
334
  "epoch": 3.1333333333333333,
335
- "grad_norm": 0.254032701253891,
336
  "learning_rate": 6.741994270398826e-05,
337
- "loss": 0.3965,
338
  "step": 47
339
  },
340
  {
341
  "epoch": 3.2,
342
- "grad_norm": 0.2576282322406769,
343
  "learning_rate": 6.326984023352435e-05,
344
- "loss": 0.3795,
345
  "step": 48
346
  },
347
  {
348
  "epoch": 3.2666666666666666,
349
- "grad_norm": 0.2692203223705292,
350
  "learning_rate": 5.91916387756535e-05,
351
- "loss": 0.3606,
352
  "step": 49
353
  },
354
  {
355
  "epoch": 3.3333333333333335,
356
- "grad_norm": 0.2536472976207733,
357
  "learning_rate": 5.5193321601242156e-05,
358
- "loss": 0.3584,
359
  "step": 50
360
  },
361
  {
362
  "epoch": 3.4,
363
- "grad_norm": 0.26730450987815857,
364
  "learning_rate": 5.1282715603920374e-05,
365
- "loss": 0.3683,
366
  "step": 51
367
  },
368
  {
369
  "epoch": 3.466666666666667,
370
- "grad_norm": 0.2513953745365143,
371
  "learning_rate": 4.746747597857014e-05,
372
- "loss": 0.379,
373
  "step": 52
374
  },
375
  {
376
  "epoch": 3.533333333333333,
377
- "grad_norm": 0.2627832889556885,
378
  "learning_rate": 4.375507123592194e-05,
379
- "loss": 0.3735,
380
  "step": 53
381
  },
382
  {
383
  "epoch": 3.6,
384
- "grad_norm": 0.259952574968338,
385
  "learning_rate": 4.015276858259427e-05,
386
- "loss": 0.3411,
387
  "step": 54
388
  },
389
  {
390
  "epoch": 3.6666666666666665,
391
- "grad_norm": 0.2816048860549927,
392
  "learning_rate": 3.6667619695195285e-05,
393
- "loss": 0.3803,
394
  "step": 55
395
  },
396
  {
397
  "epoch": 3.7333333333333334,
398
- "grad_norm": 0.27485090494155884,
399
  "learning_rate": 3.330644691633492e-05,
400
- "loss": 0.3556,
401
  "step": 56
402
  },
403
  {
404
  "epoch": 3.8,
405
- "grad_norm": 0.2661534249782562,
406
  "learning_rate": 3.0075829899568597e-05,
407
- "loss": 0.3528,
408
  "step": 57
409
  },
410
  {
411
  "epoch": 3.8666666666666667,
412
- "grad_norm": 0.26727545261383057,
413
  "learning_rate": 2.6982092729416587e-05,
414
- "loss": 0.3504,
415
  "step": 58
416
  },
417
  {
418
  "epoch": 3.9333333333333336,
419
- "grad_norm": 0.26828691363334656,
420
  "learning_rate": 2.403129154167153e-05,
421
- "loss": 0.3344,
422
  "step": 59
423
  },
424
  {
425
  "epoch": 4.0,
426
- "grad_norm": 0.28051289916038513,
427
  "learning_rate": 2.1229202668228197e-05,
428
- "loss": 0.3626,
429
  "step": 60
430
  },
431
  {
432
  "epoch": 4.066666666666666,
433
- "grad_norm": 0.2530427575111389,
434
  "learning_rate": 1.858131132964259e-05,
435
- "loss": 0.3507,
436
  "step": 61
437
  },
438
  {
439
  "epoch": 4.133333333333334,
440
- "grad_norm": 0.2655912935733795,
441
  "learning_rate": 1.609280089755515e-05,
442
- "loss": 0.349,
443
  "step": 62
444
  },
445
  {
446
  "epoch": 4.2,
447
- "grad_norm": 0.2573871910572052,
448
  "learning_rate": 1.3768542747997215e-05,
449
- "loss": 0.3237,
450
  "step": 63
451
  },
452
  {
453
  "epoch": 4.266666666666667,
454
- "grad_norm": 0.25921154022216797,
455
  "learning_rate": 1.161308672544389e-05,
456
- "loss": 0.3239,
457
  "step": 64
458
  },
459
  {
460
  "epoch": 4.333333333333333,
461
- "grad_norm": 0.25051575899124146,
462
  "learning_rate": 9.630652236279625e-06,
463
- "loss": 0.3258,
464
  "step": 65
465
  },
466
  {
467
  "epoch": 4.4,
468
- "grad_norm": 0.2642783224582672,
469
  "learning_rate": 7.825119989112173e-06,
470
- "loss": 0.3285,
471
  "step": 66
472
  },
473
  {
474
  "epoch": 4.466666666666667,
475
- "grad_norm": 0.2573557198047638,
476
  "learning_rate": 6.200024398103255e-06,
477
- "loss": 0.3139,
478
  "step": 67
479
  },
480
  {
481
  "epoch": 4.533333333333333,
482
- "grad_norm": 0.26767197251319885,
483
  "learning_rate": 4.758546664186869e-06,
484
- "loss": 0.3278,
485
  "step": 68
486
  },
487
  {
488
  "epoch": 4.6,
489
- "grad_norm": 0.2601770758628845,
490
  "learning_rate": 3.5035085477190143e-06,
491
- "loss": 0.3328,
492
  "step": 69
493
  },
494
  {
495
  "epoch": 4.666666666666667,
496
- "grad_norm": 0.26734593510627747,
497
  "learning_rate": 2.4373668447493224e-06,
498
- "loss": 0.3148,
499
  "step": 70
500
  },
501
  {
502
  "epoch": 4.733333333333333,
503
- "grad_norm": 0.27117228507995605,
504
  "learning_rate": 1.562208577727442e-06,
505
- "loss": 0.333,
506
  "step": 71
507
  },
508
  {
509
  "epoch": 4.8,
510
- "grad_norm": 0.26604366302490234,
511
  "learning_rate": 8.797469100585431e-07,
512
- "loss": 0.3295,
513
  "step": 72
514
  },
515
  {
516
  "epoch": 4.866666666666667,
517
- "grad_norm": 0.2652713656425476,
518
  "learning_rate": 3.913177925055189e-07,
519
- "loss": 0.3302,
520
  "step": 73
521
  },
522
  {
523
  "epoch": 4.933333333333334,
524
- "grad_norm": 0.255132257938385,
525
  "learning_rate": 9.78773480026396e-08,
526
- "loss": 0.3194,
527
  "step": 74
528
  },
529
  {
530
  "epoch": 5.0,
531
- "grad_norm": 0.2664608061313629,
532
  "learning_rate": 0.0,
533
- "loss": 0.3224,
534
  "step": 75
535
  }
536
  ],
@@ -551,7 +551,7 @@
551
  "attributes": {}
552
  }
553
  },
554
- "total_flos": 1.1421767304265728e+17,
555
  "train_batch_size": 1,
556
  "trial_name": null,
557
  "trial_params": null
 
10
  "log_history": [
11
  {
12
  "epoch": 0.06666666666666667,
13
+ "grad_norm": 1.0890171527862549,
14
  "learning_rate": 5e-05,
15
+ "loss": 0.9504,
16
  "step": 1
17
  },
18
  {
19
  "epoch": 0.13333333333333333,
20
+ "grad_norm": 1.0416314601898193,
21
  "learning_rate": 0.0001,
22
+ "loss": 0.9342,
23
  "step": 2
24
  },
25
  {
26
  "epoch": 0.2,
27
+ "grad_norm": 0.869629442691803,
28
  "learning_rate": 0.00015000000000000001,
29
+ "loss": 0.881,
30
  "step": 3
31
  },
32
  {
33
  "epoch": 0.26666666666666666,
34
+ "grad_norm": 0.5775812268257141,
35
  "learning_rate": 0.0002,
36
+ "loss": 0.8136,
37
  "step": 4
38
  },
39
  {
40
  "epoch": 0.3333333333333333,
41
+ "grad_norm": 0.4219946563243866,
42
  "learning_rate": 0.00019990212265199738,
43
+ "loss": 0.8022,
44
  "step": 5
45
  },
46
  {
47
  "epoch": 0.4,
48
+ "grad_norm": 0.36623886227607727,
49
  "learning_rate": 0.00019960868220749448,
50
+ "loss": 0.7536,
51
  "step": 6
52
  },
53
  {
54
  "epoch": 0.4666666666666667,
55
+ "grad_norm": 0.3498327434062958,
56
  "learning_rate": 0.00019912025308994148,
57
+ "loss": 0.7613,
58
  "step": 7
59
  },
60
  {
61
  "epoch": 0.5333333333333333,
62
+ "grad_norm": 0.3222409784793854,
63
  "learning_rate": 0.00019843779142227256,
64
+ "loss": 0.7335,
65
  "step": 8
66
  },
67
  {
68
  "epoch": 0.6,
69
+ "grad_norm": 0.30498430132865906,
70
  "learning_rate": 0.0001975626331552507,
71
+ "loss": 0.7342,
72
  "step": 9
73
  },
74
  {
75
  "epoch": 0.6666666666666666,
76
+ "grad_norm": 0.2843049168586731,
77
  "learning_rate": 0.00019649649145228102,
78
+ "loss": 0.7494,
79
  "step": 10
80
  },
81
  {
82
  "epoch": 0.7333333333333333,
83
+ "grad_norm": 0.28558269143104553,
84
  "learning_rate": 0.00019524145333581317,
85
+ "loss": 0.7202,
86
  "step": 11
87
  },
88
  {
89
  "epoch": 0.8,
90
+ "grad_norm": 0.2747940719127655,
91
  "learning_rate": 0.00019379997560189675,
92
+ "loss": 0.6978,
93
  "step": 12
94
  },
95
  {
96
  "epoch": 0.8666666666666667,
97
+ "grad_norm": 0.280610054731369,
98
  "learning_rate": 0.00019217488001088784,
99
+ "loss": 0.712,
100
  "step": 13
101
  },
102
  {
103
  "epoch": 0.9333333333333333,
104
+ "grad_norm": 0.26551946997642517,
105
  "learning_rate": 0.0001903693477637204,
106
+ "loss": 0.6815,
107
  "step": 14
108
  },
109
  {
110
  "epoch": 1.0,
111
+ "grad_norm": 0.26354852318763733,
112
  "learning_rate": 0.0001883869132745561,
113
+ "loss": 0.6705,
114
  "step": 15
115
  },
116
  {
117
  "epoch": 1.0666666666666667,
118
+ "grad_norm": 0.2972894608974457,
119
  "learning_rate": 0.00018623145725200278,
120
+ "loss": 0.6399,
121
  "step": 16
122
  },
123
  {
124
  "epoch": 1.1333333333333333,
125
+ "grad_norm": 0.2863878905773163,
126
  "learning_rate": 0.00018390719910244487,
127
+ "loss": 0.6012,
128
  "step": 17
129
  },
130
  {
131
  "epoch": 1.2,
132
+ "grad_norm": 0.26009681820869446,
133
  "learning_rate": 0.00018141868867035745,
134
+ "loss": 0.5994,
135
  "step": 18
136
  },
137
  {
138
  "epoch": 1.2666666666666666,
139
+ "grad_norm": 0.2787269651889801,
140
  "learning_rate": 0.00017877079733177184,
141
+ "loss": 0.5932,
142
  "step": 19
143
  },
144
  {
145
  "epoch": 1.3333333333333333,
146
+ "grad_norm": 0.2598305642604828,
147
  "learning_rate": 0.0001759687084583285,
148
+ "loss": 0.574,
149
  "step": 20
150
  },
151
  {
152
  "epoch": 1.4,
153
+ "grad_norm": 0.27728283405303955,
154
  "learning_rate": 0.00017301790727058345,
155
+ "loss": 0.5735,
156
  "step": 21
157
  },
158
  {
159
  "epoch": 1.4666666666666668,
160
+ "grad_norm": 0.2823718786239624,
161
  "learning_rate": 0.00016992417010043142,
162
+ "loss": 0.5756,
163
  "step": 22
164
  },
165
  {
166
  "epoch": 1.5333333333333332,
167
+ "grad_norm": 0.25957608222961426,
168
  "learning_rate": 0.0001666935530836651,
169
+ "loss": 0.5275,
170
  "step": 23
171
  },
172
  {
173
  "epoch": 1.6,
174
+ "grad_norm": 0.24662478268146515,
175
  "learning_rate": 0.0001633323803048047,
176
+ "loss": 0.5476,
177
  "step": 24
178
  },
179
  {
180
  "epoch": 1.6666666666666665,
181
+ "grad_norm": 0.23672237992286682,
182
  "learning_rate": 0.00015984723141740576,
183
+ "loss": 0.514,
184
  "step": 25
185
  },
186
  {
187
  "epoch": 1.7333333333333334,
188
+ "grad_norm": 0.23386318981647491,
189
  "learning_rate": 0.0001562449287640781,
190
+ "loss": 0.5029,
191
  "step": 26
192
  },
193
  {
194
  "epoch": 1.8,
195
+ "grad_norm": 0.2601586878299713,
196
  "learning_rate": 0.00015253252402142988,
197
+ "loss": 0.5334,
198
  "step": 27
199
  },
200
  {
201
  "epoch": 1.8666666666666667,
202
+ "grad_norm": 0.25172144174575806,
203
  "learning_rate": 0.00014871728439607966,
204
+ "loss": 0.5153,
205
  "step": 28
206
  },
207
  {
208
  "epoch": 1.9333333333333333,
209
+ "grad_norm": 0.24073539674282074,
210
  "learning_rate": 0.00014480667839875786,
211
+ "loss": 0.5375,
212
  "step": 29
213
  },
214
  {
215
  "epoch": 2.0,
216
+ "grad_norm": 0.24093535542488098,
217
  "learning_rate": 0.0001408083612243465,
218
+ "loss": 0.5012,
219
  "step": 30
220
  },
221
  {
222
  "epoch": 2.066666666666667,
223
+ "grad_norm": 0.2312004268169403,
224
  "learning_rate": 0.00013673015976647568,
225
+ "loss": 0.4631,
226
  "step": 31
227
  },
228
  {
229
  "epoch": 2.1333333333333333,
230
+ "grad_norm": 0.2351023256778717,
231
  "learning_rate": 0.00013258005729601177,
232
+ "loss": 0.4647,
233
  "step": 32
234
  },
235
  {
236
  "epoch": 2.2,
237
+ "grad_norm": 0.22365152835845947,
238
  "learning_rate": 0.0001283661778334297,
239
+ "loss": 0.4219,
240
  "step": 33
241
  },
242
  {
243
  "epoch": 2.2666666666666666,
244
+ "grad_norm": 0.2297082245349884,
245
  "learning_rate": 0.00012409677024566144,
246
+ "loss": 0.4349,
247
  "step": 34
248
  },
249
  {
250
  "epoch": 2.3333333333333335,
251
+ "grad_norm": 0.23444686830043793,
252
  "learning_rate": 0.00011978019209855174,
253
+ "loss": 0.4285,
254
  "step": 35
255
  },
256
  {
257
  "epoch": 2.4,
258
+ "grad_norm": 0.25463634729385376,
259
  "learning_rate": 0.00011542489329653024,
260
+ "loss": 0.427,
261
  "step": 36
262
  },
263
  {
264
  "epoch": 2.466666666666667,
265
+ "grad_norm": 0.2404577136039734,
266
  "learning_rate": 0.000111039399541527,
267
+ "loss": 0.4204,
268
  "step": 37
269
  },
270
  {
271
  "epoch": 2.533333333333333,
272
+ "grad_norm": 0.27046656608581543,
273
  "learning_rate": 0.00010663229564351041,
274
+ "loss": 0.4349,
275
  "step": 38
276
  },
277
  {
278
  "epoch": 2.6,
279
+ "grad_norm": 0.2494724541902542,
280
  "learning_rate": 0.00010221220871531869,
281
+ "loss": 0.4269,
282
  "step": 39
283
  },
284
  {
285
  "epoch": 2.6666666666666665,
286
+ "grad_norm": 0.25197190046310425,
287
  "learning_rate": 9.778779128468132e-05,
288
+ "loss": 0.4022,
289
  "step": 40
290
  },
291
  {
292
  "epoch": 2.7333333333333334,
293
+ "grad_norm": 0.2529221177101135,
294
  "learning_rate": 9.336770435648964e-05,
295
+ "loss": 0.4256,
296
  "step": 41
297
  },
298
  {
299
  "epoch": 2.8,
300
+ "grad_norm": 0.26619741320610046,
301
  "learning_rate": 8.896060045847304e-05,
302
+ "loss": 0.4239,
303
  "step": 42
304
  },
305
  {
306
  "epoch": 2.8666666666666667,
307
+ "grad_norm": 0.2642028033733368,
308
  "learning_rate": 8.457510670346976e-05,
309
+ "loss": 0.414,
310
  "step": 43
311
  },
312
  {
313
  "epoch": 2.9333333333333336,
314
+ "grad_norm": 0.2735430598258972,
315
  "learning_rate": 8.021980790144827e-05,
316
+ "loss": 0.3948,
317
  "step": 44
318
  },
319
  {
320
  "epoch": 3.0,
321
+ "grad_norm": 0.26235178112983704,
322
  "learning_rate": 7.590322975433857e-05,
323
+ "loss": 0.4013,
324
  "step": 45
325
  },
326
  {
327
  "epoch": 3.066666666666667,
328
+ "grad_norm": 0.2630228102207184,
329
  "learning_rate": 7.163382216657034e-05,
330
+ "loss": 0.3624,
331
  "step": 46
332
  },
333
  {
334
  "epoch": 3.1333333333333333,
335
+ "grad_norm": 0.2455410361289978,
336
  "learning_rate": 6.741994270398826e-05,
337
+ "loss": 0.3559,
338
  "step": 47
339
  },
340
  {
341
  "epoch": 3.2,
342
+ "grad_norm": 0.25239506363868713,
343
  "learning_rate": 6.326984023352435e-05,
344
+ "loss": 0.3297,
345
  "step": 48
346
  },
347
  {
348
  "epoch": 3.2666666666666666,
349
+ "grad_norm": 0.26092275977134705,
350
  "learning_rate": 5.91916387756535e-05,
351
+ "loss": 0.3519,
352
  "step": 49
353
  },
354
  {
355
  "epoch": 3.3333333333333335,
356
+ "grad_norm": 0.2558125853538513,
357
  "learning_rate": 5.5193321601242156e-05,
358
+ "loss": 0.3467,
359
  "step": 50
360
  },
361
  {
362
  "epoch": 3.4,
363
+ "grad_norm": 0.2603452503681183,
364
  "learning_rate": 5.1282715603920374e-05,
365
+ "loss": 0.3606,
366
  "step": 51
367
  },
368
  {
369
  "epoch": 3.466666666666667,
370
+ "grad_norm": 0.2685030996799469,
371
  "learning_rate": 4.746747597857014e-05,
372
+ "loss": 0.3385,
373
  "step": 52
374
  },
375
  {
376
  "epoch": 3.533333333333333,
377
+ "grad_norm": 0.2547042965888977,
378
  "learning_rate": 4.375507123592194e-05,
379
+ "loss": 0.3502,
380
  "step": 53
381
  },
382
  {
383
  "epoch": 3.6,
384
+ "grad_norm": 0.25863558053970337,
385
  "learning_rate": 4.015276858259427e-05,
386
+ "loss": 0.3353,
387
  "step": 54
388
  },
389
  {
390
  "epoch": 3.6666666666666665,
391
+ "grad_norm": 0.25985899567604065,
392
  "learning_rate": 3.6667619695195285e-05,
393
+ "loss": 0.3314,
394
  "step": 55
395
  },
396
  {
397
  "epoch": 3.7333333333333334,
398
+ "grad_norm": 0.2722785174846649,
399
  "learning_rate": 3.330644691633492e-05,
400
+ "loss": 0.3224,
401
  "step": 56
402
  },
403
  {
404
  "epoch": 3.8,
405
+ "grad_norm": 0.2661519944667816,
406
  "learning_rate": 3.0075829899568597e-05,
407
+ "loss": 0.3487,
408
  "step": 57
409
  },
410
  {
411
  "epoch": 3.8666666666666667,
412
+ "grad_norm": 0.2682656943798065,
413
  "learning_rate": 2.6982092729416587e-05,
414
+ "loss": 0.3412,
415
  "step": 58
416
  },
417
  {
418
  "epoch": 3.9333333333333336,
419
+ "grad_norm": 0.2595905363559723,
420
  "learning_rate": 2.403129154167153e-05,
421
+ "loss": 0.3242,
422
  "step": 59
423
  },
424
  {
425
  "epoch": 4.0,
426
+ "grad_norm": 0.2578358054161072,
427
  "learning_rate": 2.1229202668228197e-05,
428
+ "loss": 0.306,
429
  "step": 60
430
  },
431
  {
432
  "epoch": 4.066666666666666,
433
+ "grad_norm": 0.2525722086429596,
434
  "learning_rate": 1.858131132964259e-05,
435
+ "loss": 0.3234,
436
  "step": 61
437
  },
438
  {
439
  "epoch": 4.133333333333334,
440
+ "grad_norm": 0.2557724118232727,
441
  "learning_rate": 1.609280089755515e-05,
442
+ "loss": 0.2945,
443
  "step": 62
444
  },
445
  {
446
  "epoch": 4.2,
447
+ "grad_norm": 0.2506673038005829,
448
  "learning_rate": 1.3768542747997215e-05,
449
+ "loss": 0.3157,
450
  "step": 63
451
  },
452
  {
453
  "epoch": 4.266666666666667,
454
+ "grad_norm": 0.25794729590415955,
455
  "learning_rate": 1.161308672544389e-05,
456
+ "loss": 0.3085,
457
  "step": 64
458
  },
459
  {
460
  "epoch": 4.333333333333333,
461
+ "grad_norm": 0.2558946907520294,
462
  "learning_rate": 9.630652236279625e-06,
463
+ "loss": 0.3096,
464
  "step": 65
465
  },
466
  {
467
  "epoch": 4.4,
468
+ "grad_norm": 0.25984814763069153,
469
  "learning_rate": 7.825119989112173e-06,
470
+ "loss": 0.311,
471
  "step": 66
472
  },
473
  {
474
  "epoch": 4.466666666666667,
475
+ "grad_norm": 0.24387367069721222,
476
  "learning_rate": 6.200024398103255e-06,
477
+ "loss": 0.3083,
478
  "step": 67
479
  },
480
  {
481
  "epoch": 4.533333333333333,
482
+ "grad_norm": 0.24648573994636536,
483
  "learning_rate": 4.758546664186869e-06,
484
+ "loss": 0.2929,
485
  "step": 68
486
  },
487
  {
488
  "epoch": 4.6,
489
+ "grad_norm": 0.24927794933319092,
490
  "learning_rate": 3.5035085477190143e-06,
491
+ "loss": 0.312,
492
  "step": 69
493
  },
494
  {
495
  "epoch": 4.666666666666667,
496
+ "grad_norm": 0.25699713826179504,
497
  "learning_rate": 2.4373668447493224e-06,
498
+ "loss": 0.3157,
499
  "step": 70
500
  },
501
  {
502
  "epoch": 4.733333333333333,
503
+ "grad_norm": 0.25668400526046753,
504
  "learning_rate": 1.562208577727442e-06,
505
+ "loss": 0.297,
506
  "step": 71
507
  },
508
  {
509
  "epoch": 4.8,
510
+ "grad_norm": 0.25037774443626404,
511
  "learning_rate": 8.797469100585431e-07,
512
+ "loss": 0.2887,
513
  "step": 72
514
  },
515
  {
516
  "epoch": 4.866666666666667,
517
+ "grad_norm": 0.24792499840259552,
518
  "learning_rate": 3.913177925055189e-07,
519
+ "loss": 0.3156,
520
  "step": 73
521
  },
522
  {
523
  "epoch": 4.933333333333334,
524
+ "grad_norm": 0.2463802695274353,
525
  "learning_rate": 9.78773480026396e-08,
526
+ "loss": 0.2867,
527
  "step": 74
528
  },
529
  {
530
  "epoch": 5.0,
531
+ "grad_norm": 0.24436143040657043,
532
  "learning_rate": 0.0,
533
+ "loss": 0.293,
534
  "step": 75
535
  }
536
  ],
 
551
  "attributes": {}
552
  }
553
  },
554
+ "total_flos": 1.1357004270610022e+17,
555
  "train_batch_size": 1,
556
  "trial_name": null,
557
  "trial_params": null
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:df28259b7b35644f29b25e4ee323544c680a9a0ba2960dc768fa8cef03cf4587
3
  size 5240
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:133ef49c1d5ba133c05e9ffbacea52565e6b8a05c8e8bf2790825a5b10a34915
3
  size 5240