Namronaldo2004 commited on
Commit
14ed909
·
1 Parent(s): be673c2

Update fine-tuned model

Browse files
adapter_config.json CHANGED
@@ -20,12 +20,12 @@
20
  "rank_pattern": {},
21
  "revision": null,
22
  "target_modules": [
23
- "up_proj",
24
- "v_proj",
25
- "k_proj",
26
  "o_proj",
27
- "down_proj",
28
  "q_proj",
 
 
 
29
  "gate_proj"
30
  ],
31
  "task_type": " CAUSAL_LM",
 
20
  "rank_pattern": {},
21
  "revision": null,
22
  "target_modules": [
 
 
 
23
  "o_proj",
24
+ "k_proj",
25
  "q_proj",
26
+ "v_proj",
27
+ "down_proj",
28
+ "up_proj",
29
  "gate_proj"
30
  ],
31
  "task_type": " CAUSAL_LM",
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5071eefd11452403100752dcc8e9cf21826af65505b32f044995ac421709a382
3
  size 159967880
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:430a11259d17a49541e9f31c838ea163b82b162b916c4215762ffab0b4917a07
3
  size 159967880
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1ceb9954b27df0a9c7b22a4b0dd40f1a6d9b2c5115174dc93ae5e730e35959d7
3
  size 852876198
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2e45b6af16f366e2479a1fda5784a26168e5d866ba82ed55f4eb013e34c3ceee
3
  size 852876198
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7b918787de9d3efe75e74ec5c4be660d11de629db20fd08362ba694defebb8f6
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b0654b1e5962e1d264ec17c40dcea6c3de9060e283aa95a5fea4d3b6d181505f
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:babd43118aa66a4f5266d730539cf7f09611158b169d9e63dbcb83f6bbaa8626
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e69e2b49ea642509f0c688c16fb190b7cf27dac0a18903a5e2d1467d0343d8b8
3
  size 1064
trainer_state.json CHANGED
@@ -3,539 +3,364 @@
3
  "best_model_checkpoint": null,
4
  "epoch": 5.0,
5
  "eval_steps": 500,
6
- "global_step": 75,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
- "epoch": 0.06666666666666667,
13
- "grad_norm": 1.0890171527862549,
14
- "learning_rate": 5e-05,
15
- "loss": 0.9504,
16
  "step": 1
17
  },
18
  {
19
- "epoch": 0.13333333333333333,
20
- "grad_norm": 1.0416314601898193,
21
- "learning_rate": 0.0001,
22
- "loss": 0.9342,
23
  "step": 2
24
  },
25
  {
26
- "epoch": 0.2,
27
- "grad_norm": 0.869629442691803,
28
- "learning_rate": 0.00015000000000000001,
29
- "loss": 0.881,
30
  "step": 3
31
  },
32
  {
33
- "epoch": 0.26666666666666666,
34
- "grad_norm": 0.5775812268257141,
35
- "learning_rate": 0.0002,
36
- "loss": 0.8136,
37
  "step": 4
38
  },
39
  {
40
- "epoch": 0.3333333333333333,
41
- "grad_norm": 0.4219946563243866,
42
- "learning_rate": 0.00019990212265199738,
43
- "loss": 0.8022,
44
  "step": 5
45
  },
46
  {
47
- "epoch": 0.4,
48
- "grad_norm": 0.36623886227607727,
49
- "learning_rate": 0.00019960868220749448,
50
- "loss": 0.7536,
51
  "step": 6
52
  },
53
  {
54
- "epoch": 0.4666666666666667,
55
- "grad_norm": 0.3498327434062958,
56
- "learning_rate": 0.00019912025308994148,
57
- "loss": 0.7613,
58
  "step": 7
59
  },
60
  {
61
- "epoch": 0.5333333333333333,
62
- "grad_norm": 0.3222409784793854,
63
- "learning_rate": 0.00019843779142227256,
64
- "loss": 0.7335,
65
  "step": 8
66
  },
67
  {
68
- "epoch": 0.6,
69
- "grad_norm": 0.30498430132865906,
70
- "learning_rate": 0.0001975626331552507,
71
- "loss": 0.7342,
72
  "step": 9
73
  },
74
  {
75
- "epoch": 0.6666666666666666,
76
- "grad_norm": 0.2843049168586731,
77
- "learning_rate": 0.00019649649145228102,
78
- "loss": 0.7494,
79
  "step": 10
80
  },
81
  {
82
- "epoch": 0.7333333333333333,
83
- "grad_norm": 0.28558269143104553,
84
- "learning_rate": 0.00019524145333581317,
85
- "loss": 0.7202,
86
  "step": 11
87
  },
88
  {
89
- "epoch": 0.8,
90
- "grad_norm": 0.2747940719127655,
91
- "learning_rate": 0.00019379997560189675,
92
- "loss": 0.6978,
93
  "step": 12
94
  },
95
  {
96
- "epoch": 0.8666666666666667,
97
- "grad_norm": 0.280610054731369,
98
- "learning_rate": 0.00019217488001088784,
99
- "loss": 0.712,
100
  "step": 13
101
  },
102
  {
103
- "epoch": 0.9333333333333333,
104
- "grad_norm": 0.26551946997642517,
105
- "learning_rate": 0.0001903693477637204,
106
- "loss": 0.6815,
107
  "step": 14
108
  },
109
  {
110
- "epoch": 1.0,
111
- "grad_norm": 0.26354852318763733,
112
- "learning_rate": 0.0001883869132745561,
113
- "loss": 0.6705,
114
  "step": 15
115
  },
116
  {
117
- "epoch": 1.0666666666666667,
118
- "grad_norm": 0.2972894608974457,
119
- "learning_rate": 0.00018623145725200278,
120
- "loss": 0.6399,
121
  "step": 16
122
  },
123
  {
124
- "epoch": 1.1333333333333333,
125
- "grad_norm": 0.2863878905773163,
126
- "learning_rate": 0.00018390719910244487,
127
- "loss": 0.6012,
128
  "step": 17
129
  },
130
  {
131
- "epoch": 1.2,
132
- "grad_norm": 0.26009681820869446,
133
- "learning_rate": 0.00018141868867035745,
134
- "loss": 0.5994,
135
  "step": 18
136
  },
137
  {
138
- "epoch": 1.2666666666666666,
139
- "grad_norm": 0.2787269651889801,
140
- "learning_rate": 0.00017877079733177184,
141
- "loss": 0.5932,
142
  "step": 19
143
  },
144
  {
145
- "epoch": 1.3333333333333333,
146
- "grad_norm": 0.2598305642604828,
147
- "learning_rate": 0.0001759687084583285,
148
- "loss": 0.574,
149
  "step": 20
150
  },
151
  {
152
- "epoch": 1.4,
153
- "grad_norm": 0.27728283405303955,
154
- "learning_rate": 0.00017301790727058345,
155
- "loss": 0.5735,
156
  "step": 21
157
  },
158
  {
159
- "epoch": 1.4666666666666668,
160
- "grad_norm": 0.2823718786239624,
161
- "learning_rate": 0.00016992417010043142,
162
- "loss": 0.5756,
163
  "step": 22
164
  },
165
  {
166
- "epoch": 1.5333333333333332,
167
- "grad_norm": 0.25957608222961426,
168
- "learning_rate": 0.0001666935530836651,
169
- "loss": 0.5275,
170
  "step": 23
171
  },
172
  {
173
- "epoch": 1.6,
174
- "grad_norm": 0.24662478268146515,
175
- "learning_rate": 0.0001633323803048047,
176
- "loss": 0.5476,
177
  "step": 24
178
  },
179
  {
180
- "epoch": 1.6666666666666665,
181
- "grad_norm": 0.23672237992286682,
182
- "learning_rate": 0.00015984723141740576,
183
- "loss": 0.514,
184
  "step": 25
185
  },
186
  {
187
- "epoch": 1.7333333333333334,
188
- "grad_norm": 0.23386318981647491,
189
- "learning_rate": 0.0001562449287640781,
190
- "loss": 0.5029,
191
  "step": 26
192
  },
193
  {
194
- "epoch": 1.8,
195
- "grad_norm": 0.2601586878299713,
196
- "learning_rate": 0.00015253252402142988,
197
- "loss": 0.5334,
198
  "step": 27
199
  },
200
  {
201
- "epoch": 1.8666666666666667,
202
- "grad_norm": 0.25172144174575806,
203
- "learning_rate": 0.00014871728439607966,
204
- "loss": 0.5153,
205
  "step": 28
206
  },
207
  {
208
- "epoch": 1.9333333333333333,
209
- "grad_norm": 0.24073539674282074,
210
- "learning_rate": 0.00014480667839875786,
211
- "loss": 0.5375,
212
  "step": 29
213
  },
214
  {
215
- "epoch": 2.0,
216
- "grad_norm": 0.24093535542488098,
217
- "learning_rate": 0.0001408083612243465,
218
- "loss": 0.5012,
219
  "step": 30
220
  },
221
  {
222
- "epoch": 2.066666666666667,
223
- "grad_norm": 0.2312004268169403,
224
- "learning_rate": 0.00013673015976647568,
225
- "loss": 0.4631,
226
  "step": 31
227
  },
228
  {
229
- "epoch": 2.1333333333333333,
230
- "grad_norm": 0.2351023256778717,
231
- "learning_rate": 0.00013258005729601177,
232
- "loss": 0.4647,
233
  "step": 32
234
  },
235
  {
236
- "epoch": 2.2,
237
- "grad_norm": 0.22365152835845947,
238
- "learning_rate": 0.0001283661778334297,
239
- "loss": 0.4219,
240
  "step": 33
241
  },
242
  {
243
- "epoch": 2.2666666666666666,
244
- "grad_norm": 0.2297082245349884,
245
- "learning_rate": 0.00012409677024566144,
246
- "loss": 0.4349,
247
  "step": 34
248
  },
249
  {
250
- "epoch": 2.3333333333333335,
251
- "grad_norm": 0.23444686830043793,
252
- "learning_rate": 0.00011978019209855174,
253
- "loss": 0.4285,
254
  "step": 35
255
  },
256
  {
257
- "epoch": 2.4,
258
- "grad_norm": 0.25463634729385376,
259
- "learning_rate": 0.00011542489329653024,
260
- "loss": 0.427,
261
  "step": 36
262
  },
263
  {
264
- "epoch": 2.466666666666667,
265
- "grad_norm": 0.2404577136039734,
266
- "learning_rate": 0.000111039399541527,
267
- "loss": 0.4204,
268
  "step": 37
269
  },
270
  {
271
- "epoch": 2.533333333333333,
272
- "grad_norm": 0.27046656608581543,
273
- "learning_rate": 0.00010663229564351041,
274
- "loss": 0.4349,
275
  "step": 38
276
  },
277
  {
278
- "epoch": 2.6,
279
- "grad_norm": 0.2494724541902542,
280
- "learning_rate": 0.00010221220871531869,
281
- "loss": 0.4269,
282
  "step": 39
283
  },
284
  {
285
- "epoch": 2.6666666666666665,
286
- "grad_norm": 0.25197190046310425,
287
- "learning_rate": 9.778779128468132e-05,
288
- "loss": 0.4022,
289
  "step": 40
290
  },
291
  {
292
- "epoch": 2.7333333333333334,
293
- "grad_norm": 0.2529221177101135,
294
- "learning_rate": 9.336770435648964e-05,
295
- "loss": 0.4256,
296
  "step": 41
297
  },
298
  {
299
- "epoch": 2.8,
300
- "grad_norm": 0.26619741320610046,
301
- "learning_rate": 8.896060045847304e-05,
302
- "loss": 0.4239,
303
  "step": 42
304
  },
305
  {
306
- "epoch": 2.8666666666666667,
307
- "grad_norm": 0.2642028033733368,
308
- "learning_rate": 8.457510670346976e-05,
309
- "loss": 0.414,
310
  "step": 43
311
  },
312
  {
313
- "epoch": 2.9333333333333336,
314
- "grad_norm": 0.2735430598258972,
315
- "learning_rate": 8.021980790144827e-05,
316
- "loss": 0.3948,
317
  "step": 44
318
  },
319
  {
320
- "epoch": 3.0,
321
- "grad_norm": 0.26235178112983704,
322
- "learning_rate": 7.590322975433857e-05,
323
- "loss": 0.4013,
324
  "step": 45
325
  },
326
  {
327
- "epoch": 3.066666666666667,
328
- "grad_norm": 0.2630228102207184,
329
- "learning_rate": 7.163382216657034e-05,
330
- "loss": 0.3624,
331
  "step": 46
332
  },
333
  {
334
- "epoch": 3.1333333333333333,
335
- "grad_norm": 0.2455410361289978,
336
- "learning_rate": 6.741994270398826e-05,
337
- "loss": 0.3559,
338
  "step": 47
339
  },
340
  {
341
- "epoch": 3.2,
342
- "grad_norm": 0.25239506363868713,
343
- "learning_rate": 6.326984023352435e-05,
344
- "loss": 0.3297,
345
  "step": 48
346
  },
347
  {
348
- "epoch": 3.2666666666666666,
349
- "grad_norm": 0.26092275977134705,
350
- "learning_rate": 5.91916387756535e-05,
351
- "loss": 0.3519,
352
  "step": 49
353
  },
354
- {
355
- "epoch": 3.3333333333333335,
356
- "grad_norm": 0.2558125853538513,
357
- "learning_rate": 5.5193321601242156e-05,
358
- "loss": 0.3467,
359
- "step": 50
360
- },
361
- {
362
- "epoch": 3.4,
363
- "grad_norm": 0.2603452503681183,
364
- "learning_rate": 5.1282715603920374e-05,
365
- "loss": 0.3606,
366
- "step": 51
367
- },
368
- {
369
- "epoch": 3.466666666666667,
370
- "grad_norm": 0.2685030996799469,
371
- "learning_rate": 4.746747597857014e-05,
372
- "loss": 0.3385,
373
- "step": 52
374
- },
375
- {
376
- "epoch": 3.533333333333333,
377
- "grad_norm": 0.2547042965888977,
378
- "learning_rate": 4.375507123592194e-05,
379
- "loss": 0.3502,
380
- "step": 53
381
- },
382
- {
383
- "epoch": 3.6,
384
- "grad_norm": 0.25863558053970337,
385
- "learning_rate": 4.015276858259427e-05,
386
- "loss": 0.3353,
387
- "step": 54
388
- },
389
- {
390
- "epoch": 3.6666666666666665,
391
- "grad_norm": 0.25985899567604065,
392
- "learning_rate": 3.6667619695195285e-05,
393
- "loss": 0.3314,
394
- "step": 55
395
- },
396
- {
397
- "epoch": 3.7333333333333334,
398
- "grad_norm": 0.2722785174846649,
399
- "learning_rate": 3.330644691633492e-05,
400
- "loss": 0.3224,
401
- "step": 56
402
- },
403
- {
404
- "epoch": 3.8,
405
- "grad_norm": 0.2661519944667816,
406
- "learning_rate": 3.0075829899568597e-05,
407
- "loss": 0.3487,
408
- "step": 57
409
- },
410
- {
411
- "epoch": 3.8666666666666667,
412
- "grad_norm": 0.2682656943798065,
413
- "learning_rate": 2.6982092729416587e-05,
414
- "loss": 0.3412,
415
- "step": 58
416
- },
417
- {
418
- "epoch": 3.9333333333333336,
419
- "grad_norm": 0.2595905363559723,
420
- "learning_rate": 2.403129154167153e-05,
421
- "loss": 0.3242,
422
- "step": 59
423
- },
424
- {
425
- "epoch": 4.0,
426
- "grad_norm": 0.2578358054161072,
427
- "learning_rate": 2.1229202668228197e-05,
428
- "loss": 0.306,
429
- "step": 60
430
- },
431
- {
432
- "epoch": 4.066666666666666,
433
- "grad_norm": 0.2525722086429596,
434
- "learning_rate": 1.858131132964259e-05,
435
- "loss": 0.3234,
436
- "step": 61
437
- },
438
- {
439
- "epoch": 4.133333333333334,
440
- "grad_norm": 0.2557724118232727,
441
- "learning_rate": 1.609280089755515e-05,
442
- "loss": 0.2945,
443
- "step": 62
444
- },
445
- {
446
- "epoch": 4.2,
447
- "grad_norm": 0.2506673038005829,
448
- "learning_rate": 1.3768542747997215e-05,
449
- "loss": 0.3157,
450
- "step": 63
451
- },
452
- {
453
- "epoch": 4.266666666666667,
454
- "grad_norm": 0.25794729590415955,
455
- "learning_rate": 1.161308672544389e-05,
456
- "loss": 0.3085,
457
- "step": 64
458
- },
459
- {
460
- "epoch": 4.333333333333333,
461
- "grad_norm": 0.2558946907520294,
462
- "learning_rate": 9.630652236279625e-06,
463
- "loss": 0.3096,
464
- "step": 65
465
- },
466
- {
467
- "epoch": 4.4,
468
- "grad_norm": 0.25984814763069153,
469
- "learning_rate": 7.825119989112173e-06,
470
- "loss": 0.311,
471
- "step": 66
472
- },
473
- {
474
- "epoch": 4.466666666666667,
475
- "grad_norm": 0.24387367069721222,
476
- "learning_rate": 6.200024398103255e-06,
477
- "loss": 0.3083,
478
- "step": 67
479
- },
480
- {
481
- "epoch": 4.533333333333333,
482
- "grad_norm": 0.24648573994636536,
483
- "learning_rate": 4.758546664186869e-06,
484
- "loss": 0.2929,
485
- "step": 68
486
- },
487
- {
488
- "epoch": 4.6,
489
- "grad_norm": 0.24927794933319092,
490
- "learning_rate": 3.5035085477190143e-06,
491
- "loss": 0.312,
492
- "step": 69
493
- },
494
- {
495
- "epoch": 4.666666666666667,
496
- "grad_norm": 0.25699713826179504,
497
- "learning_rate": 2.4373668447493224e-06,
498
- "loss": 0.3157,
499
- "step": 70
500
- },
501
- {
502
- "epoch": 4.733333333333333,
503
- "grad_norm": 0.25668400526046753,
504
- "learning_rate": 1.562208577727442e-06,
505
- "loss": 0.297,
506
- "step": 71
507
- },
508
- {
509
- "epoch": 4.8,
510
- "grad_norm": 0.25037774443626404,
511
- "learning_rate": 8.797469100585431e-07,
512
- "loss": 0.2887,
513
- "step": 72
514
- },
515
- {
516
- "epoch": 4.866666666666667,
517
- "grad_norm": 0.24792499840259552,
518
- "learning_rate": 3.913177925055189e-07,
519
- "loss": 0.3156,
520
- "step": 73
521
- },
522
- {
523
- "epoch": 4.933333333333334,
524
- "grad_norm": 0.2463802695274353,
525
- "learning_rate": 9.78773480026396e-08,
526
- "loss": 0.2867,
527
- "step": 74
528
- },
529
  {
530
  "epoch": 5.0,
531
- "grad_norm": 0.24436143040657043,
532
  "learning_rate": 0.0,
533
- "loss": 0.293,
534
- "step": 75
535
  }
536
  ],
537
  "logging_steps": 1,
538
- "max_steps": 75,
539
  "num_input_tokens_seen": 0,
540
  "num_train_epochs": 5,
541
  "save_steps": 500,
@@ -551,7 +376,7 @@
551
  "attributes": {}
552
  }
553
  },
554
- "total_flos": 1.1357004270610022e+17,
555
  "train_batch_size": 1,
556
  "trial_name": null,
557
  "trial_params": null
 
3
  "best_model_checkpoint": null,
4
  "epoch": 5.0,
5
  "eval_steps": 500,
6
+ "global_step": 50,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
+ "epoch": 0.1,
13
+ "grad_norm": 0.886165976524353,
14
+ "learning_rate": 6.666666666666667e-05,
15
+ "loss": 0.8569,
16
  "step": 1
17
  },
18
  {
19
+ "epoch": 0.2,
20
+ "grad_norm": 0.9352289438247681,
21
+ "learning_rate": 0.00013333333333333334,
22
+ "loss": 0.9157,
23
  "step": 2
24
  },
25
  {
26
+ "epoch": 0.3,
27
+ "grad_norm": 0.6887379288673401,
28
+ "learning_rate": 0.0002,
29
+ "loss": 0.8368,
30
  "step": 3
31
  },
32
  {
33
+ "epoch": 0.4,
34
+ "grad_norm": 0.5438244938850403,
35
+ "learning_rate": 0.00019977668786231534,
36
+ "loss": 0.7759,
37
  "step": 4
38
  },
39
  {
40
+ "epoch": 0.5,
41
+ "grad_norm": 0.4049173593521118,
42
+ "learning_rate": 0.000199107748815478,
43
+ "loss": 0.7108,
44
  "step": 5
45
  },
46
  {
47
+ "epoch": 0.6,
48
+ "grad_norm": 0.3374454379081726,
49
+ "learning_rate": 0.0001979961705036587,
50
+ "loss": 0.6949,
51
  "step": 6
52
  },
53
  {
54
+ "epoch": 0.7,
55
+ "grad_norm": 0.31860846281051636,
56
+ "learning_rate": 0.00019644691750543767,
57
+ "loss": 0.6725,
58
  "step": 7
59
  },
60
  {
61
+ "epoch": 0.8,
62
+ "grad_norm": 0.3116016089916229,
63
+ "learning_rate": 0.0001944669091607919,
64
+ "loss": 0.6814,
65
  "step": 8
66
  },
67
  {
68
+ "epoch": 0.9,
69
+ "grad_norm": 0.3020254969596863,
70
+ "learning_rate": 0.00019206498866764288,
71
+ "loss": 0.6628,
72
  "step": 9
73
  },
74
  {
75
+ "epoch": 1.0,
76
+ "grad_norm": 0.3751624524593353,
77
+ "learning_rate": 0.00018925188358598813,
78
+ "loss": 0.6491,
79
  "step": 10
80
  },
81
  {
82
+ "epoch": 1.1,
83
+ "grad_norm": 0.33873409032821655,
84
+ "learning_rate": 0.00018604015792601396,
85
+ "loss": 0.5887,
86
  "step": 11
87
  },
88
  {
89
+ "epoch": 1.2,
90
+ "grad_norm": 0.3233942985534668,
91
+ "learning_rate": 0.00018244415603417603,
92
+ "loss": 0.5414,
93
  "step": 12
94
  },
95
  {
96
+ "epoch": 1.3,
97
+ "grad_norm": 0.33184298872947693,
98
+ "learning_rate": 0.0001784799385278661,
99
+ "loss": 0.5534,
100
  "step": 13
101
  },
102
  {
103
+ "epoch": 1.4,
104
+ "grad_norm": 0.3251623511314392,
105
+ "learning_rate": 0.00017416521056479577,
106
+ "loss": 0.5303,
107
  "step": 14
108
  },
109
  {
110
+ "epoch": 1.5,
111
+ "grad_norm": 0.30667614936828613,
112
+ "learning_rate": 0.00016951924276746425,
113
+ "loss": 0.5261,
114
  "step": 15
115
  },
116
  {
117
+ "epoch": 1.6,
118
+ "grad_norm": 0.30262428522109985,
119
+ "learning_rate": 0.00016456278515588024,
120
+ "loss": 0.5101,
121
  "step": 16
122
  },
123
  {
124
+ "epoch": 1.7,
125
+ "grad_norm": 0.30721279978752136,
126
+ "learning_rate": 0.00015931797447293552,
127
+ "loss": 0.5059,
128
  "step": 17
129
  },
130
  {
131
+ "epoch": 1.8,
132
+ "grad_norm": 0.2939946949481964,
133
+ "learning_rate": 0.00015380823531633729,
134
+ "loss": 0.4949,
135
  "step": 18
136
  },
137
  {
138
+ "epoch": 1.9,
139
+ "grad_norm": 0.28288447856903076,
140
+ "learning_rate": 0.00014805817551866838,
141
+ "loss": 0.4869,
142
  "step": 19
143
  },
144
  {
145
+ "epoch": 2.0,
146
+ "grad_norm": 0.2906552255153656,
147
+ "learning_rate": 0.0001420934762428335,
148
+ "loss": 0.4605,
149
  "step": 20
150
  },
151
  {
152
+ "epoch": 2.1,
153
+ "grad_norm": 0.2544306218624115,
154
+ "learning_rate": 0.00013594077728375128,
155
+ "loss": 0.4436,
156
  "step": 21
157
  },
158
  {
159
+ "epoch": 2.2,
160
+ "grad_norm": 0.2552658021450043,
161
+ "learning_rate": 0.00012962755808856342,
162
+ "loss": 0.4192,
163
  "step": 22
164
  },
165
  {
166
+ "epoch": 2.3,
167
+ "grad_norm": 0.2546628713607788,
168
+ "learning_rate": 0.00012318201502675285,
169
+ "loss": 0.4106,
170
  "step": 23
171
  },
172
  {
173
+ "epoch": 2.4,
174
+ "grad_norm": 0.23741765320301056,
175
+ "learning_rate": 0.00011663293545831302,
176
+ "loss": 0.3938,
177
  "step": 24
178
  },
179
  {
180
+ "epoch": 2.5,
181
+ "grad_norm": 0.2525660991668701,
182
+ "learning_rate": 0.00011000956916240985,
183
+ "loss": 0.4017,
184
  "step": 25
185
  },
186
  {
187
+ "epoch": 2.6,
188
+ "grad_norm": 0.2451285570859909,
189
+ "learning_rate": 0.00010334149770076747,
190
+ "loss": 0.3794,
191
  "step": 26
192
  },
193
  {
194
+ "epoch": 2.7,
195
+ "grad_norm": 0.2524901032447815,
196
+ "learning_rate": 9.665850229923258e-05,
197
+ "loss": 0.3855,
198
  "step": 27
199
  },
200
  {
201
+ "epoch": 2.8,
202
+ "grad_norm": 0.24502427875995636,
203
+ "learning_rate": 8.999043083759017e-05,
204
+ "loss": 0.3616,
205
  "step": 28
206
  },
207
  {
208
+ "epoch": 2.9,
209
+ "grad_norm": 0.2539559602737427,
210
+ "learning_rate": 8.336706454168701e-05,
211
+ "loss": 0.3763,
212
  "step": 29
213
  },
214
  {
215
+ "epoch": 3.0,
216
+ "grad_norm": 0.24636436998844147,
217
+ "learning_rate": 7.681798497324716e-05,
218
+ "loss": 0.3517,
219
  "step": 30
220
  },
221
  {
222
+ "epoch": 3.1,
223
+ "grad_norm": 0.23345255851745605,
224
+ "learning_rate": 7.037244191143661e-05,
225
+ "loss": 0.3284,
226
  "step": 31
227
  },
228
  {
229
+ "epoch": 3.2,
230
+ "grad_norm": 0.2510325014591217,
231
+ "learning_rate": 6.405922271624874e-05,
232
+ "loss": 0.3301,
233
  "step": 32
234
  },
235
  {
236
+ "epoch": 3.3,
237
+ "grad_norm": 0.24276795983314514,
238
+ "learning_rate": 5.790652375716652e-05,
239
+ "loss": 0.3339,
240
  "step": 33
241
  },
242
  {
243
+ "epoch": 3.4,
244
+ "grad_norm": 0.23698894679546356,
245
+ "learning_rate": 5.1941824481331626e-05,
246
+ "loss": 0.3273,
247
  "step": 34
248
  },
249
  {
250
+ "epoch": 3.5,
251
+ "grad_norm": 0.24454469978809357,
252
+ "learning_rate": 4.6191764683662744e-05,
253
+ "loss": 0.3073,
254
  "step": 35
255
  },
256
  {
257
+ "epoch": 3.6,
258
+ "grad_norm": 0.25007879734039307,
259
+ "learning_rate": 4.0682025527064486e-05,
260
+ "loss": 0.3149,
261
  "step": 36
262
  },
263
  {
264
+ "epoch": 3.7,
265
+ "grad_norm": 0.25587430596351624,
266
+ "learning_rate": 3.543721484411976e-05,
267
+ "loss": 0.3081,
268
  "step": 37
269
  },
270
  {
271
+ "epoch": 3.8,
272
+ "grad_norm": 0.2517322599887848,
273
+ "learning_rate": 3.0480757232535772e-05,
274
+ "loss": 0.3131,
275
  "step": 38
276
  },
277
  {
278
+ "epoch": 3.9,
279
+ "grad_norm": 0.23721425235271454,
280
+ "learning_rate": 2.5834789435204243e-05,
281
+ "loss": 0.2987,
282
  "step": 39
283
  },
284
  {
285
+ "epoch": 4.0,
286
+ "grad_norm": 0.23976309597492218,
287
+ "learning_rate": 2.1520061472133902e-05,
288
+ "loss": 0.3148,
289
  "step": 40
290
  },
291
  {
292
+ "epoch": 4.1,
293
+ "grad_norm": 0.22691340744495392,
294
+ "learning_rate": 1.7555843965823992e-05,
295
+ "loss": 0.2777,
296
  "step": 41
297
  },
298
  {
299
+ "epoch": 4.2,
300
+ "grad_norm": 0.23945631086826324,
301
+ "learning_rate": 1.3959842073986085e-05,
302
+ "loss": 0.2954,
303
  "step": 42
304
  },
305
  {
306
+ "epoch": 4.3,
307
+ "grad_norm": 0.23303616046905518,
308
+ "learning_rate": 1.0748116414011888e-05,
309
+ "loss": 0.2882,
310
  "step": 43
311
  },
312
  {
313
+ "epoch": 4.4,
314
+ "grad_norm": 0.24104540050029755,
315
+ "learning_rate": 7.935011332357112e-06,
316
+ "loss": 0.2939,
317
  "step": 44
318
  },
319
  {
320
+ "epoch": 4.5,
321
+ "grad_norm": 0.23101571202278137,
322
+ "learning_rate": 5.533090839208133e-06,
323
+ "loss": 0.2789,
324
  "step": 45
325
  },
326
  {
327
+ "epoch": 4.6,
328
+ "grad_norm": 0.2310316413640976,
329
+ "learning_rate": 3.5530824945623542e-06,
330
+ "loss": 0.2925,
331
  "step": 46
332
  },
333
  {
334
+ "epoch": 4.7,
335
+ "grad_norm": 0.23140206933021545,
336
+ "learning_rate": 2.003829496341325e-06,
337
+ "loss": 0.2824,
338
  "step": 47
339
  },
340
  {
341
+ "epoch": 4.8,
342
+ "grad_norm": 0.22320057451725006,
343
+ "learning_rate": 8.922511845219971e-07,
344
+ "loss": 0.2975,
345
  "step": 48
346
  },
347
  {
348
+ "epoch": 4.9,
349
+ "grad_norm": 0.22732405364513397,
350
+ "learning_rate": 2.2331213768468363e-07,
351
+ "loss": 0.2891,
352
  "step": 49
353
  },
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
354
  {
355
  "epoch": 5.0,
356
+ "grad_norm": 0.2486155927181244,
357
  "learning_rate": 0.0,
358
+ "loss": 0.2815,
359
+ "step": 50
360
  }
361
  ],
362
  "logging_steps": 1,
363
+ "max_steps": 50,
364
  "num_input_tokens_seen": 0,
365
  "num_train_epochs": 5,
366
  "save_steps": 500,
 
376
  "attributes": {}
377
  }
378
  },
379
+ "total_flos": 7.457968683122688e+16,
380
  "train_batch_size": 1,
381
  "trial_name": null,
382
  "trial_params": null
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:133ef49c1d5ba133c05e9ffbacea52565e6b8a05c8e8bf2790825a5b10a34915
3
  size 5240
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:379e9b75008263e92f24f632d566b21e4ea482a4e680b4f98fef9cb95afe9d88
3
  size 5240