hajeong67 commited on
Commit
eb89132
·
verified ·
1 Parent(s): 762638e

Upload folder using huggingface_hub

Browse files
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bda320c48ffca2fd27f2dd27592f1c0953ad8c3088f85d6c25100409e26453a5
3
  size 3416264
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d2cd35d0baac967d5cd52ce3fffd9ce200841b230f5ec3f3a91c2d8bca2247d5
3
  size 3416264
checkpoint-1050/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bda320c48ffca2fd27f2dd27592f1c0953ad8c3088f85d6c25100409e26453a5
3
  size 3416264
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d2cd35d0baac967d5cd52ce3fffd9ce200841b230f5ec3f3a91c2d8bca2247d5
3
  size 3416264
checkpoint-1050/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e83eed432c17723901d9349c6d7b3e582ee7aa486717856359ca85d2d4c61f4d
3
  size 6869818
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ae643995a9c608e5fdbb35f7f590c5e913a99f951c4b7e93ba61ed6b84a0f475
3
  size 6869818
checkpoint-1050/trainer_state.json CHANGED
@@ -10,761 +10,761 @@
10
  "log_history": [
11
  {
12
  "epoch": 0.02857142857142857,
13
- "grad_norm": 11.918978691101074,
14
  "learning_rate": 0.0004952380952380952,
15
- "loss": 4.4927,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.05714285714285714,
20
- "grad_norm": 5.589139461517334,
21
  "learning_rate": 0.0004904761904761905,
22
- "loss": 2.6308,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.08571428571428572,
27
- "grad_norm": 9.946991920471191,
28
  "learning_rate": 0.0004857142857142857,
29
- "loss": 2.2656,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.11428571428571428,
34
- "grad_norm": 4.425405502319336,
35
  "learning_rate": 0.00048095238095238095,
36
- "loss": 2.0816,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.14285714285714285,
41
- "grad_norm": 4.761979103088379,
42
  "learning_rate": 0.0004761904761904762,
43
- "loss": 2.0915,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.17142857142857143,
48
- "grad_norm": 4.236316204071045,
49
  "learning_rate": 0.0004714285714285714,
50
- "loss": 1.8267,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.2,
55
- "grad_norm": 3.1871836185455322,
56
  "learning_rate": 0.00046666666666666666,
57
- "loss": 1.8426,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.22857142857142856,
62
- "grad_norm": 5.339052677154541,
63
  "learning_rate": 0.00046190476190476195,
64
- "loss": 1.8622,
65
  "step": 80
66
  },
67
  {
68
  "epoch": 0.2571428571428571,
69
- "grad_norm": 3.1449456214904785,
70
  "learning_rate": 0.00045714285714285713,
71
- "loss": 1.6587,
72
  "step": 90
73
  },
74
  {
75
  "epoch": 0.2857142857142857,
76
- "grad_norm": 5.643612861633301,
77
  "learning_rate": 0.00045238095238095237,
78
- "loss": 1.67,
79
  "step": 100
80
  },
81
  {
82
  "epoch": 0.3142857142857143,
83
- "grad_norm": 3.7077548503875732,
84
  "learning_rate": 0.00044761904761904766,
85
- "loss": 1.6768,
86
  "step": 110
87
  },
88
  {
89
  "epoch": 0.34285714285714286,
90
- "grad_norm": 2.433858633041382,
91
  "learning_rate": 0.00044285714285714284,
92
- "loss": 1.3662,
93
  "step": 120
94
  },
95
  {
96
  "epoch": 0.37142857142857144,
97
- "grad_norm": 3.0955514907836914,
98
  "learning_rate": 0.0004380952380952381,
99
- "loss": 1.5289,
100
  "step": 130
101
  },
102
  {
103
  "epoch": 0.4,
104
- "grad_norm": 6.524577617645264,
105
  "learning_rate": 0.00043333333333333337,
106
- "loss": 1.4246,
107
  "step": 140
108
  },
109
  {
110
  "epoch": 0.42857142857142855,
111
- "grad_norm": 4.222738265991211,
112
  "learning_rate": 0.00042857142857142855,
113
- "loss": 1.5386,
114
  "step": 150
115
  },
116
  {
117
  "epoch": 0.45714285714285713,
118
- "grad_norm": 3.318093776702881,
119
  "learning_rate": 0.0004238095238095238,
120
- "loss": 1.6411,
121
  "step": 160
122
  },
123
  {
124
  "epoch": 0.4857142857142857,
125
- "grad_norm": 3.080537796020508,
126
  "learning_rate": 0.0004190476190476191,
127
- "loss": 1.2947,
128
  "step": 170
129
  },
130
  {
131
  "epoch": 0.5142857142857142,
132
- "grad_norm": 4.210653305053711,
133
  "learning_rate": 0.0004142857142857143,
134
- "loss": 1.4724,
135
  "step": 180
136
  },
137
  {
138
  "epoch": 0.5428571428571428,
139
- "grad_norm": 2.615692138671875,
140
  "learning_rate": 0.00040952380952380955,
141
- "loss": 1.4507,
142
  "step": 190
143
  },
144
  {
145
  "epoch": 0.5714285714285714,
146
- "grad_norm": 3.874413013458252,
147
  "learning_rate": 0.0004047619047619048,
148
- "loss": 1.2955,
149
  "step": 200
150
  },
151
  {
152
  "epoch": 0.6,
153
- "grad_norm": 4.24971866607666,
154
  "learning_rate": 0.0004,
155
- "loss": 1.2389,
156
  "step": 210
157
  },
158
  {
159
  "epoch": 0.6285714285714286,
160
- "grad_norm": 4.347882270812988,
161
  "learning_rate": 0.00039523809523809526,
162
- "loss": 1.2475,
163
  "step": 220
164
  },
165
  {
166
  "epoch": 0.6571428571428571,
167
- "grad_norm": 4.45231819152832,
168
  "learning_rate": 0.0003904761904761905,
169
- "loss": 1.4072,
170
  "step": 230
171
  },
172
  {
173
  "epoch": 0.6857142857142857,
174
- "grad_norm": 2.5132458209991455,
175
  "learning_rate": 0.0003857142857142857,
176
- "loss": 1.2506,
177
  "step": 240
178
  },
179
  {
180
  "epoch": 0.7142857142857143,
181
- "grad_norm": 2.3154046535491943,
182
  "learning_rate": 0.00038095238095238096,
183
- "loss": 1.3371,
184
  "step": 250
185
  },
186
  {
187
  "epoch": 0.7428571428571429,
188
- "grad_norm": 2.9877989292144775,
189
  "learning_rate": 0.0003761904761904762,
190
- "loss": 1.2249,
191
  "step": 260
192
  },
193
  {
194
  "epoch": 0.7714285714285715,
195
- "grad_norm": 4.407787799835205,
196
  "learning_rate": 0.00037142857142857143,
197
- "loss": 1.2712,
198
  "step": 270
199
  },
200
  {
201
  "epoch": 0.8,
202
- "grad_norm": 2.691910982131958,
203
  "learning_rate": 0.00036666666666666667,
204
- "loss": 1.2366,
205
  "step": 280
206
  },
207
  {
208
  "epoch": 0.8285714285714286,
209
- "grad_norm": 2.3351523876190186,
210
  "learning_rate": 0.0003619047619047619,
211
- "loss": 1.1777,
212
  "step": 290
213
  },
214
  {
215
  "epoch": 0.8571428571428571,
216
- "grad_norm": 2.878443956375122,
217
  "learning_rate": 0.00035714285714285714,
218
- "loss": 1.1375,
219
  "step": 300
220
  },
221
  {
222
  "epoch": 0.8857142857142857,
223
- "grad_norm": 3.0720036029815674,
224
  "learning_rate": 0.00035238095238095243,
225
- "loss": 1.1578,
226
  "step": 310
227
  },
228
  {
229
  "epoch": 0.9142857142857143,
230
- "grad_norm": 2.359656572341919,
231
  "learning_rate": 0.0003476190476190476,
232
- "loss": 1.4001,
233
  "step": 320
234
  },
235
  {
236
  "epoch": 0.9428571428571428,
237
- "grad_norm": 2.3982980251312256,
238
  "learning_rate": 0.00034285714285714285,
239
- "loss": 1.1716,
240
  "step": 330
241
  },
242
  {
243
  "epoch": 0.9714285714285714,
244
- "grad_norm": 4.372157573699951,
245
  "learning_rate": 0.00033809523809523814,
246
- "loss": 1.1177,
247
  "step": 340
248
  },
249
  {
250
  "epoch": 1.0,
251
- "grad_norm": 4.467468738555908,
252
  "learning_rate": 0.0003333333333333333,
253
- "loss": 1.1884,
254
  "step": 350
255
  },
256
  {
257
  "epoch": 1.0,
258
- "eval_loss": 1.0876593589782715,
259
- "eval_runtime": 16.2651,
260
- "eval_samples_per_second": 12.296,
261
- "eval_steps_per_second": 1.537,
262
  "step": 350
263
  },
264
  {
265
  "epoch": 1.0285714285714285,
266
- "grad_norm": 8.64857292175293,
267
  "learning_rate": 0.00032857142857142856,
268
- "loss": 1.109,
269
  "step": 360
270
  },
271
  {
272
  "epoch": 1.0571428571428572,
273
- "grad_norm": 3.4350078105926514,
274
  "learning_rate": 0.00032380952380952385,
275
- "loss": 1.2132,
276
  "step": 370
277
  },
278
  {
279
  "epoch": 1.0857142857142856,
280
- "grad_norm": 2.4915060997009277,
281
  "learning_rate": 0.00031904761904761903,
282
- "loss": 1.0756,
283
  "step": 380
284
  },
285
  {
286
  "epoch": 1.1142857142857143,
287
- "grad_norm": 3.537388324737549,
288
  "learning_rate": 0.00031428571428571427,
289
- "loss": 1.0506,
290
  "step": 390
291
  },
292
  {
293
  "epoch": 1.1428571428571428,
294
- "grad_norm": 3.6561241149902344,
295
  "learning_rate": 0.00030952380952380956,
296
- "loss": 1.1051,
297
  "step": 400
298
  },
299
  {
300
  "epoch": 1.1714285714285715,
301
- "grad_norm": 3.6229779720306396,
302
  "learning_rate": 0.0003047619047619048,
303
- "loss": 1.0663,
304
  "step": 410
305
  },
306
  {
307
  "epoch": 1.2,
308
- "grad_norm": 4.541111946105957,
309
  "learning_rate": 0.0003,
310
- "loss": 1.1192,
311
  "step": 420
312
  },
313
  {
314
  "epoch": 1.2285714285714286,
315
- "grad_norm": 8.634881973266602,
316
  "learning_rate": 0.00029523809523809526,
317
- "loss": 1.042,
318
  "step": 430
319
  },
320
  {
321
  "epoch": 1.2571428571428571,
322
- "grad_norm": 2.93104887008667,
323
  "learning_rate": 0.0002904761904761905,
324
- "loss": 0.9288,
325
  "step": 440
326
  },
327
  {
328
  "epoch": 1.2857142857142856,
329
- "grad_norm": 6.468315601348877,
330
  "learning_rate": 0.0002857142857142857,
331
- "loss": 1.2407,
332
  "step": 450
333
  },
334
  {
335
  "epoch": 1.3142857142857143,
336
- "grad_norm": 5.183238506317139,
337
  "learning_rate": 0.00028095238095238097,
338
- "loss": 1.0302,
339
  "step": 460
340
  },
341
  {
342
  "epoch": 1.342857142857143,
343
- "grad_norm": 2.7399845123291016,
344
  "learning_rate": 0.0002761904761904762,
345
- "loss": 1.096,
346
  "step": 470
347
  },
348
  {
349
  "epoch": 1.3714285714285714,
350
- "grad_norm": 4.08115291595459,
351
  "learning_rate": 0.0002714285714285714,
352
- "loss": 1.0931,
353
  "step": 480
354
  },
355
  {
356
  "epoch": 1.4,
357
- "grad_norm": 3.567685842514038,
358
  "learning_rate": 0.0002666666666666667,
359
- "loss": 0.9909,
360
  "step": 490
361
  },
362
  {
363
  "epoch": 1.4285714285714286,
364
- "grad_norm": 3.2980871200561523,
365
  "learning_rate": 0.0002619047619047619,
366
- "loss": 1.0007,
367
  "step": 500
368
  },
369
  {
370
  "epoch": 1.457142857142857,
371
- "grad_norm": 4.056380271911621,
372
  "learning_rate": 0.0002571428571428571,
373
- "loss": 0.9869,
374
  "step": 510
375
  },
376
  {
377
  "epoch": 1.4857142857142858,
378
- "grad_norm": 5.267114162445068,
379
  "learning_rate": 0.0002523809523809524,
380
- "loss": 0.9149,
381
  "step": 520
382
  },
383
  {
384
  "epoch": 1.5142857142857142,
385
- "grad_norm": 3.0776150226593018,
386
  "learning_rate": 0.0002476190476190476,
387
- "loss": 0.9842,
388
  "step": 530
389
  },
390
  {
391
  "epoch": 1.5428571428571427,
392
- "grad_norm": 3.3917739391326904,
393
  "learning_rate": 0.00024285714285714286,
394
- "loss": 1.0165,
395
  "step": 540
396
  },
397
  {
398
  "epoch": 1.5714285714285714,
399
- "grad_norm": 3.262791633605957,
400
  "learning_rate": 0.0002380952380952381,
401
- "loss": 0.9766,
402
  "step": 550
403
  },
404
  {
405
  "epoch": 1.6,
406
- "grad_norm": 5.334137916564941,
407
  "learning_rate": 0.00023333333333333333,
408
- "loss": 1.0761,
409
  "step": 560
410
  },
411
  {
412
  "epoch": 1.6285714285714286,
413
- "grad_norm": 3.0354158878326416,
414
  "learning_rate": 0.00022857142857142857,
415
- "loss": 1.1283,
416
  "step": 570
417
  },
418
  {
419
  "epoch": 1.657142857142857,
420
- "grad_norm": 2.9675745964050293,
421
  "learning_rate": 0.00022380952380952383,
422
- "loss": 0.9564,
423
  "step": 580
424
  },
425
  {
426
  "epoch": 1.6857142857142857,
427
- "grad_norm": 3.70650053024292,
428
  "learning_rate": 0.00021904761904761904,
429
- "loss": 1.1382,
430
  "step": 590
431
  },
432
  {
433
  "epoch": 1.7142857142857144,
434
- "grad_norm": 4.117910385131836,
435
  "learning_rate": 0.00021428571428571427,
436
- "loss": 1.0104,
437
  "step": 600
438
  },
439
  {
440
  "epoch": 1.7428571428571429,
441
- "grad_norm": 3.287292957305908,
442
  "learning_rate": 0.00020952380952380954,
443
- "loss": 1.0152,
444
  "step": 610
445
  },
446
  {
447
  "epoch": 1.7714285714285714,
448
- "grad_norm": 4.567937850952148,
449
  "learning_rate": 0.00020476190476190477,
450
- "loss": 0.9348,
451
  "step": 620
452
  },
453
  {
454
  "epoch": 1.8,
455
- "grad_norm": 3.143092393875122,
456
  "learning_rate": 0.0002,
457
- "loss": 1.0373,
458
  "step": 630
459
  },
460
  {
461
  "epoch": 1.8285714285714287,
462
- "grad_norm": 3.003242015838623,
463
  "learning_rate": 0.00019523809523809525,
464
- "loss": 1.0157,
465
  "step": 640
466
  },
467
  {
468
  "epoch": 1.8571428571428572,
469
- "grad_norm": 5.4209489822387695,
470
  "learning_rate": 0.00019047619047619048,
471
- "loss": 0.8729,
472
  "step": 650
473
  },
474
  {
475
  "epoch": 1.8857142857142857,
476
- "grad_norm": 8.428689956665039,
477
  "learning_rate": 0.00018571428571428572,
478
- "loss": 0.9703,
479
  "step": 660
480
  },
481
  {
482
  "epoch": 1.9142857142857141,
483
- "grad_norm": 4.8756866455078125,
484
  "learning_rate": 0.00018095238095238095,
485
- "loss": 1.0013,
486
  "step": 670
487
  },
488
  {
489
  "epoch": 1.9428571428571428,
490
- "grad_norm": 3.252725601196289,
491
  "learning_rate": 0.00017619047619047622,
492
- "loss": 0.9414,
493
  "step": 680
494
  },
495
  {
496
  "epoch": 1.9714285714285715,
497
- "grad_norm": 3.5052497386932373,
498
  "learning_rate": 0.00017142857142857143,
499
- "loss": 0.9891,
500
  "step": 690
501
  },
502
  {
503
  "epoch": 2.0,
504
- "grad_norm": 2.886568546295166,
505
  "learning_rate": 0.00016666666666666666,
506
- "loss": 1.0002,
507
  "step": 700
508
  },
509
  {
510
  "epoch": 2.0,
511
- "eval_loss": 0.9278395175933838,
512
- "eval_runtime": 16.2518,
513
- "eval_samples_per_second": 12.306,
514
- "eval_steps_per_second": 1.538,
515
  "step": 700
516
  },
517
  {
518
  "epoch": 2.0285714285714285,
519
- "grad_norm": 2.525127649307251,
520
  "learning_rate": 0.00016190476190476192,
521
- "loss": 0.8582,
522
  "step": 710
523
  },
524
  {
525
  "epoch": 2.057142857142857,
526
- "grad_norm": 2.341196298599243,
527
  "learning_rate": 0.00015714285714285713,
528
- "loss": 0.8304,
529
  "step": 720
530
  },
531
  {
532
  "epoch": 2.085714285714286,
533
- "grad_norm": 2.54571795463562,
534
  "learning_rate": 0.0001523809523809524,
535
- "loss": 0.8242,
536
  "step": 730
537
  },
538
  {
539
  "epoch": 2.1142857142857143,
540
- "grad_norm": 3.9072329998016357,
541
  "learning_rate": 0.00014761904761904763,
542
- "loss": 0.8259,
543
  "step": 740
544
  },
545
  {
546
  "epoch": 2.142857142857143,
547
- "grad_norm": 5.519943714141846,
548
  "learning_rate": 0.00014285714285714284,
549
- "loss": 1.0519,
550
  "step": 750
551
  },
552
  {
553
  "epoch": 2.1714285714285713,
554
- "grad_norm": 3.61736798286438,
555
  "learning_rate": 0.0001380952380952381,
556
- "loss": 0.8888,
557
  "step": 760
558
  },
559
  {
560
  "epoch": 2.2,
561
- "grad_norm": 3.1113357543945312,
562
  "learning_rate": 0.00013333333333333334,
563
- "loss": 0.8582,
564
  "step": 770
565
  },
566
  {
567
  "epoch": 2.2285714285714286,
568
- "grad_norm": 4.208303451538086,
569
  "learning_rate": 0.00012857142857142855,
570
- "loss": 0.9397,
571
  "step": 780
572
  },
573
  {
574
  "epoch": 2.257142857142857,
575
- "grad_norm": 4.2059454917907715,
576
  "learning_rate": 0.0001238095238095238,
577
- "loss": 0.7807,
578
  "step": 790
579
  },
580
  {
581
  "epoch": 2.2857142857142856,
582
- "grad_norm": 3.725945234298706,
583
  "learning_rate": 0.00011904761904761905,
584
- "loss": 0.8144,
585
  "step": 800
586
  },
587
  {
588
  "epoch": 2.314285714285714,
589
- "grad_norm": 3.4127461910247803,
590
  "learning_rate": 0.00011428571428571428,
591
- "loss": 0.8632,
592
  "step": 810
593
  },
594
  {
595
  "epoch": 2.342857142857143,
596
- "grad_norm": 3.4482555389404297,
597
  "learning_rate": 0.00010952380952380952,
598
- "loss": 0.8148,
599
  "step": 820
600
  },
601
  {
602
  "epoch": 2.3714285714285714,
603
- "grad_norm": 3.38759183883667,
604
  "learning_rate": 0.00010476190476190477,
605
- "loss": 0.9791,
606
  "step": 830
607
  },
608
  {
609
  "epoch": 2.4,
610
- "grad_norm": 4.449093818664551,
611
  "learning_rate": 0.0001,
612
- "loss": 0.8427,
613
  "step": 840
614
  },
615
  {
616
  "epoch": 2.4285714285714284,
617
- "grad_norm": 6.127928256988525,
618
  "learning_rate": 9.523809523809524e-05,
619
- "loss": 0.7613,
620
  "step": 850
621
  },
622
  {
623
  "epoch": 2.4571428571428573,
624
- "grad_norm": 4.715824604034424,
625
  "learning_rate": 9.047619047619048e-05,
626
- "loss": 0.9275,
627
  "step": 860
628
  },
629
  {
630
  "epoch": 2.4857142857142858,
631
- "grad_norm": 2.2265524864196777,
632
  "learning_rate": 8.571428571428571e-05,
633
- "loss": 0.9554,
634
  "step": 870
635
  },
636
  {
637
  "epoch": 2.5142857142857142,
638
- "grad_norm": 3.3588171005249023,
639
  "learning_rate": 8.095238095238096e-05,
640
- "loss": 0.8616,
641
  "step": 880
642
  },
643
  {
644
  "epoch": 2.5428571428571427,
645
- "grad_norm": 4.424010753631592,
646
  "learning_rate": 7.61904761904762e-05,
647
- "loss": 0.9946,
648
  "step": 890
649
  },
650
  {
651
  "epoch": 2.571428571428571,
652
- "grad_norm": 5.702920913696289,
653
  "learning_rate": 7.142857142857142e-05,
654
- "loss": 0.6807,
655
  "step": 900
656
  },
657
  {
658
  "epoch": 2.6,
659
- "grad_norm": 2.8263401985168457,
660
  "learning_rate": 6.666666666666667e-05,
661
- "loss": 0.8335,
662
  "step": 910
663
  },
664
  {
665
  "epoch": 2.6285714285714286,
666
- "grad_norm": 4.067463397979736,
667
  "learning_rate": 6.19047619047619e-05,
668
- "loss": 0.9006,
669
  "step": 920
670
  },
671
  {
672
  "epoch": 2.657142857142857,
673
- "grad_norm": 4.599573612213135,
674
  "learning_rate": 5.714285714285714e-05,
675
- "loss": 0.7835,
676
  "step": 930
677
  },
678
  {
679
  "epoch": 2.685714285714286,
680
- "grad_norm": 4.713394641876221,
681
  "learning_rate": 5.2380952380952384e-05,
682
- "loss": 0.9429,
683
  "step": 940
684
  },
685
  {
686
  "epoch": 2.7142857142857144,
687
- "grad_norm": 4.743385314941406,
688
  "learning_rate": 4.761904761904762e-05,
689
- "loss": 0.7886,
690
  "step": 950
691
  },
692
  {
693
  "epoch": 2.742857142857143,
694
- "grad_norm": 4.933552265167236,
695
  "learning_rate": 4.2857142857142856e-05,
696
- "loss": 0.7563,
697
  "step": 960
698
  },
699
  {
700
  "epoch": 2.7714285714285714,
701
- "grad_norm": 4.732188701629639,
702
  "learning_rate": 3.80952380952381e-05,
703
- "loss": 0.9169,
704
  "step": 970
705
  },
706
  {
707
  "epoch": 2.8,
708
- "grad_norm": 2.9946858882904053,
709
  "learning_rate": 3.3333333333333335e-05,
710
- "loss": 0.9292,
711
  "step": 980
712
  },
713
  {
714
  "epoch": 2.8285714285714287,
715
- "grad_norm": 3.2630443572998047,
716
  "learning_rate": 2.857142857142857e-05,
717
- "loss": 0.8928,
718
  "step": 990
719
  },
720
  {
721
  "epoch": 2.857142857142857,
722
- "grad_norm": 3.2443957328796387,
723
  "learning_rate": 2.380952380952381e-05,
724
- "loss": 0.8818,
725
  "step": 1000
726
  },
727
  {
728
  "epoch": 2.8857142857142857,
729
- "grad_norm": 4.648172378540039,
730
  "learning_rate": 1.904761904761905e-05,
731
- "loss": 0.8155,
732
  "step": 1010
733
  },
734
  {
735
  "epoch": 2.914285714285714,
736
- "grad_norm": 2.9092743396759033,
737
  "learning_rate": 1.4285714285714285e-05,
738
- "loss": 0.7833,
739
  "step": 1020
740
  },
741
  {
742
  "epoch": 2.942857142857143,
743
- "grad_norm": 4.052741050720215,
744
  "learning_rate": 9.523809523809525e-06,
745
- "loss": 0.6906,
746
  "step": 1030
747
  },
748
  {
749
  "epoch": 2.9714285714285715,
750
- "grad_norm": 4.878310680389404,
751
  "learning_rate": 4.761904761904762e-06,
752
- "loss": 0.6979,
753
  "step": 1040
754
  },
755
  {
756
  "epoch": 3.0,
757
- "grad_norm": 4.789093971252441,
758
  "learning_rate": 0.0,
759
- "loss": 0.8579,
760
  "step": 1050
761
  },
762
  {
763
  "epoch": 3.0,
764
- "eval_loss": 0.8077505230903625,
765
- "eval_runtime": 16.2781,
766
- "eval_samples_per_second": 12.286,
767
- "eval_steps_per_second": 1.536,
768
  "step": 1050
769
  }
770
  ],
 
10
  "log_history": [
11
  {
12
  "epoch": 0.02857142857142857,
13
+ "grad_norm": 320.9814758300781,
14
  "learning_rate": 0.0004952380952380952,
15
+ "loss": 5.144,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.05714285714285714,
20
+ "grad_norm": 8.983612060546875,
21
  "learning_rate": 0.0004904761904761905,
22
+ "loss": 3.5072,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.08571428571428572,
27
+ "grad_norm": 5.370372772216797,
28
  "learning_rate": 0.0004857142857142857,
29
+ "loss": 2.2891,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.11428571428571428,
34
+ "grad_norm": 2.666455030441284,
35
  "learning_rate": 0.00048095238095238095,
36
+ "loss": 2.0865,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.14285714285714285,
41
+ "grad_norm": 4.363830089569092,
42
  "learning_rate": 0.0004761904761904762,
43
+ "loss": 2.061,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.17142857142857143,
48
+ "grad_norm": 5.7685394287109375,
49
  "learning_rate": 0.0004714285714285714,
50
+ "loss": 1.8436,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.2,
55
+ "grad_norm": 4.38090181350708,
56
  "learning_rate": 0.00046666666666666666,
57
+ "loss": 1.8594,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.22857142857142856,
62
+ "grad_norm": 6.654545783996582,
63
  "learning_rate": 0.00046190476190476195,
64
+ "loss": 1.8804,
65
  "step": 80
66
  },
67
  {
68
  "epoch": 0.2571428571428571,
69
+ "grad_norm": 2.162074565887451,
70
  "learning_rate": 0.00045714285714285713,
71
+ "loss": 1.6293,
72
  "step": 90
73
  },
74
  {
75
  "epoch": 0.2857142857142857,
76
+ "grad_norm": 4.620967388153076,
77
  "learning_rate": 0.00045238095238095237,
78
+ "loss": 1.6454,
79
  "step": 100
80
  },
81
  {
82
  "epoch": 0.3142857142857143,
83
+ "grad_norm": 5.860279083251953,
84
  "learning_rate": 0.00044761904761904766,
85
+ "loss": 1.6508,
86
  "step": 110
87
  },
88
  {
89
  "epoch": 0.34285714285714286,
90
+ "grad_norm": 2.8689663410186768,
91
  "learning_rate": 0.00044285714285714284,
92
+ "loss": 1.3364,
93
  "step": 120
94
  },
95
  {
96
  "epoch": 0.37142857142857144,
97
+ "grad_norm": 2.600432872772217,
98
  "learning_rate": 0.0004380952380952381,
99
+ "loss": 1.4913,
100
  "step": 130
101
  },
102
  {
103
  "epoch": 0.4,
104
+ "grad_norm": 3.5309250354766846,
105
  "learning_rate": 0.00043333333333333337,
106
+ "loss": 1.3719,
107
  "step": 140
108
  },
109
  {
110
  "epoch": 0.42857142857142855,
111
+ "grad_norm": 2.634753704071045,
112
  "learning_rate": 0.00042857142857142855,
113
+ "loss": 1.5274,
114
  "step": 150
115
  },
116
  {
117
  "epoch": 0.45714285714285713,
118
+ "grad_norm": 3.284735918045044,
119
  "learning_rate": 0.0004238095238095238,
120
+ "loss": 1.5985,
121
  "step": 160
122
  },
123
  {
124
  "epoch": 0.4857142857142857,
125
+ "grad_norm": 3.2241106033325195,
126
  "learning_rate": 0.0004190476190476191,
127
+ "loss": 1.2673,
128
  "step": 170
129
  },
130
  {
131
  "epoch": 0.5142857142857142,
132
+ "grad_norm": 2.514350175857544,
133
  "learning_rate": 0.0004142857142857143,
134
+ "loss": 1.4211,
135
  "step": 180
136
  },
137
  {
138
  "epoch": 0.5428571428571428,
139
+ "grad_norm": 3.476823091506958,
140
  "learning_rate": 0.00040952380952380955,
141
+ "loss": 1.4254,
142
  "step": 190
143
  },
144
  {
145
  "epoch": 0.5714285714285714,
146
+ "grad_norm": 2.4598169326782227,
147
  "learning_rate": 0.0004047619047619048,
148
+ "loss": 1.2857,
149
  "step": 200
150
  },
151
  {
152
  "epoch": 0.6,
153
+ "grad_norm": 3.915236234664917,
154
  "learning_rate": 0.0004,
155
+ "loss": 1.2144,
156
  "step": 210
157
  },
158
  {
159
  "epoch": 0.6285714285714286,
160
+ "grad_norm": 3.5647623538970947,
161
  "learning_rate": 0.00039523809523809526,
162
+ "loss": 1.2258,
163
  "step": 220
164
  },
165
  {
166
  "epoch": 0.6571428571428571,
167
+ "grad_norm": 4.019155025482178,
168
  "learning_rate": 0.0003904761904761905,
169
+ "loss": 1.4103,
170
  "step": 230
171
  },
172
  {
173
  "epoch": 0.6857142857142857,
174
+ "grad_norm": 3.1268930435180664,
175
  "learning_rate": 0.0003857142857142857,
176
+ "loss": 1.2308,
177
  "step": 240
178
  },
179
  {
180
  "epoch": 0.7142857142857143,
181
+ "grad_norm": 2.708326578140259,
182
  "learning_rate": 0.00038095238095238096,
183
+ "loss": 1.3197,
184
  "step": 250
185
  },
186
  {
187
  "epoch": 0.7428571428571429,
188
+ "grad_norm": 2.4128565788269043,
189
  "learning_rate": 0.0003761904761904762,
190
+ "loss": 1.1922,
191
  "step": 260
192
  },
193
  {
194
  "epoch": 0.7714285714285715,
195
+ "grad_norm": 4.487890243530273,
196
  "learning_rate": 0.00037142857142857143,
197
+ "loss": 1.2505,
198
  "step": 270
199
  },
200
  {
201
  "epoch": 0.8,
202
+ "grad_norm": 3.1995606422424316,
203
  "learning_rate": 0.00036666666666666667,
204
+ "loss": 1.2047,
205
  "step": 280
206
  },
207
  {
208
  "epoch": 0.8285714285714286,
209
+ "grad_norm": 3.0884156227111816,
210
  "learning_rate": 0.0003619047619047619,
211
+ "loss": 1.1397,
212
  "step": 290
213
  },
214
  {
215
  "epoch": 0.8571428571428571,
216
+ "grad_norm": 3.9434640407562256,
217
  "learning_rate": 0.00035714285714285714,
218
+ "loss": 1.0844,
219
  "step": 300
220
  },
221
  {
222
  "epoch": 0.8857142857142857,
223
+ "grad_norm": 3.6582884788513184,
224
  "learning_rate": 0.00035238095238095243,
225
+ "loss": 1.1461,
226
  "step": 310
227
  },
228
  {
229
  "epoch": 0.9142857142857143,
230
+ "grad_norm": 2.6335928440093994,
231
  "learning_rate": 0.0003476190476190476,
232
+ "loss": 1.4124,
233
  "step": 320
234
  },
235
  {
236
  "epoch": 0.9428571428571428,
237
+ "grad_norm": 2.8153300285339355,
238
  "learning_rate": 0.00034285714285714285,
239
+ "loss": 1.1619,
240
  "step": 330
241
  },
242
  {
243
  "epoch": 0.9714285714285714,
244
+ "grad_norm": 5.384872913360596,
245
  "learning_rate": 0.00033809523809523814,
246
+ "loss": 1.1091,
247
  "step": 340
248
  },
249
  {
250
  "epoch": 1.0,
251
+ "grad_norm": 4.4129958152771,
252
  "learning_rate": 0.0003333333333333333,
253
+ "loss": 1.1665,
254
  "step": 350
255
  },
256
  {
257
  "epoch": 1.0,
258
+ "eval_loss": 1.0720068216323853,
259
+ "eval_runtime": 16.9829,
260
+ "eval_samples_per_second": 11.777,
261
+ "eval_steps_per_second": 1.472,
262
  "step": 350
263
  },
264
  {
265
  "epoch": 1.0285714285714285,
266
+ "grad_norm": 7.848823547363281,
267
  "learning_rate": 0.00032857142857142856,
268
+ "loss": 1.073,
269
  "step": 360
270
  },
271
  {
272
  "epoch": 1.0571428571428572,
273
+ "grad_norm": 3.559180498123169,
274
  "learning_rate": 0.00032380952380952385,
275
+ "loss": 1.1773,
276
  "step": 370
277
  },
278
  {
279
  "epoch": 1.0857142857142856,
280
+ "grad_norm": 2.477151870727539,
281
  "learning_rate": 0.00031904761904761903,
282
+ "loss": 1.0647,
283
  "step": 380
284
  },
285
  {
286
  "epoch": 1.1142857142857143,
287
+ "grad_norm": 3.4121389389038086,
288
  "learning_rate": 0.00031428571428571427,
289
+ "loss": 1.0428,
290
  "step": 390
291
  },
292
  {
293
  "epoch": 1.1428571428571428,
294
+ "grad_norm": 6.0573015213012695,
295
  "learning_rate": 0.00030952380952380956,
296
+ "loss": 1.0667,
297
  "step": 400
298
  },
299
  {
300
  "epoch": 1.1714285714285715,
301
+ "grad_norm": 3.7485954761505127,
302
  "learning_rate": 0.0003047619047619048,
303
+ "loss": 1.0497,
304
  "step": 410
305
  },
306
  {
307
  "epoch": 1.2,
308
+ "grad_norm": 4.239710330963135,
309
  "learning_rate": 0.0003,
310
+ "loss": 1.1227,
311
  "step": 420
312
  },
313
  {
314
  "epoch": 1.2285714285714286,
315
+ "grad_norm": 7.383611679077148,
316
  "learning_rate": 0.00029523809523809526,
317
+ "loss": 1.0,
318
  "step": 430
319
  },
320
  {
321
  "epoch": 1.2571428571428571,
322
+ "grad_norm": 3.1444430351257324,
323
  "learning_rate": 0.0002904761904761905,
324
+ "loss": 0.9194,
325
  "step": 440
326
  },
327
  {
328
  "epoch": 1.2857142857142856,
329
+ "grad_norm": 8.754597663879395,
330
  "learning_rate": 0.0002857142857142857,
331
+ "loss": 1.2234,
332
  "step": 450
333
  },
334
  {
335
  "epoch": 1.3142857142857143,
336
+ "grad_norm": 5.383545875549316,
337
  "learning_rate": 0.00028095238095238097,
338
+ "loss": 1.0219,
339
  "step": 460
340
  },
341
  {
342
  "epoch": 1.342857142857143,
343
+ "grad_norm": 3.977374792098999,
344
  "learning_rate": 0.0002761904761904762,
345
+ "loss": 1.061,
346
  "step": 470
347
  },
348
  {
349
  "epoch": 1.3714285714285714,
350
+ "grad_norm": 3.6732325553894043,
351
  "learning_rate": 0.0002714285714285714,
352
+ "loss": 1.1131,
353
  "step": 480
354
  },
355
  {
356
  "epoch": 1.4,
357
+ "grad_norm": 4.493168830871582,
358
  "learning_rate": 0.0002666666666666667,
359
+ "loss": 1.0033,
360
  "step": 490
361
  },
362
  {
363
  "epoch": 1.4285714285714286,
364
+ "grad_norm": 2.9993937015533447,
365
  "learning_rate": 0.0002619047619047619,
366
+ "loss": 1.0023,
367
  "step": 500
368
  },
369
  {
370
  "epoch": 1.457142857142857,
371
+ "grad_norm": 3.984879732131958,
372
  "learning_rate": 0.0002571428571428571,
373
+ "loss": 0.9796,
374
  "step": 510
375
  },
376
  {
377
  "epoch": 1.4857142857142858,
378
+ "grad_norm": 5.652857303619385,
379
  "learning_rate": 0.0002523809523809524,
380
+ "loss": 0.912,
381
  "step": 520
382
  },
383
  {
384
  "epoch": 1.5142857142857142,
385
+ "grad_norm": 4.275585174560547,
386
  "learning_rate": 0.0002476190476190476,
387
+ "loss": 0.9618,
388
  "step": 530
389
  },
390
  {
391
  "epoch": 1.5428571428571427,
392
+ "grad_norm": 4.000895977020264,
393
  "learning_rate": 0.00024285714285714286,
394
+ "loss": 1.0019,
395
  "step": 540
396
  },
397
  {
398
  "epoch": 1.5714285714285714,
399
+ "grad_norm": 3.681532144546509,
400
  "learning_rate": 0.0002380952380952381,
401
+ "loss": 0.9769,
402
  "step": 550
403
  },
404
  {
405
  "epoch": 1.6,
406
+ "grad_norm": 6.31843376159668,
407
  "learning_rate": 0.00023333333333333333,
408
+ "loss": 1.0508,
409
  "step": 560
410
  },
411
  {
412
  "epoch": 1.6285714285714286,
413
+ "grad_norm": 3.165881633758545,
414
  "learning_rate": 0.00022857142857142857,
415
+ "loss": 1.1192,
416
  "step": 570
417
  },
418
  {
419
  "epoch": 1.657142857142857,
420
+ "grad_norm": 3.3488543033599854,
421
  "learning_rate": 0.00022380952380952383,
422
+ "loss": 0.945,
423
  "step": 580
424
  },
425
  {
426
  "epoch": 1.6857142857142857,
427
+ "grad_norm": 3.479367256164551,
428
  "learning_rate": 0.00021904761904761904,
429
+ "loss": 1.1191,
430
  "step": 590
431
  },
432
  {
433
  "epoch": 1.7142857142857144,
434
+ "grad_norm": 3.9680163860321045,
435
  "learning_rate": 0.00021428571428571427,
436
+ "loss": 1.0116,
437
  "step": 600
438
  },
439
  {
440
  "epoch": 1.7428571428571429,
441
+ "grad_norm": 3.4398531913757324,
442
  "learning_rate": 0.00020952380952380954,
443
+ "loss": 1.0162,
444
  "step": 610
445
  },
446
  {
447
  "epoch": 1.7714285714285714,
448
+ "grad_norm": 4.210978031158447,
449
  "learning_rate": 0.00020476190476190477,
450
+ "loss": 0.9214,
451
  "step": 620
452
  },
453
  {
454
  "epoch": 1.8,
455
+ "grad_norm": 3.9029576778411865,
456
  "learning_rate": 0.0002,
457
+ "loss": 1.0135,
458
  "step": 630
459
  },
460
  {
461
  "epoch": 1.8285714285714287,
462
+ "grad_norm": 3.1066203117370605,
463
  "learning_rate": 0.00019523809523809525,
464
+ "loss": 1.0136,
465
  "step": 640
466
  },
467
  {
468
  "epoch": 1.8571428571428572,
469
+ "grad_norm": 4.775870323181152,
470
  "learning_rate": 0.00019047619047619048,
471
+ "loss": 0.8558,
472
  "step": 650
473
  },
474
  {
475
  "epoch": 1.8857142857142857,
476
+ "grad_norm": 4.7907490730285645,
477
  "learning_rate": 0.00018571428571428572,
478
+ "loss": 0.9436,
479
  "step": 660
480
  },
481
  {
482
  "epoch": 1.9142857142857141,
483
+ "grad_norm": 4.235854148864746,
484
  "learning_rate": 0.00018095238095238095,
485
+ "loss": 0.9884,
486
  "step": 670
487
  },
488
  {
489
  "epoch": 1.9428571428571428,
490
+ "grad_norm": 3.239032030105591,
491
  "learning_rate": 0.00017619047619047622,
492
+ "loss": 0.9304,
493
  "step": 680
494
  },
495
  {
496
  "epoch": 1.9714285714285715,
497
+ "grad_norm": 3.5313665866851807,
498
  "learning_rate": 0.00017142857142857143,
499
+ "loss": 0.983,
500
  "step": 690
501
  },
502
  {
503
  "epoch": 2.0,
504
+ "grad_norm": 3.0609097480773926,
505
  "learning_rate": 0.00016666666666666666,
506
+ "loss": 0.9815,
507
  "step": 700
508
  },
509
  {
510
  "epoch": 2.0,
511
+ "eval_loss": 0.8912971615791321,
512
+ "eval_runtime": 17.0248,
513
+ "eval_samples_per_second": 11.748,
514
+ "eval_steps_per_second": 1.468,
515
  "step": 700
516
  },
517
  {
518
  "epoch": 2.0285714285714285,
519
+ "grad_norm": 2.448066473007202,
520
  "learning_rate": 0.00016190476190476192,
521
+ "loss": 0.8429,
522
  "step": 710
523
  },
524
  {
525
  "epoch": 2.057142857142857,
526
+ "grad_norm": 2.44789719581604,
527
  "learning_rate": 0.00015714285714285713,
528
+ "loss": 0.8165,
529
  "step": 720
530
  },
531
  {
532
  "epoch": 2.085714285714286,
533
+ "grad_norm": 3.3588461875915527,
534
  "learning_rate": 0.0001523809523809524,
535
+ "loss": 0.8081,
536
  "step": 730
537
  },
538
  {
539
  "epoch": 2.1142857142857143,
540
+ "grad_norm": 3.647935628890991,
541
  "learning_rate": 0.00014761904761904763,
542
+ "loss": 0.8373,
543
  "step": 740
544
  },
545
  {
546
  "epoch": 2.142857142857143,
547
+ "grad_norm": 5.533905506134033,
548
  "learning_rate": 0.00014285714285714284,
549
+ "loss": 1.0447,
550
  "step": 750
551
  },
552
  {
553
  "epoch": 2.1714285714285713,
554
+ "grad_norm": 3.834791660308838,
555
  "learning_rate": 0.0001380952380952381,
556
+ "loss": 0.909,
557
  "step": 760
558
  },
559
  {
560
  "epoch": 2.2,
561
+ "grad_norm": 3.3422257900238037,
562
  "learning_rate": 0.00013333333333333334,
563
+ "loss": 0.8473,
564
  "step": 770
565
  },
566
  {
567
  "epoch": 2.2285714285714286,
568
+ "grad_norm": 3.9888529777526855,
569
  "learning_rate": 0.00012857142857142855,
570
+ "loss": 0.9289,
571
  "step": 780
572
  },
573
  {
574
  "epoch": 2.257142857142857,
575
+ "grad_norm": 2.7921173572540283,
576
  "learning_rate": 0.0001238095238095238,
577
+ "loss": 0.7639,
578
  "step": 790
579
  },
580
  {
581
  "epoch": 2.2857142857142856,
582
+ "grad_norm": 3.649446964263916,
583
  "learning_rate": 0.00011904761904761905,
584
+ "loss": 0.8032,
585
  "step": 800
586
  },
587
  {
588
  "epoch": 2.314285714285714,
589
+ "grad_norm": 2.795527219772339,
590
  "learning_rate": 0.00011428571428571428,
591
+ "loss": 0.8604,
592
  "step": 810
593
  },
594
  {
595
  "epoch": 2.342857142857143,
596
+ "grad_norm": 4.063432693481445,
597
  "learning_rate": 0.00010952380952380952,
598
+ "loss": 0.8038,
599
  "step": 820
600
  },
601
  {
602
  "epoch": 2.3714285714285714,
603
+ "grad_norm": 6.527313232421875,
604
  "learning_rate": 0.00010476190476190477,
605
+ "loss": 0.9626,
606
  "step": 830
607
  },
608
  {
609
  "epoch": 2.4,
610
+ "grad_norm": 4.3589677810668945,
611
  "learning_rate": 0.0001,
612
+ "loss": 0.8209,
613
  "step": 840
614
  },
615
  {
616
  "epoch": 2.4285714285714284,
617
+ "grad_norm": 4.879549026489258,
618
  "learning_rate": 9.523809523809524e-05,
619
+ "loss": 0.7638,
620
  "step": 850
621
  },
622
  {
623
  "epoch": 2.4571428571428573,
624
+ "grad_norm": 4.141664981842041,
625
  "learning_rate": 9.047619047619048e-05,
626
+ "loss": 0.8789,
627
  "step": 860
628
  },
629
  {
630
  "epoch": 2.4857142857142858,
631
+ "grad_norm": 2.2482237815856934,
632
  "learning_rate": 8.571428571428571e-05,
633
+ "loss": 0.9195,
634
  "step": 870
635
  },
636
  {
637
  "epoch": 2.5142857142857142,
638
+ "grad_norm": 3.0567550659179688,
639
  "learning_rate": 8.095238095238096e-05,
640
+ "loss": 0.8484,
641
  "step": 880
642
  },
643
  {
644
  "epoch": 2.5428571428571427,
645
+ "grad_norm": 4.093011379241943,
646
  "learning_rate": 7.61904761904762e-05,
647
+ "loss": 0.9751,
648
  "step": 890
649
  },
650
  {
651
  "epoch": 2.571428571428571,
652
+ "grad_norm": 4.998325824737549,
653
  "learning_rate": 7.142857142857142e-05,
654
+ "loss": 0.6668,
655
  "step": 900
656
  },
657
  {
658
  "epoch": 2.6,
659
+ "grad_norm": 2.410688877105713,
660
  "learning_rate": 6.666666666666667e-05,
661
+ "loss": 0.8172,
662
  "step": 910
663
  },
664
  {
665
  "epoch": 2.6285714285714286,
666
+ "grad_norm": 4.06935453414917,
667
  "learning_rate": 6.19047619047619e-05,
668
+ "loss": 0.8715,
669
  "step": 920
670
  },
671
  {
672
  "epoch": 2.657142857142857,
673
+ "grad_norm": 4.4172749519348145,
674
  "learning_rate": 5.714285714285714e-05,
675
+ "loss": 0.7697,
676
  "step": 930
677
  },
678
  {
679
  "epoch": 2.685714285714286,
680
+ "grad_norm": 4.751075267791748,
681
  "learning_rate": 5.2380952380952384e-05,
682
+ "loss": 0.9336,
683
  "step": 940
684
  },
685
  {
686
  "epoch": 2.7142857142857144,
687
+ "grad_norm": 5.419342994689941,
688
  "learning_rate": 4.761904761904762e-05,
689
+ "loss": 0.7864,
690
  "step": 950
691
  },
692
  {
693
  "epoch": 2.742857142857143,
694
+ "grad_norm": 5.93941593170166,
695
  "learning_rate": 4.2857142857142856e-05,
696
+ "loss": 0.7512,
697
  "step": 960
698
  },
699
  {
700
  "epoch": 2.7714285714285714,
701
+ "grad_norm": 4.589322090148926,
702
  "learning_rate": 3.80952380952381e-05,
703
+ "loss": 0.931,
704
  "step": 970
705
  },
706
  {
707
  "epoch": 2.8,
708
+ "grad_norm": 2.8117074966430664,
709
  "learning_rate": 3.3333333333333335e-05,
710
+ "loss": 0.9269,
711
  "step": 980
712
  },
713
  {
714
  "epoch": 2.8285714285714287,
715
+ "grad_norm": 3.5889601707458496,
716
  "learning_rate": 2.857142857142857e-05,
717
+ "loss": 0.8692,
718
  "step": 990
719
  },
720
  {
721
  "epoch": 2.857142857142857,
722
+ "grad_norm": 2.896406412124634,
723
  "learning_rate": 2.380952380952381e-05,
724
+ "loss": 0.8653,
725
  "step": 1000
726
  },
727
  {
728
  "epoch": 2.8857142857142857,
729
+ "grad_norm": 4.262946605682373,
730
  "learning_rate": 1.904761904761905e-05,
731
+ "loss": 0.8147,
732
  "step": 1010
733
  },
734
  {
735
  "epoch": 2.914285714285714,
736
+ "grad_norm": 2.0895347595214844,
737
  "learning_rate": 1.4285714285714285e-05,
738
+ "loss": 0.7894,
739
  "step": 1020
740
  },
741
  {
742
  "epoch": 2.942857142857143,
743
+ "grad_norm": 3.1296284198760986,
744
  "learning_rate": 9.523809523809525e-06,
745
+ "loss": 0.6825,
746
  "step": 1030
747
  },
748
  {
749
  "epoch": 2.9714285714285715,
750
+ "grad_norm": 4.006032943725586,
751
  "learning_rate": 4.761904761904762e-06,
752
+ "loss": 0.7002,
753
  "step": 1040
754
  },
755
  {
756
  "epoch": 3.0,
757
+ "grad_norm": 4.667923450469971,
758
  "learning_rate": 0.0,
759
+ "loss": 0.854,
760
  "step": 1050
761
  },
762
  {
763
  "epoch": 3.0,
764
+ "eval_loss": 0.7869462370872498,
765
+ "eval_runtime": 16.9799,
766
+ "eval_samples_per_second": 11.779,
767
+ "eval_steps_per_second": 1.472,
768
  "step": 1050
769
  }
770
  ],
checkpoint-350/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3d7c63baa562d4afaa4d411aa139867d68a941e5ff4c311e3978a2a1b4b34fe2
3
  size 3416264
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:07b19a3342e5274099483d3b96acb4e8a3b702bfff8b05bd21955b7225a6d5f3
3
  size 3416264
checkpoint-350/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6862b2082074ac04ffc613d6b1c3a96957b5d858c58de54d79f56adb2d732eb6
3
  size 6869818
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:30c9044fc476d6d5c60a711eb88687b34e285486823fc0794f9256ea8ee19d8f
3
  size 6869818
checkpoint-350/trainer_state.json CHANGED
@@ -10,255 +10,255 @@
10
  "log_history": [
11
  {
12
  "epoch": 0.02857142857142857,
13
- "grad_norm": 11.918978691101074,
14
  "learning_rate": 0.0004952380952380952,
15
- "loss": 4.4927,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.05714285714285714,
20
- "grad_norm": 5.589139461517334,
21
  "learning_rate": 0.0004904761904761905,
22
- "loss": 2.6308,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.08571428571428572,
27
- "grad_norm": 9.946991920471191,
28
  "learning_rate": 0.0004857142857142857,
29
- "loss": 2.2656,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.11428571428571428,
34
- "grad_norm": 4.425405502319336,
35
  "learning_rate": 0.00048095238095238095,
36
- "loss": 2.0816,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.14285714285714285,
41
- "grad_norm": 4.761979103088379,
42
  "learning_rate": 0.0004761904761904762,
43
- "loss": 2.0915,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.17142857142857143,
48
- "grad_norm": 4.236316204071045,
49
  "learning_rate": 0.0004714285714285714,
50
- "loss": 1.8267,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.2,
55
- "grad_norm": 3.1871836185455322,
56
  "learning_rate": 0.00046666666666666666,
57
- "loss": 1.8426,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.22857142857142856,
62
- "grad_norm": 5.339052677154541,
63
  "learning_rate": 0.00046190476190476195,
64
- "loss": 1.8622,
65
  "step": 80
66
  },
67
  {
68
  "epoch": 0.2571428571428571,
69
- "grad_norm": 3.1449456214904785,
70
  "learning_rate": 0.00045714285714285713,
71
- "loss": 1.6587,
72
  "step": 90
73
  },
74
  {
75
  "epoch": 0.2857142857142857,
76
- "grad_norm": 5.643612861633301,
77
  "learning_rate": 0.00045238095238095237,
78
- "loss": 1.67,
79
  "step": 100
80
  },
81
  {
82
  "epoch": 0.3142857142857143,
83
- "grad_norm": 3.7077548503875732,
84
  "learning_rate": 0.00044761904761904766,
85
- "loss": 1.6768,
86
  "step": 110
87
  },
88
  {
89
  "epoch": 0.34285714285714286,
90
- "grad_norm": 2.433858633041382,
91
  "learning_rate": 0.00044285714285714284,
92
- "loss": 1.3662,
93
  "step": 120
94
  },
95
  {
96
  "epoch": 0.37142857142857144,
97
- "grad_norm": 3.0955514907836914,
98
  "learning_rate": 0.0004380952380952381,
99
- "loss": 1.5289,
100
  "step": 130
101
  },
102
  {
103
  "epoch": 0.4,
104
- "grad_norm": 6.524577617645264,
105
  "learning_rate": 0.00043333333333333337,
106
- "loss": 1.4246,
107
  "step": 140
108
  },
109
  {
110
  "epoch": 0.42857142857142855,
111
- "grad_norm": 4.222738265991211,
112
  "learning_rate": 0.00042857142857142855,
113
- "loss": 1.5386,
114
  "step": 150
115
  },
116
  {
117
  "epoch": 0.45714285714285713,
118
- "grad_norm": 3.318093776702881,
119
  "learning_rate": 0.0004238095238095238,
120
- "loss": 1.6411,
121
  "step": 160
122
  },
123
  {
124
  "epoch": 0.4857142857142857,
125
- "grad_norm": 3.080537796020508,
126
  "learning_rate": 0.0004190476190476191,
127
- "loss": 1.2947,
128
  "step": 170
129
  },
130
  {
131
  "epoch": 0.5142857142857142,
132
- "grad_norm": 4.210653305053711,
133
  "learning_rate": 0.0004142857142857143,
134
- "loss": 1.4724,
135
  "step": 180
136
  },
137
  {
138
  "epoch": 0.5428571428571428,
139
- "grad_norm": 2.615692138671875,
140
  "learning_rate": 0.00040952380952380955,
141
- "loss": 1.4507,
142
  "step": 190
143
  },
144
  {
145
  "epoch": 0.5714285714285714,
146
- "grad_norm": 3.874413013458252,
147
  "learning_rate": 0.0004047619047619048,
148
- "loss": 1.2955,
149
  "step": 200
150
  },
151
  {
152
  "epoch": 0.6,
153
- "grad_norm": 4.24971866607666,
154
  "learning_rate": 0.0004,
155
- "loss": 1.2389,
156
  "step": 210
157
  },
158
  {
159
  "epoch": 0.6285714285714286,
160
- "grad_norm": 4.347882270812988,
161
  "learning_rate": 0.00039523809523809526,
162
- "loss": 1.2475,
163
  "step": 220
164
  },
165
  {
166
  "epoch": 0.6571428571428571,
167
- "grad_norm": 4.45231819152832,
168
  "learning_rate": 0.0003904761904761905,
169
- "loss": 1.4072,
170
  "step": 230
171
  },
172
  {
173
  "epoch": 0.6857142857142857,
174
- "grad_norm": 2.5132458209991455,
175
  "learning_rate": 0.0003857142857142857,
176
- "loss": 1.2506,
177
  "step": 240
178
  },
179
  {
180
  "epoch": 0.7142857142857143,
181
- "grad_norm": 2.3154046535491943,
182
  "learning_rate": 0.00038095238095238096,
183
- "loss": 1.3371,
184
  "step": 250
185
  },
186
  {
187
  "epoch": 0.7428571428571429,
188
- "grad_norm": 2.9877989292144775,
189
  "learning_rate": 0.0003761904761904762,
190
- "loss": 1.2249,
191
  "step": 260
192
  },
193
  {
194
  "epoch": 0.7714285714285715,
195
- "grad_norm": 4.407787799835205,
196
  "learning_rate": 0.00037142857142857143,
197
- "loss": 1.2712,
198
  "step": 270
199
  },
200
  {
201
  "epoch": 0.8,
202
- "grad_norm": 2.691910982131958,
203
  "learning_rate": 0.00036666666666666667,
204
- "loss": 1.2366,
205
  "step": 280
206
  },
207
  {
208
  "epoch": 0.8285714285714286,
209
- "grad_norm": 2.3351523876190186,
210
  "learning_rate": 0.0003619047619047619,
211
- "loss": 1.1777,
212
  "step": 290
213
  },
214
  {
215
  "epoch": 0.8571428571428571,
216
- "grad_norm": 2.878443956375122,
217
  "learning_rate": 0.00035714285714285714,
218
- "loss": 1.1375,
219
  "step": 300
220
  },
221
  {
222
  "epoch": 0.8857142857142857,
223
- "grad_norm": 3.0720036029815674,
224
  "learning_rate": 0.00035238095238095243,
225
- "loss": 1.1578,
226
  "step": 310
227
  },
228
  {
229
  "epoch": 0.9142857142857143,
230
- "grad_norm": 2.359656572341919,
231
  "learning_rate": 0.0003476190476190476,
232
- "loss": 1.4001,
233
  "step": 320
234
  },
235
  {
236
  "epoch": 0.9428571428571428,
237
- "grad_norm": 2.3982980251312256,
238
  "learning_rate": 0.00034285714285714285,
239
- "loss": 1.1716,
240
  "step": 330
241
  },
242
  {
243
  "epoch": 0.9714285714285714,
244
- "grad_norm": 4.372157573699951,
245
  "learning_rate": 0.00033809523809523814,
246
- "loss": 1.1177,
247
  "step": 340
248
  },
249
  {
250
  "epoch": 1.0,
251
- "grad_norm": 4.467468738555908,
252
  "learning_rate": 0.0003333333333333333,
253
- "loss": 1.1884,
254
  "step": 350
255
  },
256
  {
257
  "epoch": 1.0,
258
- "eval_loss": 1.0876593589782715,
259
- "eval_runtime": 16.2651,
260
- "eval_samples_per_second": 12.296,
261
- "eval_steps_per_second": 1.537,
262
  "step": 350
263
  }
264
  ],
 
10
  "log_history": [
11
  {
12
  "epoch": 0.02857142857142857,
13
+ "grad_norm": 320.9814758300781,
14
  "learning_rate": 0.0004952380952380952,
15
+ "loss": 5.144,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.05714285714285714,
20
+ "grad_norm": 8.983612060546875,
21
  "learning_rate": 0.0004904761904761905,
22
+ "loss": 3.5072,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.08571428571428572,
27
+ "grad_norm": 5.370372772216797,
28
  "learning_rate": 0.0004857142857142857,
29
+ "loss": 2.2891,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.11428571428571428,
34
+ "grad_norm": 2.666455030441284,
35
  "learning_rate": 0.00048095238095238095,
36
+ "loss": 2.0865,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.14285714285714285,
41
+ "grad_norm": 4.363830089569092,
42
  "learning_rate": 0.0004761904761904762,
43
+ "loss": 2.061,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.17142857142857143,
48
+ "grad_norm": 5.7685394287109375,
49
  "learning_rate": 0.0004714285714285714,
50
+ "loss": 1.8436,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.2,
55
+ "grad_norm": 4.38090181350708,
56
  "learning_rate": 0.00046666666666666666,
57
+ "loss": 1.8594,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.22857142857142856,
62
+ "grad_norm": 6.654545783996582,
63
  "learning_rate": 0.00046190476190476195,
64
+ "loss": 1.8804,
65
  "step": 80
66
  },
67
  {
68
  "epoch": 0.2571428571428571,
69
+ "grad_norm": 2.162074565887451,
70
  "learning_rate": 0.00045714285714285713,
71
+ "loss": 1.6293,
72
  "step": 90
73
  },
74
  {
75
  "epoch": 0.2857142857142857,
76
+ "grad_norm": 4.620967388153076,
77
  "learning_rate": 0.00045238095238095237,
78
+ "loss": 1.6454,
79
  "step": 100
80
  },
81
  {
82
  "epoch": 0.3142857142857143,
83
+ "grad_norm": 5.860279083251953,
84
  "learning_rate": 0.00044761904761904766,
85
+ "loss": 1.6508,
86
  "step": 110
87
  },
88
  {
89
  "epoch": 0.34285714285714286,
90
+ "grad_norm": 2.8689663410186768,
91
  "learning_rate": 0.00044285714285714284,
92
+ "loss": 1.3364,
93
  "step": 120
94
  },
95
  {
96
  "epoch": 0.37142857142857144,
97
+ "grad_norm": 2.600432872772217,
98
  "learning_rate": 0.0004380952380952381,
99
+ "loss": 1.4913,
100
  "step": 130
101
  },
102
  {
103
  "epoch": 0.4,
104
+ "grad_norm": 3.5309250354766846,
105
  "learning_rate": 0.00043333333333333337,
106
+ "loss": 1.3719,
107
  "step": 140
108
  },
109
  {
110
  "epoch": 0.42857142857142855,
111
+ "grad_norm": 2.634753704071045,
112
  "learning_rate": 0.00042857142857142855,
113
+ "loss": 1.5274,
114
  "step": 150
115
  },
116
  {
117
  "epoch": 0.45714285714285713,
118
+ "grad_norm": 3.284735918045044,
119
  "learning_rate": 0.0004238095238095238,
120
+ "loss": 1.5985,
121
  "step": 160
122
  },
123
  {
124
  "epoch": 0.4857142857142857,
125
+ "grad_norm": 3.2241106033325195,
126
  "learning_rate": 0.0004190476190476191,
127
+ "loss": 1.2673,
128
  "step": 170
129
  },
130
  {
131
  "epoch": 0.5142857142857142,
132
+ "grad_norm": 2.514350175857544,
133
  "learning_rate": 0.0004142857142857143,
134
+ "loss": 1.4211,
135
  "step": 180
136
  },
137
  {
138
  "epoch": 0.5428571428571428,
139
+ "grad_norm": 3.476823091506958,
140
  "learning_rate": 0.00040952380952380955,
141
+ "loss": 1.4254,
142
  "step": 190
143
  },
144
  {
145
  "epoch": 0.5714285714285714,
146
+ "grad_norm": 2.4598169326782227,
147
  "learning_rate": 0.0004047619047619048,
148
+ "loss": 1.2857,
149
  "step": 200
150
  },
151
  {
152
  "epoch": 0.6,
153
+ "grad_norm": 3.915236234664917,
154
  "learning_rate": 0.0004,
155
+ "loss": 1.2144,
156
  "step": 210
157
  },
158
  {
159
  "epoch": 0.6285714285714286,
160
+ "grad_norm": 3.5647623538970947,
161
  "learning_rate": 0.00039523809523809526,
162
+ "loss": 1.2258,
163
  "step": 220
164
  },
165
  {
166
  "epoch": 0.6571428571428571,
167
+ "grad_norm": 4.019155025482178,
168
  "learning_rate": 0.0003904761904761905,
169
+ "loss": 1.4103,
170
  "step": 230
171
  },
172
  {
173
  "epoch": 0.6857142857142857,
174
+ "grad_norm": 3.1268930435180664,
175
  "learning_rate": 0.0003857142857142857,
176
+ "loss": 1.2308,
177
  "step": 240
178
  },
179
  {
180
  "epoch": 0.7142857142857143,
181
+ "grad_norm": 2.708326578140259,
182
  "learning_rate": 0.00038095238095238096,
183
+ "loss": 1.3197,
184
  "step": 250
185
  },
186
  {
187
  "epoch": 0.7428571428571429,
188
+ "grad_norm": 2.4128565788269043,
189
  "learning_rate": 0.0003761904761904762,
190
+ "loss": 1.1922,
191
  "step": 260
192
  },
193
  {
194
  "epoch": 0.7714285714285715,
195
+ "grad_norm": 4.487890243530273,
196
  "learning_rate": 0.00037142857142857143,
197
+ "loss": 1.2505,
198
  "step": 270
199
  },
200
  {
201
  "epoch": 0.8,
202
+ "grad_norm": 3.1995606422424316,
203
  "learning_rate": 0.00036666666666666667,
204
+ "loss": 1.2047,
205
  "step": 280
206
  },
207
  {
208
  "epoch": 0.8285714285714286,
209
+ "grad_norm": 3.0884156227111816,
210
  "learning_rate": 0.0003619047619047619,
211
+ "loss": 1.1397,
212
  "step": 290
213
  },
214
  {
215
  "epoch": 0.8571428571428571,
216
+ "grad_norm": 3.9434640407562256,
217
  "learning_rate": 0.00035714285714285714,
218
+ "loss": 1.0844,
219
  "step": 300
220
  },
221
  {
222
  "epoch": 0.8857142857142857,
223
+ "grad_norm": 3.6582884788513184,
224
  "learning_rate": 0.00035238095238095243,
225
+ "loss": 1.1461,
226
  "step": 310
227
  },
228
  {
229
  "epoch": 0.9142857142857143,
230
+ "grad_norm": 2.6335928440093994,
231
  "learning_rate": 0.0003476190476190476,
232
+ "loss": 1.4124,
233
  "step": 320
234
  },
235
  {
236
  "epoch": 0.9428571428571428,
237
+ "grad_norm": 2.8153300285339355,
238
  "learning_rate": 0.00034285714285714285,
239
+ "loss": 1.1619,
240
  "step": 330
241
  },
242
  {
243
  "epoch": 0.9714285714285714,
244
+ "grad_norm": 5.384872913360596,
245
  "learning_rate": 0.00033809523809523814,
246
+ "loss": 1.1091,
247
  "step": 340
248
  },
249
  {
250
  "epoch": 1.0,
251
+ "grad_norm": 4.4129958152771,
252
  "learning_rate": 0.0003333333333333333,
253
+ "loss": 1.1665,
254
  "step": 350
255
  },
256
  {
257
  "epoch": 1.0,
258
+ "eval_loss": 1.0720068216323853,
259
+ "eval_runtime": 16.9829,
260
+ "eval_samples_per_second": 11.777,
261
+ "eval_steps_per_second": 1.472,
262
  "step": 350
263
  }
264
  ],
checkpoint-700/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ae947385a52bb213b99caff8cc082f21cabcec22c32556b34f3a9e7afd17fe45
3
  size 3416264
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8221c3fd15b62a6a4bef2a0e388070ff537f3157ea9a6ce45f5aa8cc5d7c70ed
3
  size 3416264
checkpoint-700/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3234b5048504094f841eae51069d43e7ec592a17538699c7c394ca23cbd41e17
3
  size 6869818
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:74872d6416fc8a272ada5a388a703d59001f77a2bc5f613c852a4d74b1c54e49
3
  size 6869818
checkpoint-700/trainer_state.json CHANGED
@@ -10,508 +10,508 @@
10
  "log_history": [
11
  {
12
  "epoch": 0.02857142857142857,
13
- "grad_norm": 11.918978691101074,
14
  "learning_rate": 0.0004952380952380952,
15
- "loss": 4.4927,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.05714285714285714,
20
- "grad_norm": 5.589139461517334,
21
  "learning_rate": 0.0004904761904761905,
22
- "loss": 2.6308,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.08571428571428572,
27
- "grad_norm": 9.946991920471191,
28
  "learning_rate": 0.0004857142857142857,
29
- "loss": 2.2656,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.11428571428571428,
34
- "grad_norm": 4.425405502319336,
35
  "learning_rate": 0.00048095238095238095,
36
- "loss": 2.0816,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.14285714285714285,
41
- "grad_norm": 4.761979103088379,
42
  "learning_rate": 0.0004761904761904762,
43
- "loss": 2.0915,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.17142857142857143,
48
- "grad_norm": 4.236316204071045,
49
  "learning_rate": 0.0004714285714285714,
50
- "loss": 1.8267,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.2,
55
- "grad_norm": 3.1871836185455322,
56
  "learning_rate": 0.00046666666666666666,
57
- "loss": 1.8426,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.22857142857142856,
62
- "grad_norm": 5.339052677154541,
63
  "learning_rate": 0.00046190476190476195,
64
- "loss": 1.8622,
65
  "step": 80
66
  },
67
  {
68
  "epoch": 0.2571428571428571,
69
- "grad_norm": 3.1449456214904785,
70
  "learning_rate": 0.00045714285714285713,
71
- "loss": 1.6587,
72
  "step": 90
73
  },
74
  {
75
  "epoch": 0.2857142857142857,
76
- "grad_norm": 5.643612861633301,
77
  "learning_rate": 0.00045238095238095237,
78
- "loss": 1.67,
79
  "step": 100
80
  },
81
  {
82
  "epoch": 0.3142857142857143,
83
- "grad_norm": 3.7077548503875732,
84
  "learning_rate": 0.00044761904761904766,
85
- "loss": 1.6768,
86
  "step": 110
87
  },
88
  {
89
  "epoch": 0.34285714285714286,
90
- "grad_norm": 2.433858633041382,
91
  "learning_rate": 0.00044285714285714284,
92
- "loss": 1.3662,
93
  "step": 120
94
  },
95
  {
96
  "epoch": 0.37142857142857144,
97
- "grad_norm": 3.0955514907836914,
98
  "learning_rate": 0.0004380952380952381,
99
- "loss": 1.5289,
100
  "step": 130
101
  },
102
  {
103
  "epoch": 0.4,
104
- "grad_norm": 6.524577617645264,
105
  "learning_rate": 0.00043333333333333337,
106
- "loss": 1.4246,
107
  "step": 140
108
  },
109
  {
110
  "epoch": 0.42857142857142855,
111
- "grad_norm": 4.222738265991211,
112
  "learning_rate": 0.00042857142857142855,
113
- "loss": 1.5386,
114
  "step": 150
115
  },
116
  {
117
  "epoch": 0.45714285714285713,
118
- "grad_norm": 3.318093776702881,
119
  "learning_rate": 0.0004238095238095238,
120
- "loss": 1.6411,
121
  "step": 160
122
  },
123
  {
124
  "epoch": 0.4857142857142857,
125
- "grad_norm": 3.080537796020508,
126
  "learning_rate": 0.0004190476190476191,
127
- "loss": 1.2947,
128
  "step": 170
129
  },
130
  {
131
  "epoch": 0.5142857142857142,
132
- "grad_norm": 4.210653305053711,
133
  "learning_rate": 0.0004142857142857143,
134
- "loss": 1.4724,
135
  "step": 180
136
  },
137
  {
138
  "epoch": 0.5428571428571428,
139
- "grad_norm": 2.615692138671875,
140
  "learning_rate": 0.00040952380952380955,
141
- "loss": 1.4507,
142
  "step": 190
143
  },
144
  {
145
  "epoch": 0.5714285714285714,
146
- "grad_norm": 3.874413013458252,
147
  "learning_rate": 0.0004047619047619048,
148
- "loss": 1.2955,
149
  "step": 200
150
  },
151
  {
152
  "epoch": 0.6,
153
- "grad_norm": 4.24971866607666,
154
  "learning_rate": 0.0004,
155
- "loss": 1.2389,
156
  "step": 210
157
  },
158
  {
159
  "epoch": 0.6285714285714286,
160
- "grad_norm": 4.347882270812988,
161
  "learning_rate": 0.00039523809523809526,
162
- "loss": 1.2475,
163
  "step": 220
164
  },
165
  {
166
  "epoch": 0.6571428571428571,
167
- "grad_norm": 4.45231819152832,
168
  "learning_rate": 0.0003904761904761905,
169
- "loss": 1.4072,
170
  "step": 230
171
  },
172
  {
173
  "epoch": 0.6857142857142857,
174
- "grad_norm": 2.5132458209991455,
175
  "learning_rate": 0.0003857142857142857,
176
- "loss": 1.2506,
177
  "step": 240
178
  },
179
  {
180
  "epoch": 0.7142857142857143,
181
- "grad_norm": 2.3154046535491943,
182
  "learning_rate": 0.00038095238095238096,
183
- "loss": 1.3371,
184
  "step": 250
185
  },
186
  {
187
  "epoch": 0.7428571428571429,
188
- "grad_norm": 2.9877989292144775,
189
  "learning_rate": 0.0003761904761904762,
190
- "loss": 1.2249,
191
  "step": 260
192
  },
193
  {
194
  "epoch": 0.7714285714285715,
195
- "grad_norm": 4.407787799835205,
196
  "learning_rate": 0.00037142857142857143,
197
- "loss": 1.2712,
198
  "step": 270
199
  },
200
  {
201
  "epoch": 0.8,
202
- "grad_norm": 2.691910982131958,
203
  "learning_rate": 0.00036666666666666667,
204
- "loss": 1.2366,
205
  "step": 280
206
  },
207
  {
208
  "epoch": 0.8285714285714286,
209
- "grad_norm": 2.3351523876190186,
210
  "learning_rate": 0.0003619047619047619,
211
- "loss": 1.1777,
212
  "step": 290
213
  },
214
  {
215
  "epoch": 0.8571428571428571,
216
- "grad_norm": 2.878443956375122,
217
  "learning_rate": 0.00035714285714285714,
218
- "loss": 1.1375,
219
  "step": 300
220
  },
221
  {
222
  "epoch": 0.8857142857142857,
223
- "grad_norm": 3.0720036029815674,
224
  "learning_rate": 0.00035238095238095243,
225
- "loss": 1.1578,
226
  "step": 310
227
  },
228
  {
229
  "epoch": 0.9142857142857143,
230
- "grad_norm": 2.359656572341919,
231
  "learning_rate": 0.0003476190476190476,
232
- "loss": 1.4001,
233
  "step": 320
234
  },
235
  {
236
  "epoch": 0.9428571428571428,
237
- "grad_norm": 2.3982980251312256,
238
  "learning_rate": 0.00034285714285714285,
239
- "loss": 1.1716,
240
  "step": 330
241
  },
242
  {
243
  "epoch": 0.9714285714285714,
244
- "grad_norm": 4.372157573699951,
245
  "learning_rate": 0.00033809523809523814,
246
- "loss": 1.1177,
247
  "step": 340
248
  },
249
  {
250
  "epoch": 1.0,
251
- "grad_norm": 4.467468738555908,
252
  "learning_rate": 0.0003333333333333333,
253
- "loss": 1.1884,
254
  "step": 350
255
  },
256
  {
257
  "epoch": 1.0,
258
- "eval_loss": 1.0876593589782715,
259
- "eval_runtime": 16.2651,
260
- "eval_samples_per_second": 12.296,
261
- "eval_steps_per_second": 1.537,
262
  "step": 350
263
  },
264
  {
265
  "epoch": 1.0285714285714285,
266
- "grad_norm": 8.64857292175293,
267
  "learning_rate": 0.00032857142857142856,
268
- "loss": 1.109,
269
  "step": 360
270
  },
271
  {
272
  "epoch": 1.0571428571428572,
273
- "grad_norm": 3.4350078105926514,
274
  "learning_rate": 0.00032380952380952385,
275
- "loss": 1.2132,
276
  "step": 370
277
  },
278
  {
279
  "epoch": 1.0857142857142856,
280
- "grad_norm": 2.4915060997009277,
281
  "learning_rate": 0.00031904761904761903,
282
- "loss": 1.0756,
283
  "step": 380
284
  },
285
  {
286
  "epoch": 1.1142857142857143,
287
- "grad_norm": 3.537388324737549,
288
  "learning_rate": 0.00031428571428571427,
289
- "loss": 1.0506,
290
  "step": 390
291
  },
292
  {
293
  "epoch": 1.1428571428571428,
294
- "grad_norm": 3.6561241149902344,
295
  "learning_rate": 0.00030952380952380956,
296
- "loss": 1.1051,
297
  "step": 400
298
  },
299
  {
300
  "epoch": 1.1714285714285715,
301
- "grad_norm": 3.6229779720306396,
302
  "learning_rate": 0.0003047619047619048,
303
- "loss": 1.0663,
304
  "step": 410
305
  },
306
  {
307
  "epoch": 1.2,
308
- "grad_norm": 4.541111946105957,
309
  "learning_rate": 0.0003,
310
- "loss": 1.1192,
311
  "step": 420
312
  },
313
  {
314
  "epoch": 1.2285714285714286,
315
- "grad_norm": 8.634881973266602,
316
  "learning_rate": 0.00029523809523809526,
317
- "loss": 1.042,
318
  "step": 430
319
  },
320
  {
321
  "epoch": 1.2571428571428571,
322
- "grad_norm": 2.93104887008667,
323
  "learning_rate": 0.0002904761904761905,
324
- "loss": 0.9288,
325
  "step": 440
326
  },
327
  {
328
  "epoch": 1.2857142857142856,
329
- "grad_norm": 6.468315601348877,
330
  "learning_rate": 0.0002857142857142857,
331
- "loss": 1.2407,
332
  "step": 450
333
  },
334
  {
335
  "epoch": 1.3142857142857143,
336
- "grad_norm": 5.183238506317139,
337
  "learning_rate": 0.00028095238095238097,
338
- "loss": 1.0302,
339
  "step": 460
340
  },
341
  {
342
  "epoch": 1.342857142857143,
343
- "grad_norm": 2.7399845123291016,
344
  "learning_rate": 0.0002761904761904762,
345
- "loss": 1.096,
346
  "step": 470
347
  },
348
  {
349
  "epoch": 1.3714285714285714,
350
- "grad_norm": 4.08115291595459,
351
  "learning_rate": 0.0002714285714285714,
352
- "loss": 1.0931,
353
  "step": 480
354
  },
355
  {
356
  "epoch": 1.4,
357
- "grad_norm": 3.567685842514038,
358
  "learning_rate": 0.0002666666666666667,
359
- "loss": 0.9909,
360
  "step": 490
361
  },
362
  {
363
  "epoch": 1.4285714285714286,
364
- "grad_norm": 3.2980871200561523,
365
  "learning_rate": 0.0002619047619047619,
366
- "loss": 1.0007,
367
  "step": 500
368
  },
369
  {
370
  "epoch": 1.457142857142857,
371
- "grad_norm": 4.056380271911621,
372
  "learning_rate": 0.0002571428571428571,
373
- "loss": 0.9869,
374
  "step": 510
375
  },
376
  {
377
  "epoch": 1.4857142857142858,
378
- "grad_norm": 5.267114162445068,
379
  "learning_rate": 0.0002523809523809524,
380
- "loss": 0.9149,
381
  "step": 520
382
  },
383
  {
384
  "epoch": 1.5142857142857142,
385
- "grad_norm": 3.0776150226593018,
386
  "learning_rate": 0.0002476190476190476,
387
- "loss": 0.9842,
388
  "step": 530
389
  },
390
  {
391
  "epoch": 1.5428571428571427,
392
- "grad_norm": 3.3917739391326904,
393
  "learning_rate": 0.00024285714285714286,
394
- "loss": 1.0165,
395
  "step": 540
396
  },
397
  {
398
  "epoch": 1.5714285714285714,
399
- "grad_norm": 3.262791633605957,
400
  "learning_rate": 0.0002380952380952381,
401
- "loss": 0.9766,
402
  "step": 550
403
  },
404
  {
405
  "epoch": 1.6,
406
- "grad_norm": 5.334137916564941,
407
  "learning_rate": 0.00023333333333333333,
408
- "loss": 1.0761,
409
  "step": 560
410
  },
411
  {
412
  "epoch": 1.6285714285714286,
413
- "grad_norm": 3.0354158878326416,
414
  "learning_rate": 0.00022857142857142857,
415
- "loss": 1.1283,
416
  "step": 570
417
  },
418
  {
419
  "epoch": 1.657142857142857,
420
- "grad_norm": 2.9675745964050293,
421
  "learning_rate": 0.00022380952380952383,
422
- "loss": 0.9564,
423
  "step": 580
424
  },
425
  {
426
  "epoch": 1.6857142857142857,
427
- "grad_norm": 3.70650053024292,
428
  "learning_rate": 0.00021904761904761904,
429
- "loss": 1.1382,
430
  "step": 590
431
  },
432
  {
433
  "epoch": 1.7142857142857144,
434
- "grad_norm": 4.117910385131836,
435
  "learning_rate": 0.00021428571428571427,
436
- "loss": 1.0104,
437
  "step": 600
438
  },
439
  {
440
  "epoch": 1.7428571428571429,
441
- "grad_norm": 3.287292957305908,
442
  "learning_rate": 0.00020952380952380954,
443
- "loss": 1.0152,
444
  "step": 610
445
  },
446
  {
447
  "epoch": 1.7714285714285714,
448
- "grad_norm": 4.567937850952148,
449
  "learning_rate": 0.00020476190476190477,
450
- "loss": 0.9348,
451
  "step": 620
452
  },
453
  {
454
  "epoch": 1.8,
455
- "grad_norm": 3.143092393875122,
456
  "learning_rate": 0.0002,
457
- "loss": 1.0373,
458
  "step": 630
459
  },
460
  {
461
  "epoch": 1.8285714285714287,
462
- "grad_norm": 3.003242015838623,
463
  "learning_rate": 0.00019523809523809525,
464
- "loss": 1.0157,
465
  "step": 640
466
  },
467
  {
468
  "epoch": 1.8571428571428572,
469
- "grad_norm": 5.4209489822387695,
470
  "learning_rate": 0.00019047619047619048,
471
- "loss": 0.8729,
472
  "step": 650
473
  },
474
  {
475
  "epoch": 1.8857142857142857,
476
- "grad_norm": 8.428689956665039,
477
  "learning_rate": 0.00018571428571428572,
478
- "loss": 0.9703,
479
  "step": 660
480
  },
481
  {
482
  "epoch": 1.9142857142857141,
483
- "grad_norm": 4.8756866455078125,
484
  "learning_rate": 0.00018095238095238095,
485
- "loss": 1.0013,
486
  "step": 670
487
  },
488
  {
489
  "epoch": 1.9428571428571428,
490
- "grad_norm": 3.252725601196289,
491
  "learning_rate": 0.00017619047619047622,
492
- "loss": 0.9414,
493
  "step": 680
494
  },
495
  {
496
  "epoch": 1.9714285714285715,
497
- "grad_norm": 3.5052497386932373,
498
  "learning_rate": 0.00017142857142857143,
499
- "loss": 0.9891,
500
  "step": 690
501
  },
502
  {
503
  "epoch": 2.0,
504
- "grad_norm": 2.886568546295166,
505
  "learning_rate": 0.00016666666666666666,
506
- "loss": 1.0002,
507
  "step": 700
508
  },
509
  {
510
  "epoch": 2.0,
511
- "eval_loss": 0.9278395175933838,
512
- "eval_runtime": 16.2518,
513
- "eval_samples_per_second": 12.306,
514
- "eval_steps_per_second": 1.538,
515
  "step": 700
516
  }
517
  ],
 
10
  "log_history": [
11
  {
12
  "epoch": 0.02857142857142857,
13
+ "grad_norm": 320.9814758300781,
14
  "learning_rate": 0.0004952380952380952,
15
+ "loss": 5.144,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.05714285714285714,
20
+ "grad_norm": 8.983612060546875,
21
  "learning_rate": 0.0004904761904761905,
22
+ "loss": 3.5072,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.08571428571428572,
27
+ "grad_norm": 5.370372772216797,
28
  "learning_rate": 0.0004857142857142857,
29
+ "loss": 2.2891,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.11428571428571428,
34
+ "grad_norm": 2.666455030441284,
35
  "learning_rate": 0.00048095238095238095,
36
+ "loss": 2.0865,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.14285714285714285,
41
+ "grad_norm": 4.363830089569092,
42
  "learning_rate": 0.0004761904761904762,
43
+ "loss": 2.061,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.17142857142857143,
48
+ "grad_norm": 5.7685394287109375,
49
  "learning_rate": 0.0004714285714285714,
50
+ "loss": 1.8436,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.2,
55
+ "grad_norm": 4.38090181350708,
56
  "learning_rate": 0.00046666666666666666,
57
+ "loss": 1.8594,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.22857142857142856,
62
+ "grad_norm": 6.654545783996582,
63
  "learning_rate": 0.00046190476190476195,
64
+ "loss": 1.8804,
65
  "step": 80
66
  },
67
  {
68
  "epoch": 0.2571428571428571,
69
+ "grad_norm": 2.162074565887451,
70
  "learning_rate": 0.00045714285714285713,
71
+ "loss": 1.6293,
72
  "step": 90
73
  },
74
  {
75
  "epoch": 0.2857142857142857,
76
+ "grad_norm": 4.620967388153076,
77
  "learning_rate": 0.00045238095238095237,
78
+ "loss": 1.6454,
79
  "step": 100
80
  },
81
  {
82
  "epoch": 0.3142857142857143,
83
+ "grad_norm": 5.860279083251953,
84
  "learning_rate": 0.00044761904761904766,
85
+ "loss": 1.6508,
86
  "step": 110
87
  },
88
  {
89
  "epoch": 0.34285714285714286,
90
+ "grad_norm": 2.8689663410186768,
91
  "learning_rate": 0.00044285714285714284,
92
+ "loss": 1.3364,
93
  "step": 120
94
  },
95
  {
96
  "epoch": 0.37142857142857144,
97
+ "grad_norm": 2.600432872772217,
98
  "learning_rate": 0.0004380952380952381,
99
+ "loss": 1.4913,
100
  "step": 130
101
  },
102
  {
103
  "epoch": 0.4,
104
+ "grad_norm": 3.5309250354766846,
105
  "learning_rate": 0.00043333333333333337,
106
+ "loss": 1.3719,
107
  "step": 140
108
  },
109
  {
110
  "epoch": 0.42857142857142855,
111
+ "grad_norm": 2.634753704071045,
112
  "learning_rate": 0.00042857142857142855,
113
+ "loss": 1.5274,
114
  "step": 150
115
  },
116
  {
117
  "epoch": 0.45714285714285713,
118
+ "grad_norm": 3.284735918045044,
119
  "learning_rate": 0.0004238095238095238,
120
+ "loss": 1.5985,
121
  "step": 160
122
  },
123
  {
124
  "epoch": 0.4857142857142857,
125
+ "grad_norm": 3.2241106033325195,
126
  "learning_rate": 0.0004190476190476191,
127
+ "loss": 1.2673,
128
  "step": 170
129
  },
130
  {
131
  "epoch": 0.5142857142857142,
132
+ "grad_norm": 2.514350175857544,
133
  "learning_rate": 0.0004142857142857143,
134
+ "loss": 1.4211,
135
  "step": 180
136
  },
137
  {
138
  "epoch": 0.5428571428571428,
139
+ "grad_norm": 3.476823091506958,
140
  "learning_rate": 0.00040952380952380955,
141
+ "loss": 1.4254,
142
  "step": 190
143
  },
144
  {
145
  "epoch": 0.5714285714285714,
146
+ "grad_norm": 2.4598169326782227,
147
  "learning_rate": 0.0004047619047619048,
148
+ "loss": 1.2857,
149
  "step": 200
150
  },
151
  {
152
  "epoch": 0.6,
153
+ "grad_norm": 3.915236234664917,
154
  "learning_rate": 0.0004,
155
+ "loss": 1.2144,
156
  "step": 210
157
  },
158
  {
159
  "epoch": 0.6285714285714286,
160
+ "grad_norm": 3.5647623538970947,
161
  "learning_rate": 0.00039523809523809526,
162
+ "loss": 1.2258,
163
  "step": 220
164
  },
165
  {
166
  "epoch": 0.6571428571428571,
167
+ "grad_norm": 4.019155025482178,
168
  "learning_rate": 0.0003904761904761905,
169
+ "loss": 1.4103,
170
  "step": 230
171
  },
172
  {
173
  "epoch": 0.6857142857142857,
174
+ "grad_norm": 3.1268930435180664,
175
  "learning_rate": 0.0003857142857142857,
176
+ "loss": 1.2308,
177
  "step": 240
178
  },
179
  {
180
  "epoch": 0.7142857142857143,
181
+ "grad_norm": 2.708326578140259,
182
  "learning_rate": 0.00038095238095238096,
183
+ "loss": 1.3197,
184
  "step": 250
185
  },
186
  {
187
  "epoch": 0.7428571428571429,
188
+ "grad_norm": 2.4128565788269043,
189
  "learning_rate": 0.0003761904761904762,
190
+ "loss": 1.1922,
191
  "step": 260
192
  },
193
  {
194
  "epoch": 0.7714285714285715,
195
+ "grad_norm": 4.487890243530273,
196
  "learning_rate": 0.00037142857142857143,
197
+ "loss": 1.2505,
198
  "step": 270
199
  },
200
  {
201
  "epoch": 0.8,
202
+ "grad_norm": 3.1995606422424316,
203
  "learning_rate": 0.00036666666666666667,
204
+ "loss": 1.2047,
205
  "step": 280
206
  },
207
  {
208
  "epoch": 0.8285714285714286,
209
+ "grad_norm": 3.0884156227111816,
210
  "learning_rate": 0.0003619047619047619,
211
+ "loss": 1.1397,
212
  "step": 290
213
  },
214
  {
215
  "epoch": 0.8571428571428571,
216
+ "grad_norm": 3.9434640407562256,
217
  "learning_rate": 0.00035714285714285714,
218
+ "loss": 1.0844,
219
  "step": 300
220
  },
221
  {
222
  "epoch": 0.8857142857142857,
223
+ "grad_norm": 3.6582884788513184,
224
  "learning_rate": 0.00035238095238095243,
225
+ "loss": 1.1461,
226
  "step": 310
227
  },
228
  {
229
  "epoch": 0.9142857142857143,
230
+ "grad_norm": 2.6335928440093994,
231
  "learning_rate": 0.0003476190476190476,
232
+ "loss": 1.4124,
233
  "step": 320
234
  },
235
  {
236
  "epoch": 0.9428571428571428,
237
+ "grad_norm": 2.8153300285339355,
238
  "learning_rate": 0.00034285714285714285,
239
+ "loss": 1.1619,
240
  "step": 330
241
  },
242
  {
243
  "epoch": 0.9714285714285714,
244
+ "grad_norm": 5.384872913360596,
245
  "learning_rate": 0.00033809523809523814,
246
+ "loss": 1.1091,
247
  "step": 340
248
  },
249
  {
250
  "epoch": 1.0,
251
+ "grad_norm": 4.4129958152771,
252
  "learning_rate": 0.0003333333333333333,
253
+ "loss": 1.1665,
254
  "step": 350
255
  },
256
  {
257
  "epoch": 1.0,
258
+ "eval_loss": 1.0720068216323853,
259
+ "eval_runtime": 16.9829,
260
+ "eval_samples_per_second": 11.777,
261
+ "eval_steps_per_second": 1.472,
262
  "step": 350
263
  },
264
  {
265
  "epoch": 1.0285714285714285,
266
+ "grad_norm": 7.848823547363281,
267
  "learning_rate": 0.00032857142857142856,
268
+ "loss": 1.073,
269
  "step": 360
270
  },
271
  {
272
  "epoch": 1.0571428571428572,
273
+ "grad_norm": 3.559180498123169,
274
  "learning_rate": 0.00032380952380952385,
275
+ "loss": 1.1773,
276
  "step": 370
277
  },
278
  {
279
  "epoch": 1.0857142857142856,
280
+ "grad_norm": 2.477151870727539,
281
  "learning_rate": 0.00031904761904761903,
282
+ "loss": 1.0647,
283
  "step": 380
284
  },
285
  {
286
  "epoch": 1.1142857142857143,
287
+ "grad_norm": 3.4121389389038086,
288
  "learning_rate": 0.00031428571428571427,
289
+ "loss": 1.0428,
290
  "step": 390
291
  },
292
  {
293
  "epoch": 1.1428571428571428,
294
+ "grad_norm": 6.0573015213012695,
295
  "learning_rate": 0.00030952380952380956,
296
+ "loss": 1.0667,
297
  "step": 400
298
  },
299
  {
300
  "epoch": 1.1714285714285715,
301
+ "grad_norm": 3.7485954761505127,
302
  "learning_rate": 0.0003047619047619048,
303
+ "loss": 1.0497,
304
  "step": 410
305
  },
306
  {
307
  "epoch": 1.2,
308
+ "grad_norm": 4.239710330963135,
309
  "learning_rate": 0.0003,
310
+ "loss": 1.1227,
311
  "step": 420
312
  },
313
  {
314
  "epoch": 1.2285714285714286,
315
+ "grad_norm": 7.383611679077148,
316
  "learning_rate": 0.00029523809523809526,
317
+ "loss": 1.0,
318
  "step": 430
319
  },
320
  {
321
  "epoch": 1.2571428571428571,
322
+ "grad_norm": 3.1444430351257324,
323
  "learning_rate": 0.0002904761904761905,
324
+ "loss": 0.9194,
325
  "step": 440
326
  },
327
  {
328
  "epoch": 1.2857142857142856,
329
+ "grad_norm": 8.754597663879395,
330
  "learning_rate": 0.0002857142857142857,
331
+ "loss": 1.2234,
332
  "step": 450
333
  },
334
  {
335
  "epoch": 1.3142857142857143,
336
+ "grad_norm": 5.383545875549316,
337
  "learning_rate": 0.00028095238095238097,
338
+ "loss": 1.0219,
339
  "step": 460
340
  },
341
  {
342
  "epoch": 1.342857142857143,
343
+ "grad_norm": 3.977374792098999,
344
  "learning_rate": 0.0002761904761904762,
345
+ "loss": 1.061,
346
  "step": 470
347
  },
348
  {
349
  "epoch": 1.3714285714285714,
350
+ "grad_norm": 3.6732325553894043,
351
  "learning_rate": 0.0002714285714285714,
352
+ "loss": 1.1131,
353
  "step": 480
354
  },
355
  {
356
  "epoch": 1.4,
357
+ "grad_norm": 4.493168830871582,
358
  "learning_rate": 0.0002666666666666667,
359
+ "loss": 1.0033,
360
  "step": 490
361
  },
362
  {
363
  "epoch": 1.4285714285714286,
364
+ "grad_norm": 2.9993937015533447,
365
  "learning_rate": 0.0002619047619047619,
366
+ "loss": 1.0023,
367
  "step": 500
368
  },
369
  {
370
  "epoch": 1.457142857142857,
371
+ "grad_norm": 3.984879732131958,
372
  "learning_rate": 0.0002571428571428571,
373
+ "loss": 0.9796,
374
  "step": 510
375
  },
376
  {
377
  "epoch": 1.4857142857142858,
378
+ "grad_norm": 5.652857303619385,
379
  "learning_rate": 0.0002523809523809524,
380
+ "loss": 0.912,
381
  "step": 520
382
  },
383
  {
384
  "epoch": 1.5142857142857142,
385
+ "grad_norm": 4.275585174560547,
386
  "learning_rate": 0.0002476190476190476,
387
+ "loss": 0.9618,
388
  "step": 530
389
  },
390
  {
391
  "epoch": 1.5428571428571427,
392
+ "grad_norm": 4.000895977020264,
393
  "learning_rate": 0.00024285714285714286,
394
+ "loss": 1.0019,
395
  "step": 540
396
  },
397
  {
398
  "epoch": 1.5714285714285714,
399
+ "grad_norm": 3.681532144546509,
400
  "learning_rate": 0.0002380952380952381,
401
+ "loss": 0.9769,
402
  "step": 550
403
  },
404
  {
405
  "epoch": 1.6,
406
+ "grad_norm": 6.31843376159668,
407
  "learning_rate": 0.00023333333333333333,
408
+ "loss": 1.0508,
409
  "step": 560
410
  },
411
  {
412
  "epoch": 1.6285714285714286,
413
+ "grad_norm": 3.165881633758545,
414
  "learning_rate": 0.00022857142857142857,
415
+ "loss": 1.1192,
416
  "step": 570
417
  },
418
  {
419
  "epoch": 1.657142857142857,
420
+ "grad_norm": 3.3488543033599854,
421
  "learning_rate": 0.00022380952380952383,
422
+ "loss": 0.945,
423
  "step": 580
424
  },
425
  {
426
  "epoch": 1.6857142857142857,
427
+ "grad_norm": 3.479367256164551,
428
  "learning_rate": 0.00021904761904761904,
429
+ "loss": 1.1191,
430
  "step": 590
431
  },
432
  {
433
  "epoch": 1.7142857142857144,
434
+ "grad_norm": 3.9680163860321045,
435
  "learning_rate": 0.00021428571428571427,
436
+ "loss": 1.0116,
437
  "step": 600
438
  },
439
  {
440
  "epoch": 1.7428571428571429,
441
+ "grad_norm": 3.4398531913757324,
442
  "learning_rate": 0.00020952380952380954,
443
+ "loss": 1.0162,
444
  "step": 610
445
  },
446
  {
447
  "epoch": 1.7714285714285714,
448
+ "grad_norm": 4.210978031158447,
449
  "learning_rate": 0.00020476190476190477,
450
+ "loss": 0.9214,
451
  "step": 620
452
  },
453
  {
454
  "epoch": 1.8,
455
+ "grad_norm": 3.9029576778411865,
456
  "learning_rate": 0.0002,
457
+ "loss": 1.0135,
458
  "step": 630
459
  },
460
  {
461
  "epoch": 1.8285714285714287,
462
+ "grad_norm": 3.1066203117370605,
463
  "learning_rate": 0.00019523809523809525,
464
+ "loss": 1.0136,
465
  "step": 640
466
  },
467
  {
468
  "epoch": 1.8571428571428572,
469
+ "grad_norm": 4.775870323181152,
470
  "learning_rate": 0.00019047619047619048,
471
+ "loss": 0.8558,
472
  "step": 650
473
  },
474
  {
475
  "epoch": 1.8857142857142857,
476
+ "grad_norm": 4.7907490730285645,
477
  "learning_rate": 0.00018571428571428572,
478
+ "loss": 0.9436,
479
  "step": 660
480
  },
481
  {
482
  "epoch": 1.9142857142857141,
483
+ "grad_norm": 4.235854148864746,
484
  "learning_rate": 0.00018095238095238095,
485
+ "loss": 0.9884,
486
  "step": 670
487
  },
488
  {
489
  "epoch": 1.9428571428571428,
490
+ "grad_norm": 3.239032030105591,
491
  "learning_rate": 0.00017619047619047622,
492
+ "loss": 0.9304,
493
  "step": 680
494
  },
495
  {
496
  "epoch": 1.9714285714285715,
497
+ "grad_norm": 3.5313665866851807,
498
  "learning_rate": 0.00017142857142857143,
499
+ "loss": 0.983,
500
  "step": 690
501
  },
502
  {
503
  "epoch": 2.0,
504
+ "grad_norm": 3.0609097480773926,
505
  "learning_rate": 0.00016666666666666666,
506
+ "loss": 0.9815,
507
  "step": 700
508
  },
509
  {
510
  "epoch": 2.0,
511
+ "eval_loss": 0.8912971615791321,
512
+ "eval_runtime": 17.0248,
513
+ "eval_samples_per_second": 11.748,
514
+ "eval_steps_per_second": 1.468,
515
  "step": 700
516
  }
517
  ],