xezpeleta commited on
Commit
f7fb7b9
·
verified ·
1 Parent(s): 962d5a3

End of training

Browse files
Files changed (5) hide show
  1. README.md +17 -4
  2. all_results.json +9 -9
  3. eval_results.json +5 -5
  4. train_results.json +4 -4
  5. trainer_state.json +824 -824
README.md CHANGED
@@ -3,20 +3,33 @@ library_name: transformers
3
  license: apache-2.0
4
  base_model: openai/whisper-tiny
5
  tags:
 
6
  - generated_from_trainer
 
 
7
  metrics:
8
  - wer
9
  model-index:
10
- - name: openai/whisper-tiny
11
- results: []
 
 
 
 
 
 
 
 
 
 
12
  ---
13
 
14
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
15
  should probably proofread and complete it, then remove this comment. -->
16
 
17
- # openai/whisper-tiny
18
 
19
- This model is a fine-tuned version of [openai/whisper-tiny](https://huggingface.co/openai/whisper-tiny) on an unknown dataset.
20
  It achieves the following results on the evaluation set:
21
  - Loss: 0.3719
22
  - Wer: 14.8495
 
3
  license: apache-2.0
4
  base_model: openai/whisper-tiny
5
  tags:
6
+ - whisper-event
7
  - generated_from_trainer
8
+ datasets:
9
+ - asierhv/composite_corpus_eu_v2.1
10
  metrics:
11
  - wer
12
  model-index:
13
+ - name: Whisper Tiny Basque
14
+ results:
15
+ - task:
16
+ name: Automatic Speech Recognition
17
+ type: automatic-speech-recognition
18
+ dataset:
19
+ name: asierhv/composite_corpus_eu_v2.1
20
+ type: asierhv/composite_corpus_eu_v2.1
21
+ metrics:
22
+ - name: Wer
23
+ type: wer
24
+ value: 14.849506681653555
25
  ---
26
 
27
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
28
  should probably proofread and complete it, then remove this comment. -->
29
 
30
+ # Whisper Tiny Basque
31
 
32
+ This model is a fine-tuned version of [openai/whisper-tiny](https://huggingface.co/openai/whisper-tiny) on the asierhv/composite_corpus_eu_v2.1 dataset.
33
  It achieves the following results on the evaluation set:
34
  - Loss: 0.3719
35
  - Wer: 14.8495
all_results.json CHANGED
@@ -1,13 +1,13 @@
1
  {
2
  "epoch": 1.0,
3
- "eval_loss": 0.300187349319458,
4
- "eval_runtime": 56.9322,
5
- "eval_samples_per_second": 36.956,
6
- "eval_steps_per_second": 2.319,
7
- "eval_wer": 14.985509956062447,
8
  "total_flos": 7.8780432384e+18,
9
- "train_loss": 0.24547564173936845,
10
- "train_runtime": 3924.8092,
11
- "train_samples_per_second": 81.533,
12
- "train_steps_per_second": 2.548
13
  }
 
1
  {
2
  "epoch": 1.0,
3
+ "eval_loss": 0.37193799018859863,
4
+ "eval_runtime": 37.8012,
5
+ "eval_samples_per_second": 44.734,
6
+ "eval_steps_per_second": 2.804,
7
+ "eval_wer": 14.849506681653555,
8
  "total_flos": 7.8780432384e+18,
9
+ "train_loss": 0.2454334835767746,
10
+ "train_runtime": 3974.1996,
11
+ "train_samples_per_second": 80.519,
12
+ "train_steps_per_second": 2.516
13
  }
eval_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "epoch": 1.0,
3
- "eval_loss": 0.300187349319458,
4
- "eval_runtime": 56.9322,
5
- "eval_samples_per_second": 36.956,
6
- "eval_steps_per_second": 2.319,
7
- "eval_wer": 14.985509956062447
8
  }
 
1
  {
2
  "epoch": 1.0,
3
+ "eval_loss": 0.37193799018859863,
4
+ "eval_runtime": 37.8012,
5
+ "eval_samples_per_second": 44.734,
6
+ "eval_steps_per_second": 2.804,
7
+ "eval_wer": 14.849506681653555
8
  }
train_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "epoch": 1.0,
3
  "total_flos": 7.8780432384e+18,
4
- "train_loss": 0.24547564173936845,
5
- "train_runtime": 3924.8092,
6
- "train_samples_per_second": 81.533,
7
- "train_steps_per_second": 2.548
8
  }
 
1
  {
2
  "epoch": 1.0,
3
  "total_flos": 7.8780432384e+18,
4
+ "train_loss": 0.2454334835767746,
5
+ "train_runtime": 3974.1996,
6
+ "train_samples_per_second": 80.519,
7
+ "train_steps_per_second": 2.516
8
  }
trainer_state.json CHANGED
@@ -1,6 +1,6 @@
1
  {
2
- "best_metric": 14.985509956062447,
3
- "best_model_checkpoint": "./checkpoint-8000",
4
  "epoch": 1.0,
5
  "eval_steps": 1000,
6
  "global_step": 10000,
@@ -10,2902 +10,2902 @@
10
  "log_history": [
11
  {
12
  "epoch": 0.0025,
13
- "grad_norm": 32.178646087646484,
14
  "learning_rate": 7.875e-07,
15
- "loss": 3.5417,
16
  "step": 25
17
  },
18
  {
19
  "epoch": 0.005,
20
- "grad_norm": 17.33567237854004,
21
  "learning_rate": 1.7249999999999998e-06,
22
- "loss": 2.8499,
23
  "step": 50
24
  },
25
  {
26
  "epoch": 0.0075,
27
- "grad_norm": 13.790657043457031,
28
  "learning_rate": 2.6624999999999995e-06,
29
  "loss": 1.9843,
30
  "step": 75
31
  },
32
  {
33
  "epoch": 0.01,
34
- "grad_norm": 10.804696083068848,
35
  "learning_rate": 3.6e-06,
36
- "loss": 1.6114,
37
  "step": 100
38
  },
39
  {
40
  "epoch": 0.0125,
41
- "grad_norm": 9.405135154724121,
42
  "learning_rate": 4.537499999999999e-06,
43
  "loss": 1.3704,
44
  "step": 125
45
  },
46
  {
47
  "epoch": 0.015,
48
- "grad_norm": 8.391704559326172,
49
  "learning_rate": 5.474999999999999e-06,
50
- "loss": 1.1665,
51
  "step": 150
52
  },
53
  {
54
  "epoch": 0.0175,
55
- "grad_norm": 9.137776374816895,
56
  "learning_rate": 6.4125e-06,
57
  "loss": 1.0771,
58
  "step": 175
59
  },
60
  {
61
  "epoch": 0.02,
62
- "grad_norm": 9.398157119750977,
63
  "learning_rate": 7.35e-06,
64
  "loss": 1.0148,
65
  "step": 200
66
  },
67
  {
68
  "epoch": 0.0225,
69
- "grad_norm": 7.459103107452393,
70
  "learning_rate": 8.2875e-06,
71
- "loss": 0.8874,
72
  "step": 225
73
  },
74
  {
75
  "epoch": 0.025,
76
- "grad_norm": 10.148730278015137,
77
  "learning_rate": 9.224999999999999e-06,
78
- "loss": 0.8913,
79
  "step": 250
80
  },
81
  {
82
  "epoch": 0.0275,
83
- "grad_norm": 8.423101425170898,
84
  "learning_rate": 1.01625e-05,
85
  "loss": 0.8811,
86
  "step": 275
87
  },
88
  {
89
  "epoch": 0.03,
90
- "grad_norm": 9.672224998474121,
91
  "learning_rate": 1.1099999999999999e-05,
92
  "loss": 0.8374,
93
  "step": 300
94
  },
95
  {
96
  "epoch": 0.0325,
97
- "grad_norm": 7.847349166870117,
98
  "learning_rate": 1.20375e-05,
99
  "loss": 0.7848,
100
  "step": 325
101
  },
102
  {
103
  "epoch": 0.035,
104
- "grad_norm": 7.796125888824463,
105
  "learning_rate": 1.2974999999999999e-05,
106
  "loss": 0.7056,
107
  "step": 350
108
  },
109
  {
110
  "epoch": 0.0375,
111
- "grad_norm": 8.002777099609375,
112
  "learning_rate": 1.39125e-05,
113
- "loss": 0.6117,
114
  "step": 375
115
  },
116
  {
117
  "epoch": 0.04,
118
- "grad_norm": 6.5904340744018555,
119
  "learning_rate": 1.485e-05,
120
- "loss": 0.584,
121
  "step": 400
122
  },
123
  {
124
  "epoch": 0.0425,
125
- "grad_norm": 7.075273513793945,
126
  "learning_rate": 1.5787499999999997e-05,
127
- "loss": 0.5353,
128
  "step": 425
129
  },
130
  {
131
  "epoch": 0.045,
132
- "grad_norm": 6.499445915222168,
133
  "learning_rate": 1.6725e-05,
134
  "loss": 0.5099,
135
  "step": 450
136
  },
137
  {
138
  "epoch": 0.0475,
139
- "grad_norm": 6.824000358581543,
140
  "learning_rate": 1.76625e-05,
141
- "loss": 0.4846,
142
  "step": 475
143
  },
144
  {
145
  "epoch": 0.05,
146
- "grad_norm": 6.962899208068848,
147
  "learning_rate": 1.8599999999999998e-05,
148
- "loss": 0.4592,
149
  "step": 500
150
  },
151
  {
152
  "epoch": 0.0525,
153
- "grad_norm": 7.1536030769348145,
154
  "learning_rate": 1.95375e-05,
155
- "loss": 0.4266,
156
  "step": 525
157
  },
158
  {
159
  "epoch": 0.055,
160
- "grad_norm": 5.634274005889893,
161
  "learning_rate": 2.0475e-05,
162
  "loss": 0.4271,
163
  "step": 550
164
  },
165
  {
166
  "epoch": 0.0575,
167
- "grad_norm": 5.969743728637695,
168
  "learning_rate": 2.1412499999999995e-05,
169
- "loss": 0.4049,
170
  "step": 575
171
  },
172
  {
173
  "epoch": 0.06,
174
- "grad_norm": 8.386860847473145,
175
  "learning_rate": 2.2349999999999998e-05,
176
- "loss": 0.3963,
177
  "step": 600
178
  },
179
  {
180
  "epoch": 0.0625,
181
- "grad_norm": 6.4440083503723145,
182
  "learning_rate": 2.3287499999999997e-05,
183
- "loss": 0.3566,
184
  "step": 625
185
  },
186
  {
187
  "epoch": 0.065,
188
- "grad_norm": 5.125731468200684,
189
  "learning_rate": 2.4225e-05,
190
- "loss": 0.3747,
191
  "step": 650
192
  },
193
  {
194
  "epoch": 0.0675,
195
- "grad_norm": 5.34471321105957,
196
  "learning_rate": 2.51625e-05,
197
- "loss": 0.3635,
198
  "step": 675
199
  },
200
  {
201
  "epoch": 0.07,
202
- "grad_norm": 6.247539520263672,
203
  "learning_rate": 2.6099999999999997e-05,
204
  "loss": 0.3597,
205
  "step": 700
206
  },
207
  {
208
  "epoch": 0.0725,
209
- "grad_norm": 8.403606414794922,
210
  "learning_rate": 2.7037499999999997e-05,
211
- "loss": 0.3993,
212
  "step": 725
213
  },
214
  {
215
  "epoch": 0.075,
216
- "grad_norm": 6.951033115386963,
217
  "learning_rate": 2.7975e-05,
218
- "loss": 0.5305,
219
  "step": 750
220
  },
221
  {
222
  "epoch": 0.0775,
223
- "grad_norm": 6.673659324645996,
224
  "learning_rate": 2.8912499999999998e-05,
225
- "loss": 0.5134,
226
  "step": 775
227
  },
228
  {
229
  "epoch": 0.08,
230
- "grad_norm": 7.272465229034424,
231
  "learning_rate": 2.985e-05,
232
- "loss": 0.5594,
233
  "step": 800
234
  },
235
  {
236
  "epoch": 0.0825,
237
- "grad_norm": 5.904059410095215,
238
  "learning_rate": 3.0787499999999996e-05,
239
- "loss": 0.3991,
240
  "step": 825
241
  },
242
  {
243
  "epoch": 0.085,
244
- "grad_norm": 4.807435035705566,
245
  "learning_rate": 3.1725e-05,
246
- "loss": 0.3297,
247
  "step": 850
248
  },
249
  {
250
  "epoch": 0.0875,
251
- "grad_norm": 4.8213419914245605,
252
  "learning_rate": 3.2662499999999994e-05,
253
- "loss": 0.3153,
254
  "step": 875
255
  },
256
  {
257
  "epoch": 0.09,
258
- "grad_norm": 6.322027206420898,
259
  "learning_rate": 3.36e-05,
260
- "loss": 0.4047,
261
  "step": 900
262
  },
263
  {
264
  "epoch": 0.0925,
265
- "grad_norm": 7.58137321472168,
266
  "learning_rate": 3.45375e-05,
267
  "loss": 0.4779,
268
  "step": 925
269
  },
270
  {
271
  "epoch": 0.095,
272
- "grad_norm": 6.797820568084717,
273
  "learning_rate": 3.5474999999999995e-05,
274
- "loss": 0.458,
275
  "step": 950
276
  },
277
  {
278
  "epoch": 0.0975,
279
- "grad_norm": 7.3672332763671875,
280
  "learning_rate": 3.64125e-05,
281
- "loss": 0.6595,
282
  "step": 975
283
  },
284
  {
285
  "epoch": 0.1,
286
- "grad_norm": 7.559723854064941,
287
  "learning_rate": 3.735e-05,
288
- "loss": 0.5862,
289
  "step": 1000
290
  },
291
  {
292
  "epoch": 0.1,
293
- "eval_loss": 0.5658391118049622,
294
- "eval_runtime": 61.7179,
295
- "eval_samples_per_second": 34.091,
296
- "eval_steps_per_second": 2.139,
297
- "eval_wer": 33.845938113489765,
298
  "step": 1000
299
  },
300
  {
301
  "epoch": 0.1025,
302
- "grad_norm": 6.748581409454346,
303
  "learning_rate": 3.74125e-05,
304
  "loss": 0.5033,
305
  "step": 1025
306
  },
307
  {
308
  "epoch": 0.105,
309
- "grad_norm": 5.543668270111084,
310
  "learning_rate": 3.730833333333333e-05,
311
- "loss": 0.3956,
312
  "step": 1050
313
  },
314
  {
315
  "epoch": 0.1075,
316
- "grad_norm": 4.64129638671875,
317
  "learning_rate": 3.7204166666666665e-05,
318
- "loss": 0.3021,
319
  "step": 1075
320
  },
321
  {
322
  "epoch": 0.11,
323
- "grad_norm": 4.491319179534912,
324
  "learning_rate": 3.7099999999999994e-05,
325
- "loss": 0.2538,
326
  "step": 1100
327
  },
328
  {
329
  "epoch": 0.1125,
330
- "grad_norm": 4.252546787261963,
331
  "learning_rate": 3.699583333333333e-05,
332
  "loss": 0.2439,
333
  "step": 1125
334
  },
335
  {
336
  "epoch": 0.115,
337
- "grad_norm": 4.188290119171143,
338
  "learning_rate": 3.6891666666666664e-05,
339
  "loss": 0.2602,
340
  "step": 1150
341
  },
342
  {
343
  "epoch": 0.1175,
344
- "grad_norm": 3.9564859867095947,
345
  "learning_rate": 3.678749999999999e-05,
346
- "loss": 0.2595,
347
  "step": 1175
348
  },
349
  {
350
  "epoch": 0.12,
351
- "grad_norm": 4.673700332641602,
352
  "learning_rate": 3.668333333333333e-05,
353
- "loss": 0.2423,
354
  "step": 1200
355
  },
356
  {
357
  "epoch": 0.1225,
358
- "grad_norm": 6.941758632659912,
359
  "learning_rate": 3.6579166666666664e-05,
360
- "loss": 0.3696,
361
  "step": 1225
362
  },
363
  {
364
  "epoch": 0.125,
365
- "grad_norm": 6.368224143981934,
366
  "learning_rate": 3.6475e-05,
367
- "loss": 0.3809,
368
  "step": 1250
369
  },
370
  {
371
  "epoch": 0.1275,
372
- "grad_norm": 6.675568103790283,
373
  "learning_rate": 3.6370833333333334e-05,
374
- "loss": 0.4108,
375
  "step": 1275
376
  },
377
  {
378
  "epoch": 0.13,
379
- "grad_norm": 7.435705661773682,
380
  "learning_rate": 3.626666666666666e-05,
381
- "loss": 0.4293,
382
  "step": 1300
383
  },
384
  {
385
  "epoch": 0.1325,
386
- "grad_norm": 6.09748649597168,
387
  "learning_rate": 3.61625e-05,
388
- "loss": 0.3692,
389
  "step": 1325
390
  },
391
  {
392
  "epoch": 0.135,
393
- "grad_norm": 6.301654815673828,
394
  "learning_rate": 3.6058333333333333e-05,
395
- "loss": 0.3756,
396
  "step": 1350
397
  },
398
  {
399
  "epoch": 0.1375,
400
- "grad_norm": 6.4854302406311035,
401
  "learning_rate": 3.595416666666666e-05,
402
  "loss": 0.3569,
403
  "step": 1375
404
  },
405
  {
406
  "epoch": 0.14,
407
- "grad_norm": 6.333820343017578,
408
  "learning_rate": 3.585e-05,
409
- "loss": 0.3437,
410
  "step": 1400
411
  },
412
  {
413
  "epoch": 0.1425,
414
- "grad_norm": 6.029584884643555,
415
  "learning_rate": 3.5745833333333326e-05,
416
- "loss": 0.3517,
417
  "step": 1425
418
  },
419
  {
420
  "epoch": 0.145,
421
- "grad_norm": 4.968661308288574,
422
  "learning_rate": 3.564166666666666e-05,
423
- "loss": 0.3311,
424
  "step": 1450
425
  },
426
  {
427
  "epoch": 0.1475,
428
- "grad_norm": 5.426311492919922,
429
  "learning_rate": 3.5537499999999996e-05,
430
- "loss": 0.2655,
431
  "step": 1475
432
  },
433
  {
434
  "epoch": 0.15,
435
- "grad_norm": 5.133101463317871,
436
  "learning_rate": 3.543333333333333e-05,
437
- "loss": 0.235,
438
  "step": 1500
439
  },
440
  {
441
  "epoch": 0.1525,
442
- "grad_norm": 3.7912516593933105,
443
  "learning_rate": 3.532916666666667e-05,
444
- "loss": 0.2387,
445
  "step": 1525
446
  },
447
  {
448
  "epoch": 0.155,
449
- "grad_norm": 4.808184623718262,
450
  "learning_rate": 3.5224999999999996e-05,
451
- "loss": 0.2317,
452
  "step": 1550
453
  },
454
  {
455
  "epoch": 0.1575,
456
- "grad_norm": 4.065270900726318,
457
  "learning_rate": 3.512083333333333e-05,
458
- "loss": 0.2045,
459
  "step": 1575
460
  },
461
  {
462
  "epoch": 0.16,
463
- "grad_norm": 4.333083152770996,
464
  "learning_rate": 3.5016666666666666e-05,
465
- "loss": 0.2146,
466
  "step": 1600
467
  },
468
  {
469
  "epoch": 0.1625,
470
- "grad_norm": 4.882490634918213,
471
  "learning_rate": 3.49125e-05,
472
- "loss": 0.3059,
473
  "step": 1625
474
  },
475
  {
476
  "epoch": 0.165,
477
- "grad_norm": 5.470846652984619,
478
  "learning_rate": 3.480833333333333e-05,
479
- "loss": 0.3189,
480
  "step": 1650
481
  },
482
  {
483
  "epoch": 0.1675,
484
- "grad_norm": 6.800407409667969,
485
  "learning_rate": 3.4704166666666665e-05,
486
- "loss": 0.3289,
487
  "step": 1675
488
  },
489
  {
490
  "epoch": 0.17,
491
- "grad_norm": 4.934418201446533,
492
  "learning_rate": 3.4599999999999994e-05,
493
- "loss": 0.3128,
494
  "step": 1700
495
  },
496
  {
497
  "epoch": 0.1725,
498
- "grad_norm": 4.8148908615112305,
499
  "learning_rate": 3.449583333333333e-05,
500
- "loss": 0.2578,
501
  "step": 1725
502
  },
503
  {
504
  "epoch": 0.175,
505
- "grad_norm": 4.443181991577148,
506
  "learning_rate": 3.4391666666666665e-05,
507
- "loss": 0.2424,
508
  "step": 1750
509
  },
510
  {
511
  "epoch": 0.1775,
512
- "grad_norm": 4.921210289001465,
513
  "learning_rate": 3.42875e-05,
514
- "loss": 0.2128,
515
  "step": 1775
516
  },
517
  {
518
  "epoch": 0.18,
519
- "grad_norm": 4.358342170715332,
520
  "learning_rate": 3.418333333333333e-05,
521
- "loss": 0.2187,
522
  "step": 1800
523
  },
524
  {
525
  "epoch": 0.1825,
526
- "grad_norm": 3.2940409183502197,
527
  "learning_rate": 3.4079166666666664e-05,
528
- "loss": 0.2061,
529
  "step": 1825
530
  },
531
  {
532
  "epoch": 0.185,
533
- "grad_norm": 3.2484359741210938,
534
  "learning_rate": 3.3975e-05,
535
- "loss": 0.1944,
536
  "step": 1850
537
  },
538
  {
539
  "epoch": 0.1875,
540
- "grad_norm": 7.2146382331848145,
541
  "learning_rate": 3.3870833333333334e-05,
542
- "loss": 0.1954,
543
  "step": 1875
544
  },
545
  {
546
  "epoch": 0.19,
547
- "grad_norm": 3.803097724914551,
548
  "learning_rate": 3.376666666666666e-05,
549
- "loss": 0.1917,
550
  "step": 1900
551
  },
552
  {
553
  "epoch": 0.1925,
554
- "grad_norm": 3.597217082977295,
555
  "learning_rate": 3.36625e-05,
556
- "loss": 0.1843,
557
  "step": 1925
558
  },
559
  {
560
  "epoch": 0.195,
561
- "grad_norm": 4.769651412963867,
562
  "learning_rate": 3.355833333333333e-05,
563
- "loss": 0.2574,
564
  "step": 1950
565
  },
566
  {
567
  "epoch": 0.1975,
568
- "grad_norm": 5.800076484680176,
569
  "learning_rate": 3.345416666666666e-05,
570
- "loss": 0.3319,
571
  "step": 1975
572
  },
573
  {
574
  "epoch": 0.2,
575
- "grad_norm": 5.607431411743164,
576
  "learning_rate": 3.335e-05,
577
- "loss": 0.314,
578
  "step": 2000
579
  },
580
  {
581
  "epoch": 0.2,
582
- "eval_loss": 0.43032270669937134,
583
- "eval_runtime": 57.5686,
584
- "eval_samples_per_second": 36.548,
585
- "eval_steps_per_second": 2.293,
586
- "eval_wer": 24.98831448069552,
587
  "step": 2000
588
  },
589
  {
590
  "epoch": 0.2025,
591
- "grad_norm": 3.8960702419281006,
592
  "learning_rate": 3.324583333333333e-05,
593
- "loss": 0.2659,
594
  "step": 2025
595
  },
596
  {
597
  "epoch": 0.205,
598
- "grad_norm": 3.8892998695373535,
599
  "learning_rate": 3.314166666666666e-05,
600
- "loss": 0.1938,
601
  "step": 2050
602
  },
603
  {
604
  "epoch": 0.2075,
605
- "grad_norm": 4.232676982879639,
606
  "learning_rate": 3.30375e-05,
607
- "loss": 0.1869,
608
  "step": 2075
609
  },
610
  {
611
  "epoch": 0.21,
612
- "grad_norm": 3.3340296745300293,
613
  "learning_rate": 3.293333333333333e-05,
614
- "loss": 0.1826,
615
  "step": 2100
616
  },
617
  {
618
  "epoch": 0.2125,
619
- "grad_norm": 3.808135747909546,
620
  "learning_rate": 3.282916666666667e-05,
621
- "loss": 0.1597,
622
  "step": 2125
623
  },
624
  {
625
  "epoch": 0.215,
626
- "grad_norm": 3.3088366985321045,
627
  "learning_rate": 3.2724999999999996e-05,
628
- "loss": 0.1626,
629
  "step": 2150
630
  },
631
  {
632
  "epoch": 0.2175,
633
- "grad_norm": 4.035377502441406,
634
  "learning_rate": 3.262083333333333e-05,
635
- "loss": 0.1675,
636
  "step": 2175
637
  },
638
  {
639
  "epoch": 0.22,
640
- "grad_norm": 4.653134346008301,
641
  "learning_rate": 3.2516666666666666e-05,
642
- "loss": 0.2853,
643
  "step": 2200
644
  },
645
  {
646
  "epoch": 0.2225,
647
- "grad_norm": 5.569106101989746,
648
  "learning_rate": 3.2412499999999995e-05,
649
- "loss": 0.2921,
650
  "step": 2225
651
  },
652
  {
653
  "epoch": 0.225,
654
- "grad_norm": 4.800086975097656,
655
  "learning_rate": 3.230833333333333e-05,
656
- "loss": 0.3024,
657
  "step": 2250
658
  },
659
  {
660
  "epoch": 0.2275,
661
- "grad_norm": 4.1314377784729,
662
  "learning_rate": 3.2204166666666666e-05,
663
- "loss": 0.2125,
664
  "step": 2275
665
  },
666
  {
667
  "epoch": 0.23,
668
- "grad_norm": 3.3272790908813477,
669
  "learning_rate": 3.2099999999999994e-05,
670
- "loss": 0.163,
671
  "step": 2300
672
  },
673
  {
674
  "epoch": 0.2325,
675
- "grad_norm": 3.977968215942383,
676
  "learning_rate": 3.199583333333333e-05,
677
- "loss": 0.1525,
678
  "step": 2325
679
  },
680
  {
681
  "epoch": 0.235,
682
- "grad_norm": 5.358455181121826,
683
  "learning_rate": 3.1891666666666665e-05,
684
- "loss": 0.1544,
685
  "step": 2350
686
  },
687
  {
688
  "epoch": 0.2375,
689
- "grad_norm": 2.996466875076294,
690
  "learning_rate": 3.17875e-05,
691
- "loss": 0.1576,
692
  "step": 2375
693
  },
694
  {
695
  "epoch": 0.24,
696
- "grad_norm": 3.985736846923828,
697
  "learning_rate": 3.168333333333333e-05,
698
- "loss": 0.1621,
699
  "step": 2400
700
  },
701
  {
702
  "epoch": 0.2425,
703
- "grad_norm": 3.0388622283935547,
704
  "learning_rate": 3.1579166666666664e-05,
705
- "loss": 0.1644,
706
  "step": 2425
707
  },
708
  {
709
  "epoch": 0.245,
710
- "grad_norm": 2.8498051166534424,
711
  "learning_rate": 3.1475e-05,
712
- "loss": 0.155,
713
  "step": 2450
714
  },
715
  {
716
  "epoch": 0.2475,
717
- "grad_norm": 3.7256104946136475,
718
  "learning_rate": 3.1370833333333335e-05,
719
- "loss": 0.163,
720
  "step": 2475
721
  },
722
  {
723
  "epoch": 0.25,
724
- "grad_norm": 3.6672263145446777,
725
  "learning_rate": 3.126666666666666e-05,
726
- "loss": 0.1859,
727
  "step": 2500
728
  },
729
  {
730
  "epoch": 0.2525,
731
- "grad_norm": 5.497701644897461,
732
  "learning_rate": 3.11625e-05,
733
- "loss": 0.2491,
734
  "step": 2525
735
  },
736
  {
737
  "epoch": 0.255,
738
- "grad_norm": 4.235458850860596,
739
  "learning_rate": 3.105833333333333e-05,
740
- "loss": 0.2381,
741
  "step": 2550
742
  },
743
  {
744
  "epoch": 0.2575,
745
- "grad_norm": 4.74775505065918,
746
  "learning_rate": 3.095416666666666e-05,
747
- "loss": 0.279,
748
  "step": 2575
749
  },
750
  {
751
  "epoch": 0.26,
752
- "grad_norm": 3.5344150066375732,
753
  "learning_rate": 3.085e-05,
754
- "loss": 0.2067,
755
  "step": 2600
756
  },
757
  {
758
  "epoch": 0.2625,
759
- "grad_norm": 3.5317158699035645,
760
  "learning_rate": 3.074583333333333e-05,
761
  "loss": 0.1741,
762
  "step": 2625
763
  },
764
  {
765
  "epoch": 0.265,
766
- "grad_norm": 3.141709327697754,
767
  "learning_rate": 3.064166666666666e-05,
768
- "loss": 0.1565,
769
  "step": 2650
770
  },
771
  {
772
  "epoch": 0.2675,
773
- "grad_norm": 2.9644110202789307,
774
  "learning_rate": 3.05375e-05,
775
- "loss": 0.1501,
776
  "step": 2675
777
  },
778
  {
779
  "epoch": 0.27,
780
- "grad_norm": 3.013913631439209,
781
  "learning_rate": 3.0433333333333332e-05,
782
  "loss": 0.1584,
783
  "step": 2700
784
  },
785
  {
786
  "epoch": 0.2725,
787
- "grad_norm": 3.1557493209838867,
788
  "learning_rate": 3.0329166666666664e-05,
789
- "loss": 0.1685,
790
  "step": 2725
791
  },
792
  {
793
  "epoch": 0.275,
794
- "grad_norm": 4.391005516052246,
795
  "learning_rate": 3.0225e-05,
796
- "loss": 0.1813,
797
  "step": 2750
798
  },
799
  {
800
  "epoch": 0.2775,
801
- "grad_norm": 5.381415367126465,
802
  "learning_rate": 3.0120833333333328e-05,
803
- "loss": 0.3171,
804
  "step": 2775
805
  },
806
  {
807
  "epoch": 0.28,
808
- "grad_norm": 4.508987903594971,
809
  "learning_rate": 3.0016666666666663e-05,
810
- "loss": 0.2927,
811
  "step": 2800
812
  },
813
  {
814
  "epoch": 0.2825,
815
- "grad_norm": 4.837850570678711,
816
  "learning_rate": 2.9912499999999995e-05,
817
- "loss": 0.2568,
818
  "step": 2825
819
  },
820
  {
821
  "epoch": 0.285,
822
- "grad_norm": 4.011997699737549,
823
  "learning_rate": 2.980833333333333e-05,
824
- "loss": 0.2629,
825
  "step": 2850
826
  },
827
  {
828
  "epoch": 0.2875,
829
- "grad_norm": 4.157077312469482,
830
  "learning_rate": 2.9704166666666662e-05,
831
  "loss": 0.2561,
832
  "step": 2875
833
  },
834
  {
835
  "epoch": 0.29,
836
- "grad_norm": 5.459561347961426,
837
  "learning_rate": 2.9599999999999998e-05,
838
- "loss": 0.2493,
839
  "step": 2900
840
  },
841
  {
842
  "epoch": 0.2925,
843
- "grad_norm": 3.367072343826294,
844
  "learning_rate": 2.949583333333333e-05,
845
- "loss": 0.2006,
846
  "step": 2925
847
  },
848
  {
849
  "epoch": 0.295,
850
- "grad_norm": 3.317788600921631,
851
  "learning_rate": 2.9391666666666665e-05,
852
- "loss": 0.1614,
853
  "step": 2950
854
  },
855
  {
856
  "epoch": 0.2975,
857
- "grad_norm": 4.068172454833984,
858
  "learning_rate": 2.9287499999999997e-05,
859
- "loss": 0.1683,
860
  "step": 2975
861
  },
862
  {
863
  "epoch": 0.3,
864
- "grad_norm": 3.870027542114258,
865
  "learning_rate": 2.9183333333333332e-05,
866
- "loss": 0.2244,
867
  "step": 3000
868
  },
869
  {
870
  "epoch": 0.3,
871
- "eval_loss": 0.40985628962516785,
872
- "eval_runtime": 58.8739,
873
- "eval_samples_per_second": 35.737,
874
- "eval_steps_per_second": 2.242,
875
- "eval_wer": 21.692998036832755,
876
  "step": 3000
877
  },
878
  {
879
  "epoch": 0.3025,
880
- "grad_norm": 5.575135231018066,
881
  "learning_rate": 2.9079166666666664e-05,
882
- "loss": 0.2758,
883
  "step": 3025
884
  },
885
  {
886
  "epoch": 0.305,
887
- "grad_norm": 6.743279933929443,
888
  "learning_rate": 2.8974999999999996e-05,
889
- "loss": 0.3198,
890
  "step": 3050
891
  },
892
  {
893
  "epoch": 0.3075,
894
- "grad_norm": 3.2028794288635254,
895
  "learning_rate": 2.8870833333333328e-05,
896
- "loss": 0.2196,
897
  "step": 3075
898
  },
899
  {
900
  "epoch": 0.31,
901
- "grad_norm": 3.93858003616333,
902
  "learning_rate": 2.8766666666666663e-05,
903
- "loss": 0.1707,
904
  "step": 3100
905
  },
906
  {
907
  "epoch": 0.3125,
908
- "grad_norm": 3.316304922103882,
909
  "learning_rate": 2.8662499999999995e-05,
910
- "loss": 0.1511,
911
  "step": 3125
912
  },
913
  {
914
  "epoch": 0.315,
915
- "grad_norm": 4.505865097045898,
916
  "learning_rate": 2.855833333333333e-05,
917
- "loss": 0.1823,
918
  "step": 3150
919
  },
920
  {
921
  "epoch": 0.3175,
922
- "grad_norm": 4.541491508483887,
923
  "learning_rate": 2.8454166666666663e-05,
924
- "loss": 0.2677,
925
  "step": 3175
926
  },
927
  {
928
  "epoch": 0.32,
929
- "grad_norm": 5.266469478607178,
930
  "learning_rate": 2.8349999999999998e-05,
931
- "loss": 0.2491,
932
  "step": 3200
933
  },
934
  {
935
  "epoch": 0.3225,
936
- "grad_norm": 4.68573522567749,
937
  "learning_rate": 2.824583333333333e-05,
938
- "loss": 0.2651,
939
  "step": 3225
940
  },
941
  {
942
  "epoch": 0.325,
943
- "grad_norm": 4.3486127853393555,
944
  "learning_rate": 2.8141666666666665e-05,
945
- "loss": 0.2176,
946
  "step": 3250
947
  },
948
  {
949
  "epoch": 0.3275,
950
- "grad_norm": 5.374783515930176,
951
  "learning_rate": 2.80375e-05,
952
- "loss": 0.2237,
953
  "step": 3275
954
  },
955
  {
956
  "epoch": 0.33,
957
- "grad_norm": 3.7645037174224854,
958
  "learning_rate": 2.7933333333333332e-05,
959
- "loss": 0.2381,
960
  "step": 3300
961
  },
962
  {
963
  "epoch": 0.3325,
964
- "grad_norm": 3.953054666519165,
965
  "learning_rate": 2.7829166666666668e-05,
966
- "loss": 0.189,
967
  "step": 3325
968
  },
969
  {
970
  "epoch": 0.335,
971
- "grad_norm": 3.9426944255828857,
972
  "learning_rate": 2.7724999999999996e-05,
973
- "loss": 0.1514,
974
  "step": 3350
975
  },
976
  {
977
  "epoch": 0.3375,
978
- "grad_norm": 3.1478254795074463,
979
  "learning_rate": 2.7620833333333328e-05,
980
- "loss": 0.1353,
981
  "step": 3375
982
  },
983
  {
984
  "epoch": 0.34,
985
- "grad_norm": 3.234048366546631,
986
  "learning_rate": 2.7516666666666664e-05,
987
- "loss": 0.1437,
988
  "step": 3400
989
  },
990
  {
991
  "epoch": 0.3425,
992
- "grad_norm": 3.828132390975952,
993
  "learning_rate": 2.7412499999999995e-05,
994
- "loss": 0.1453,
995
  "step": 3425
996
  },
997
  {
998
  "epoch": 0.345,
999
- "grad_norm": 2.6246049404144287,
1000
  "learning_rate": 2.730833333333333e-05,
1001
- "loss": 0.1369,
1002
  "step": 3450
1003
  },
1004
  {
1005
  "epoch": 0.3475,
1006
- "grad_norm": 3.3502352237701416,
1007
  "learning_rate": 2.7204166666666663e-05,
1008
- "loss": 0.132,
1009
  "step": 3475
1010
  },
1011
  {
1012
  "epoch": 0.35,
1013
- "grad_norm": 4.489558696746826,
1014
  "learning_rate": 2.7099999999999998e-05,
1015
- "loss": 0.1607,
1016
  "step": 3500
1017
  },
1018
  {
1019
  "epoch": 0.3525,
1020
- "grad_norm": 3.3890199661254883,
1021
  "learning_rate": 2.6995833333333333e-05,
1022
- "loss": 0.1498,
1023
  "step": 3525
1024
  },
1025
  {
1026
  "epoch": 0.355,
1027
- "grad_norm": 5.810647487640381,
1028
  "learning_rate": 2.6891666666666665e-05,
1029
- "loss": 0.1479,
1030
  "step": 3550
1031
  },
1032
  {
1033
  "epoch": 0.3575,
1034
- "grad_norm": 5.223288059234619,
1035
  "learning_rate": 2.67875e-05,
1036
- "loss": 0.2281,
1037
  "step": 3575
1038
  },
1039
  {
1040
  "epoch": 0.36,
1041
- "grad_norm": 4.546659469604492,
1042
  "learning_rate": 2.6683333333333333e-05,
1043
- "loss": 0.2638,
1044
  "step": 3600
1045
  },
1046
  {
1047
  "epoch": 0.3625,
1048
- "grad_norm": 4.0937018394470215,
1049
  "learning_rate": 2.657916666666666e-05,
1050
- "loss": 0.2437,
1051
  "step": 3625
1052
  },
1053
  {
1054
  "epoch": 0.365,
1055
- "grad_norm": 2.648258686065674,
1056
  "learning_rate": 2.6474999999999996e-05,
1057
- "loss": 0.1537,
1058
  "step": 3650
1059
  },
1060
  {
1061
  "epoch": 0.3675,
1062
- "grad_norm": 3.579690456390381,
1063
  "learning_rate": 2.637083333333333e-05,
1064
- "loss": 0.1338,
1065
  "step": 3675
1066
  },
1067
  {
1068
  "epoch": 0.37,
1069
- "grad_norm": 2.849726438522339,
1070
  "learning_rate": 2.6266666666666664e-05,
1071
- "loss": 0.1334,
1072
  "step": 3700
1073
  },
1074
  {
1075
  "epoch": 0.3725,
1076
- "grad_norm": 3.449441432952881,
1077
  "learning_rate": 2.61625e-05,
1078
- "loss": 0.1603,
1079
  "step": 3725
1080
  },
1081
  {
1082
  "epoch": 0.375,
1083
- "grad_norm": 4.7894768714904785,
1084
  "learning_rate": 2.605833333333333e-05,
1085
- "loss": 0.2046,
1086
  "step": 3750
1087
  },
1088
  {
1089
  "epoch": 0.3775,
1090
- "grad_norm": 3.9832916259765625,
1091
  "learning_rate": 2.5954166666666666e-05,
1092
- "loss": 0.25,
1093
  "step": 3775
1094
  },
1095
  {
1096
  "epoch": 0.38,
1097
- "grad_norm": 4.628417015075684,
1098
  "learning_rate": 2.5849999999999998e-05,
1099
- "loss": 0.2515,
1100
  "step": 3800
1101
  },
1102
  {
1103
  "epoch": 0.3825,
1104
- "grad_norm": 5.086034297943115,
1105
  "learning_rate": 2.5745833333333333e-05,
1106
- "loss": 0.253,
1107
  "step": 3825
1108
  },
1109
  {
1110
  "epoch": 0.385,
1111
- "grad_norm": 5.298262119293213,
1112
  "learning_rate": 2.5641666666666665e-05,
1113
- "loss": 0.2664,
1114
  "step": 3850
1115
  },
1116
  {
1117
  "epoch": 0.3875,
1118
- "grad_norm": 4.012029647827148,
1119
  "learning_rate": 2.55375e-05,
1120
- "loss": 0.234,
1121
  "step": 3875
1122
  },
1123
  {
1124
  "epoch": 0.39,
1125
- "grad_norm": 4.897658824920654,
1126
  "learning_rate": 2.543333333333333e-05,
1127
- "loss": 0.1752,
1128
  "step": 3900
1129
  },
1130
  {
1131
  "epoch": 0.3925,
1132
- "grad_norm": 2.986084222793579,
1133
  "learning_rate": 2.5329166666666665e-05,
1134
- "loss": 0.1496,
1135
  "step": 3925
1136
  },
1137
  {
1138
  "epoch": 0.395,
1139
- "grad_norm": 3.444263219833374,
1140
  "learning_rate": 2.5224999999999997e-05,
1141
- "loss": 0.141,
1142
  "step": 3950
1143
  },
1144
  {
1145
  "epoch": 0.3975,
1146
- "grad_norm": 6.647165775299072,
1147
  "learning_rate": 2.5120833333333332e-05,
1148
- "loss": 0.2411,
1149
  "step": 3975
1150
  },
1151
  {
1152
  "epoch": 0.4,
1153
- "grad_norm": 4.901034832000732,
1154
  "learning_rate": 2.5016666666666664e-05,
1155
- "loss": 0.3024,
1156
  "step": 4000
1157
  },
1158
  {
1159
  "epoch": 0.4,
1160
- "eval_loss": 0.3800531327724457,
1161
- "eval_runtime": 59.3618,
1162
- "eval_samples_per_second": 35.444,
1163
- "eval_steps_per_second": 2.224,
1164
- "eval_wer": 21.772459568103205,
1165
  "step": 4000
1166
  },
1167
  {
1168
  "epoch": 0.4025,
1169
- "grad_norm": 3.827197313308716,
1170
  "learning_rate": 2.49125e-05,
1171
- "loss": 0.2243,
1172
  "step": 4025
1173
  },
1174
  {
1175
  "epoch": 0.405,
1176
- "grad_norm": 5.707655429840088,
1177
  "learning_rate": 2.480833333333333e-05,
1178
- "loss": 0.3027,
1179
  "step": 4050
1180
  },
1181
  {
1182
  "epoch": 0.4075,
1183
- "grad_norm": 4.641834259033203,
1184
  "learning_rate": 2.4704166666666666e-05,
1185
- "loss": 0.2182,
1186
  "step": 4075
1187
  },
1188
  {
1189
  "epoch": 0.41,
1190
- "grad_norm": 3.259056329727173,
1191
  "learning_rate": 2.4599999999999998e-05,
1192
- "loss": 0.2125,
1193
  "step": 4100
1194
  },
1195
  {
1196
  "epoch": 0.4125,
1197
- "grad_norm": 2.5339012145996094,
1198
  "learning_rate": 2.4495833333333334e-05,
1199
- "loss": 0.1519,
1200
  "step": 4125
1201
  },
1202
  {
1203
  "epoch": 0.415,
1204
- "grad_norm": 3.520731210708618,
1205
  "learning_rate": 2.4391666666666666e-05,
1206
- "loss": 0.1316,
1207
  "step": 4150
1208
  },
1209
  {
1210
  "epoch": 0.4175,
1211
- "grad_norm": 3.302873373031616,
1212
  "learning_rate": 2.4287499999999997e-05,
1213
- "loss": 0.1396,
1214
  "step": 4175
1215
  },
1216
  {
1217
  "epoch": 0.42,
1218
- "grad_norm": 3.5453193187713623,
1219
  "learning_rate": 2.418333333333333e-05,
1220
- "loss": 0.132,
1221
  "step": 4200
1222
  },
1223
  {
1224
  "epoch": 0.4225,
1225
- "grad_norm": 2.582653522491455,
1226
  "learning_rate": 2.4079166666666665e-05,
1227
- "loss": 0.1394,
1228
  "step": 4225
1229
  },
1230
  {
1231
  "epoch": 0.425,
1232
- "grad_norm": 3.1388375759124756,
1233
  "learning_rate": 2.3974999999999997e-05,
1234
- "loss": 0.1351,
1235
  "step": 4250
1236
  },
1237
  {
1238
  "epoch": 0.4275,
1239
- "grad_norm": 3.6783761978149414,
1240
  "learning_rate": 2.3870833333333332e-05,
1241
- "loss": 0.1508,
1242
  "step": 4275
1243
  },
1244
  {
1245
  "epoch": 0.43,
1246
- "grad_norm": 4.66838264465332,
1247
  "learning_rate": 2.3766666666666664e-05,
1248
- "loss": 0.2209,
1249
  "step": 4300
1250
  },
1251
  {
1252
  "epoch": 0.4325,
1253
- "grad_norm": 4.905246734619141,
1254
  "learning_rate": 2.36625e-05,
1255
- "loss": 0.1991,
1256
  "step": 4325
1257
  },
1258
  {
1259
  "epoch": 0.435,
1260
- "grad_norm": 4.691884517669678,
1261
  "learning_rate": 2.355833333333333e-05,
1262
- "loss": 0.2077,
1263
  "step": 4350
1264
  },
1265
  {
1266
  "epoch": 0.4375,
1267
- "grad_norm": 2.6007065773010254,
1268
  "learning_rate": 2.3454166666666666e-05,
1269
- "loss": 0.1266,
1270
  "step": 4375
1271
  },
1272
  {
1273
  "epoch": 0.44,
1274
- "grad_norm": 9.824126243591309,
1275
  "learning_rate": 2.335e-05,
1276
- "loss": 0.1125,
1277
  "step": 4400
1278
  },
1279
  {
1280
  "epoch": 0.4425,
1281
- "grad_norm": 3.417362689971924,
1282
  "learning_rate": 2.3245833333333334e-05,
1283
- "loss": 0.125,
1284
  "step": 4425
1285
  },
1286
  {
1287
  "epoch": 0.445,
1288
- "grad_norm": 3.469744920730591,
1289
  "learning_rate": 2.3141666666666666e-05,
1290
  "loss": 0.1466,
1291
  "step": 4450
1292
  },
1293
  {
1294
  "epoch": 0.4475,
1295
- "grad_norm": 3.0977509021759033,
1296
  "learning_rate": 2.3037499999999998e-05,
1297
- "loss": 0.149,
1298
  "step": 4475
1299
  },
1300
  {
1301
  "epoch": 0.45,
1302
- "grad_norm": 3.3727025985717773,
1303
  "learning_rate": 2.293333333333333e-05,
1304
- "loss": 0.1388,
1305
  "step": 4500
1306
  },
1307
  {
1308
  "epoch": 0.4525,
1309
- "grad_norm": 4.079521656036377,
1310
  "learning_rate": 2.2829166666666665e-05,
1311
  "loss": 0.1807,
1312
  "step": 4525
1313
  },
1314
  {
1315
  "epoch": 0.455,
1316
- "grad_norm": 4.479795455932617,
1317
  "learning_rate": 2.2724999999999997e-05,
1318
- "loss": 0.2362,
1319
  "step": 4550
1320
  },
1321
  {
1322
  "epoch": 0.4575,
1323
- "grad_norm": 5.127561092376709,
1324
  "learning_rate": 2.2620833333333332e-05,
1325
- "loss": 0.2232,
1326
  "step": 4575
1327
  },
1328
  {
1329
  "epoch": 0.46,
1330
- "grad_norm": 4.606805801391602,
1331
  "learning_rate": 2.2516666666666664e-05,
1332
- "loss": 0.2392,
1333
  "step": 4600
1334
  },
1335
  {
1336
  "epoch": 0.4625,
1337
- "grad_norm": 4.652634620666504,
1338
  "learning_rate": 2.24125e-05,
1339
- "loss": 0.2442,
1340
  "step": 4625
1341
  },
1342
  {
1343
  "epoch": 0.465,
1344
- "grad_norm": 5.170529365539551,
1345
  "learning_rate": 2.230833333333333e-05,
1346
- "loss": 0.2364,
1347
  "step": 4650
1348
  },
1349
  {
1350
  "epoch": 0.4675,
1351
- "grad_norm": 4.186745643615723,
1352
  "learning_rate": 2.2204166666666667e-05,
1353
- "loss": 0.204,
1354
  "step": 4675
1355
  },
1356
  {
1357
  "epoch": 0.47,
1358
- "grad_norm": 3.336618423461914,
1359
  "learning_rate": 2.21e-05,
1360
- "loss": 0.1811,
1361
  "step": 4700
1362
  },
1363
  {
1364
  "epoch": 0.4725,
1365
- "grad_norm": 4.125630855560303,
1366
  "learning_rate": 2.1995833333333334e-05,
1367
  "loss": 0.1953,
1368
  "step": 4725
1369
  },
1370
  {
1371
  "epoch": 0.475,
1372
- "grad_norm": 3.7965681552886963,
1373
  "learning_rate": 2.1891666666666662e-05,
1374
- "loss": 0.1929,
1375
  "step": 4750
1376
  },
1377
  {
1378
  "epoch": 0.4775,
1379
- "grad_norm": 3.5311403274536133,
1380
  "learning_rate": 2.1787499999999998e-05,
1381
- "loss": 0.1436,
1382
  "step": 4775
1383
  },
1384
  {
1385
  "epoch": 0.48,
1386
- "grad_norm": 3.0808041095733643,
1387
  "learning_rate": 2.168333333333333e-05,
1388
- "loss": 0.1581,
1389
  "step": 4800
1390
  },
1391
  {
1392
  "epoch": 0.4825,
1393
- "grad_norm": 3.254953384399414,
1394
  "learning_rate": 2.1579166666666665e-05,
1395
- "loss": 0.1331,
1396
  "step": 4825
1397
  },
1398
  {
1399
  "epoch": 0.485,
1400
- "grad_norm": 3.7512283325195312,
1401
  "learning_rate": 2.1474999999999997e-05,
1402
- "loss": 0.1534,
1403
  "step": 4850
1404
  },
1405
  {
1406
  "epoch": 0.4875,
1407
- "grad_norm": 4.095212936401367,
1408
  "learning_rate": 2.1370833333333332e-05,
1409
- "loss": 0.1611,
1410
  "step": 4875
1411
  },
1412
  {
1413
  "epoch": 0.49,
1414
- "grad_norm": 4.149164199829102,
1415
  "learning_rate": 2.1266666666666664e-05,
1416
  "loss": 0.1834,
1417
  "step": 4900
1418
  },
1419
  {
1420
  "epoch": 0.4925,
1421
- "grad_norm": 2.9498376846313477,
1422
  "learning_rate": 2.11625e-05,
1423
- "loss": 0.1653,
1424
  "step": 4925
1425
  },
1426
  {
1427
  "epoch": 0.495,
1428
- "grad_norm": 3.2201554775238037,
1429
  "learning_rate": 2.105833333333333e-05,
1430
- "loss": 0.1379,
1431
  "step": 4950
1432
  },
1433
  {
1434
  "epoch": 0.4975,
1435
- "grad_norm": 3.2108354568481445,
1436
  "learning_rate": 2.0954166666666667e-05,
1437
- "loss": 0.1281,
1438
  "step": 4975
1439
  },
1440
  {
1441
  "epoch": 0.5,
1442
- "grad_norm": 3.786989212036133,
1443
  "learning_rate": 2.085e-05,
1444
- "loss": 0.1309,
1445
  "step": 5000
1446
  },
1447
  {
1448
  "epoch": 0.5,
1449
- "eval_loss": 0.37590494751930237,
1450
- "eval_runtime": 59.5468,
1451
- "eval_samples_per_second": 35.334,
1452
- "eval_steps_per_second": 2.217,
1453
- "eval_wer": 18.22941011498551,
1454
  "step": 5000
1455
  },
1456
  {
1457
  "epoch": 0.5025,
1458
- "grad_norm": 3.3882791996002197,
1459
  "learning_rate": 2.074583333333333e-05,
1460
- "loss": 0.1873,
1461
  "step": 5025
1462
  },
1463
  {
1464
  "epoch": 0.505,
1465
- "grad_norm": 3.8903958797454834,
1466
  "learning_rate": 2.0641666666666662e-05,
1467
- "loss": 0.1647,
1468
  "step": 5050
1469
  },
1470
  {
1471
  "epoch": 0.5075,
1472
- "grad_norm": 4.302113056182861,
1473
  "learning_rate": 2.0537499999999998e-05,
1474
- "loss": 0.2523,
1475
  "step": 5075
1476
  },
1477
  {
1478
  "epoch": 0.51,
1479
- "grad_norm": 4.574698448181152,
1480
  "learning_rate": 2.043333333333333e-05,
1481
- "loss": 0.2285,
1482
  "step": 5100
1483
  },
1484
  {
1485
  "epoch": 0.5125,
1486
- "grad_norm": 4.252900123596191,
1487
  "learning_rate": 2.0329166666666665e-05,
1488
- "loss": 0.1976,
1489
  "step": 5125
1490
  },
1491
  {
1492
  "epoch": 0.515,
1493
- "grad_norm": 5.135857582092285,
1494
  "learning_rate": 2.0224999999999997e-05,
1495
- "loss": 0.2034,
1496
  "step": 5150
1497
  },
1498
  {
1499
  "epoch": 0.5175,
1500
- "grad_norm": 2.7495837211608887,
1501
  "learning_rate": 2.0120833333333332e-05,
1502
- "loss": 0.1707,
1503
  "step": 5175
1504
  },
1505
  {
1506
  "epoch": 0.52,
1507
- "grad_norm": 2.8536860942840576,
1508
  "learning_rate": 2.0016666666666664e-05,
1509
- "loss": 0.1165,
1510
  "step": 5200
1511
  },
1512
  {
1513
  "epoch": 0.5225,
1514
- "grad_norm": 2.8752596378326416,
1515
  "learning_rate": 1.99125e-05,
1516
- "loss": 0.1224,
1517
  "step": 5225
1518
  },
1519
  {
1520
  "epoch": 0.525,
1521
- "grad_norm": 2.7139313220977783,
1522
  "learning_rate": 1.980833333333333e-05,
1523
- "loss": 0.1221,
1524
  "step": 5250
1525
  },
1526
  {
1527
  "epoch": 0.5275,
1528
- "grad_norm": 2.398601531982422,
1529
  "learning_rate": 1.9704166666666667e-05,
1530
- "loss": 0.123,
1531
  "step": 5275
1532
  },
1533
  {
1534
  "epoch": 0.53,
1535
- "grad_norm": 3.568558931350708,
1536
  "learning_rate": 1.9599999999999995e-05,
1537
  "loss": 0.1287,
1538
  "step": 5300
1539
  },
1540
  {
1541
  "epoch": 0.5325,
1542
- "grad_norm": 3.4306693077087402,
1543
  "learning_rate": 1.949583333333333e-05,
1544
- "loss": 0.1282,
1545
  "step": 5325
1546
  },
1547
  {
1548
  "epoch": 0.535,
1549
- "grad_norm": 4.469999313354492,
1550
  "learning_rate": 1.9391666666666663e-05,
1551
- "loss": 0.1709,
1552
  "step": 5350
1553
  },
1554
  {
1555
  "epoch": 0.5375,
1556
- "grad_norm": 4.155087471008301,
1557
  "learning_rate": 1.9287499999999998e-05,
1558
- "loss": 0.202,
1559
  "step": 5375
1560
  },
1561
  {
1562
  "epoch": 0.54,
1563
- "grad_norm": 3.4707844257354736,
1564
  "learning_rate": 1.918333333333333e-05,
1565
- "loss": 0.1904,
1566
  "step": 5400
1567
  },
1568
  {
1569
  "epoch": 0.5425,
1570
- "grad_norm": 4.137521266937256,
1571
  "learning_rate": 1.9079166666666665e-05,
1572
- "loss": 0.184,
1573
  "step": 5425
1574
  },
1575
  {
1576
  "epoch": 0.545,
1577
- "grad_norm": 3.6141257286071777,
1578
  "learning_rate": 1.8974999999999997e-05,
1579
- "loss": 0.1629,
1580
  "step": 5450
1581
  },
1582
  {
1583
  "epoch": 0.5475,
1584
- "grad_norm": 3.5112478733062744,
1585
  "learning_rate": 1.8870833333333332e-05,
1586
- "loss": 0.1358,
1587
  "step": 5475
1588
  },
1589
  {
1590
  "epoch": 0.55,
1591
- "grad_norm": 3.2462754249572754,
1592
  "learning_rate": 1.8766666666666664e-05,
1593
- "loss": 0.1379,
1594
  "step": 5500
1595
  },
1596
  {
1597
  "epoch": 0.5525,
1598
- "grad_norm": 5.152227878570557,
1599
  "learning_rate": 1.8662499999999996e-05,
1600
- "loss": 0.1776,
1601
  "step": 5525
1602
  },
1603
  {
1604
  "epoch": 0.555,
1605
- "grad_norm": 4.612731456756592,
1606
  "learning_rate": 1.855833333333333e-05,
1607
- "loss": 0.2047,
1608
  "step": 5550
1609
  },
1610
  {
1611
  "epoch": 0.5575,
1612
- "grad_norm": 4.244606018066406,
1613
  "learning_rate": 1.8454166666666663e-05,
1614
- "loss": 0.1606,
1615
  "step": 5575
1616
  },
1617
  {
1618
  "epoch": 0.56,
1619
- "grad_norm": 2.2419683933258057,
1620
  "learning_rate": 1.835e-05,
1621
- "loss": 0.1089,
1622
  "step": 5600
1623
  },
1624
  {
1625
  "epoch": 0.5625,
1626
- "grad_norm": 3.0442473888397217,
1627
  "learning_rate": 1.8245833333333334e-05,
1628
- "loss": 0.0874,
1629
  "step": 5625
1630
  },
1631
  {
1632
  "epoch": 0.565,
1633
- "grad_norm": 2.6160330772399902,
1634
  "learning_rate": 1.8141666666666663e-05,
1635
- "loss": 0.0896,
1636
  "step": 5650
1637
  },
1638
  {
1639
  "epoch": 0.5675,
1640
- "grad_norm": 2.5410189628601074,
1641
  "learning_rate": 1.8037499999999998e-05,
1642
- "loss": 0.1159,
1643
  "step": 5675
1644
  },
1645
  {
1646
  "epoch": 0.57,
1647
- "grad_norm": 3.572497606277466,
1648
  "learning_rate": 1.793333333333333e-05,
1649
- "loss": 0.1245,
1650
  "step": 5700
1651
  },
1652
  {
1653
  "epoch": 0.5725,
1654
- "grad_norm": 2.8839869499206543,
1655
  "learning_rate": 1.7829166666666665e-05,
1656
- "loss": 0.1236,
1657
  "step": 5725
1658
  },
1659
  {
1660
  "epoch": 0.575,
1661
- "grad_norm": 2.6902310848236084,
1662
  "learning_rate": 1.7725e-05,
1663
- "loss": 0.1165,
1664
  "step": 5750
1665
  },
1666
  {
1667
  "epoch": 0.5775,
1668
- "grad_norm": 2.7092816829681396,
1669
  "learning_rate": 1.7620833333333332e-05,
1670
- "loss": 0.1164,
1671
  "step": 5775
1672
  },
1673
  {
1674
  "epoch": 0.58,
1675
- "grad_norm": 2.8278088569641113,
1676
  "learning_rate": 1.7516666666666664e-05,
1677
- "loss": 0.1098,
1678
  "step": 5800
1679
  },
1680
  {
1681
  "epoch": 0.5825,
1682
- "grad_norm": 2.267011880874634,
1683
  "learning_rate": 1.7412499999999996e-05,
1684
- "loss": 0.096,
1685
  "step": 5825
1686
  },
1687
  {
1688
  "epoch": 0.585,
1689
- "grad_norm": 3.5820508003234863,
1690
  "learning_rate": 1.730833333333333e-05,
1691
- "loss": 0.1046,
1692
  "step": 5850
1693
  },
1694
  {
1695
  "epoch": 0.5875,
1696
- "grad_norm": 3.4889466762542725,
1697
  "learning_rate": 1.7204166666666667e-05,
1698
- "loss": 0.1114,
1699
  "step": 5875
1700
  },
1701
  {
1702
  "epoch": 0.59,
1703
- "grad_norm": 3.823050022125244,
1704
  "learning_rate": 1.71e-05,
1705
- "loss": 0.1408,
1706
  "step": 5900
1707
  },
1708
  {
1709
  "epoch": 0.5925,
1710
- "grad_norm": 6.086155414581299,
1711
  "learning_rate": 1.6995833333333334e-05,
1712
  "loss": 0.2024,
1713
  "step": 5925
1714
  },
1715
  {
1716
  "epoch": 0.595,
1717
- "grad_norm": 3.8740174770355225,
1718
  "learning_rate": 1.6891666666666663e-05,
1719
- "loss": 0.1934,
1720
  "step": 5950
1721
  },
1722
  {
1723
  "epoch": 0.5975,
1724
- "grad_norm": 4.5182881355285645,
1725
  "learning_rate": 1.6787499999999998e-05,
1726
- "loss": 0.1699,
1727
  "step": 5975
1728
  },
1729
  {
1730
  "epoch": 0.6,
1731
- "grad_norm": 3.7333216667175293,
1732
  "learning_rate": 1.6683333333333333e-05,
1733
- "loss": 0.1582,
1734
  "step": 6000
1735
  },
1736
  {
1737
  "epoch": 0.6,
1738
- "eval_loss": 0.36108532547950745,
1739
- "eval_runtime": 60.9789,
1740
- "eval_samples_per_second": 34.504,
1741
- "eval_steps_per_second": 2.165,
1742
- "eval_wer": 17.977002898008788,
1743
  "step": 6000
1744
  },
1745
  {
1746
  "epoch": 0.6025,
1747
- "grad_norm": 3.5465595722198486,
1748
  "learning_rate": 1.6579166666666665e-05,
1749
- "loss": 0.1487,
1750
  "step": 6025
1751
  },
1752
  {
1753
  "epoch": 0.605,
1754
- "grad_norm": 3.182589530944824,
1755
  "learning_rate": 1.6475e-05,
1756
- "loss": 0.1345,
1757
  "step": 6050
1758
  },
1759
  {
1760
  "epoch": 0.6075,
1761
- "grad_norm": 2.878831148147583,
1762
  "learning_rate": 1.6370833333333333e-05,
1763
- "loss": 0.1197,
1764
  "step": 6075
1765
  },
1766
  {
1767
  "epoch": 0.61,
1768
- "grad_norm": 2.519314765930176,
1769
  "learning_rate": 1.6266666666666665e-05,
1770
- "loss": 0.1115,
1771
  "step": 6100
1772
  },
1773
  {
1774
  "epoch": 0.6125,
1775
- "grad_norm": 3.164379596710205,
1776
  "learning_rate": 1.61625e-05,
1777
- "loss": 0.1144,
1778
  "step": 6125
1779
  },
1780
  {
1781
  "epoch": 0.615,
1782
- "grad_norm": 3.2751474380493164,
1783
  "learning_rate": 1.6058333333333332e-05,
1784
- "loss": 0.1295,
1785
  "step": 6150
1786
  },
1787
  {
1788
  "epoch": 0.6175,
1789
- "grad_norm": 3.138570785522461,
1790
  "learning_rate": 1.5954166666666667e-05,
1791
- "loss": 0.128,
1792
  "step": 6175
1793
  },
1794
  {
1795
  "epoch": 0.62,
1796
- "grad_norm": 4.330804347991943,
1797
  "learning_rate": 1.585e-05,
1798
- "loss": 0.1287,
1799
  "step": 6200
1800
  },
1801
  {
1802
  "epoch": 0.6225,
1803
- "grad_norm": 3.6639904975891113,
1804
  "learning_rate": 1.574583333333333e-05,
1805
- "loss": 0.1225,
1806
  "step": 6225
1807
  },
1808
  {
1809
  "epoch": 0.625,
1810
- "grad_norm": 3.540968179702759,
1811
  "learning_rate": 1.5641666666666666e-05,
1812
- "loss": 0.1148,
1813
  "step": 6250
1814
  },
1815
  {
1816
  "epoch": 0.6275,
1817
- "grad_norm": 3.4403693675994873,
1818
  "learning_rate": 1.5537499999999998e-05,
1819
- "loss": 0.1325,
1820
  "step": 6275
1821
  },
1822
  {
1823
  "epoch": 0.63,
1824
- "grad_norm": 3.9871201515197754,
1825
  "learning_rate": 1.5433333333333334e-05,
1826
- "loss": 0.1443,
1827
  "step": 6300
1828
  },
1829
  {
1830
  "epoch": 0.6325,
1831
- "grad_norm": 3.233175039291382,
1832
  "learning_rate": 1.5329166666666665e-05,
1833
- "loss": 0.1955,
1834
  "step": 6325
1835
  },
1836
  {
1837
  "epoch": 0.635,
1838
- "grad_norm": 3.86395525932312,
1839
  "learning_rate": 1.5224999999999999e-05,
1840
- "loss": 0.1768,
1841
  "step": 6350
1842
  },
1843
  {
1844
  "epoch": 0.6375,
1845
- "grad_norm": 3.179206609725952,
1846
  "learning_rate": 1.5120833333333331e-05,
1847
- "loss": 0.1644,
1848
  "step": 6375
1849
  },
1850
  {
1851
  "epoch": 0.64,
1852
- "grad_norm": 2.821089267730713,
1853
  "learning_rate": 1.5016666666666665e-05,
1854
- "loss": 0.1247,
1855
  "step": 6400
1856
  },
1857
  {
1858
  "epoch": 0.6425,
1859
- "grad_norm": 2.4977850914001465,
1860
  "learning_rate": 1.4912499999999998e-05,
1861
- "loss": 0.1133,
1862
  "step": 6425
1863
  },
1864
  {
1865
  "epoch": 0.645,
1866
- "grad_norm": 4.838348388671875,
1867
  "learning_rate": 1.4808333333333332e-05,
1868
- "loss": 0.1097,
1869
  "step": 6450
1870
  },
1871
  {
1872
  "epoch": 0.6475,
1873
- "grad_norm": 3.5508921146392822,
1874
  "learning_rate": 1.4704166666666666e-05,
1875
- "loss": 0.1553,
1876
  "step": 6475
1877
  },
1878
  {
1879
  "epoch": 0.65,
1880
- "grad_norm": 3.1777148246765137,
1881
  "learning_rate": 1.4599999999999997e-05,
1882
- "loss": 0.1492,
1883
  "step": 6500
1884
  },
1885
  {
1886
  "epoch": 0.6525,
1887
- "grad_norm": 5.064118385314941,
1888
  "learning_rate": 1.4495833333333331e-05,
1889
- "loss": 0.1921,
1890
  "step": 6525
1891
  },
1892
  {
1893
  "epoch": 0.655,
1894
- "grad_norm": 3.8920788764953613,
1895
  "learning_rate": 1.4391666666666665e-05,
1896
- "loss": 0.1769,
1897
  "step": 6550
1898
  },
1899
  {
1900
  "epoch": 0.6575,
1901
- "grad_norm": 3.3840203285217285,
1902
  "learning_rate": 1.4287499999999998e-05,
1903
- "loss": 0.1772,
1904
  "step": 6575
1905
  },
1906
  {
1907
  "epoch": 0.66,
1908
- "grad_norm": 3.4659571647644043,
1909
  "learning_rate": 1.4183333333333332e-05,
1910
- "loss": 0.155,
1911
  "step": 6600
1912
  },
1913
  {
1914
  "epoch": 0.6625,
1915
- "grad_norm": 3.893953561782837,
1916
  "learning_rate": 1.4079166666666666e-05,
1917
- "loss": 0.1666,
1918
  "step": 6625
1919
  },
1920
  {
1921
  "epoch": 0.665,
1922
- "grad_norm": 3.3748056888580322,
1923
  "learning_rate": 1.3974999999999997e-05,
1924
- "loss": 0.1967,
1925
  "step": 6650
1926
  },
1927
  {
1928
  "epoch": 0.6675,
1929
- "grad_norm": 3.469231605529785,
1930
  "learning_rate": 1.3870833333333331e-05,
1931
- "loss": 0.1671,
1932
  "step": 6675
1933
  },
1934
  {
1935
  "epoch": 0.67,
1936
- "grad_norm": 2.9588847160339355,
1937
  "learning_rate": 1.3766666666666665e-05,
1938
- "loss": 0.1613,
1939
  "step": 6700
1940
  },
1941
  {
1942
  "epoch": 0.6725,
1943
- "grad_norm": 3.3315980434417725,
1944
  "learning_rate": 1.3662499999999998e-05,
1945
- "loss": 0.1157,
1946
  "step": 6725
1947
  },
1948
  {
1949
  "epoch": 0.675,
1950
- "grad_norm": 4.094941139221191,
1951
  "learning_rate": 1.3558333333333334e-05,
1952
  "loss": 0.105,
1953
  "step": 6750
1954
  },
1955
  {
1956
  "epoch": 0.6775,
1957
- "grad_norm": 3.8783822059631348,
1958
  "learning_rate": 1.3454166666666664e-05,
1959
- "loss": 0.1277,
1960
  "step": 6775
1961
  },
1962
  {
1963
  "epoch": 0.68,
1964
- "grad_norm": 4.027767181396484,
1965
  "learning_rate": 1.3349999999999998e-05,
1966
- "loss": 0.2186,
1967
  "step": 6800
1968
  },
1969
  {
1970
  "epoch": 0.6825,
1971
- "grad_norm": 6.057985305786133,
1972
  "learning_rate": 1.3245833333333331e-05,
1973
- "loss": 0.1943,
1974
  "step": 6825
1975
  },
1976
  {
1977
  "epoch": 0.685,
1978
- "grad_norm": 5.209383964538574,
1979
  "learning_rate": 1.3141666666666665e-05,
1980
- "loss": 0.2008,
1981
  "step": 6850
1982
  },
1983
  {
1984
  "epoch": 0.6875,
1985
- "grad_norm": 4.257080554962158,
1986
  "learning_rate": 1.30375e-05,
1987
- "loss": 0.1915,
1988
  "step": 6875
1989
  },
1990
  {
1991
  "epoch": 0.69,
1992
- "grad_norm": 4.305874347686768,
1993
  "learning_rate": 1.2933333333333334e-05,
1994
- "loss": 0.1878,
1995
  "step": 6900
1996
  },
1997
  {
1998
  "epoch": 0.6925,
1999
- "grad_norm": 3.4165127277374268,
2000
  "learning_rate": 1.2829166666666664e-05,
2001
- "loss": 0.172,
2002
  "step": 6925
2003
  },
2004
  {
2005
  "epoch": 0.695,
2006
- "grad_norm": 4.07374382019043,
2007
  "learning_rate": 1.2724999999999998e-05,
2008
- "loss": 0.1759,
2009
  "step": 6950
2010
  },
2011
  {
2012
  "epoch": 0.6975,
2013
- "grad_norm": 4.26957368850708,
2014
  "learning_rate": 1.2620833333333333e-05,
2015
- "loss": 0.1943,
2016
  "step": 6975
2017
  },
2018
  {
2019
  "epoch": 0.7,
2020
- "grad_norm": 4.227268218994141,
2021
  "learning_rate": 1.2516666666666667e-05,
2022
- "loss": 0.1848,
2023
  "step": 7000
2024
  },
2025
  {
2026
  "epoch": 0.7,
2027
- "eval_loss": 0.35591790080070496,
2028
- "eval_runtime": 58.3501,
2029
- "eval_samples_per_second": 36.058,
2030
- "eval_steps_per_second": 2.262,
2031
- "eval_wer": 16.677573151350845,
2032
  "step": 7000
2033
  },
2034
  {
2035
  "epoch": 0.7025,
2036
- "grad_norm": 7.228043079376221,
2037
  "learning_rate": 1.2416666666666666e-05,
2038
- "loss": 0.3395,
2039
  "step": 7025
2040
  },
2041
  {
2042
  "epoch": 0.705,
2043
- "grad_norm": 8.51174259185791,
2044
  "learning_rate": 1.2312499999999998e-05,
2045
- "loss": 0.5988,
2046
  "step": 7050
2047
  },
2048
  {
2049
  "epoch": 0.7075,
2050
- "grad_norm": 5.47458553314209,
2051
  "learning_rate": 1.2208333333333331e-05,
2052
- "loss": 0.5235,
2053
  "step": 7075
2054
  },
2055
  {
2056
  "epoch": 0.71,
2057
- "grad_norm": 4.297708511352539,
2058
  "learning_rate": 1.2104166666666665e-05,
2059
- "loss": 0.4329,
2060
  "step": 7100
2061
  },
2062
  {
2063
  "epoch": 0.7125,
2064
- "grad_norm": 4.446761608123779,
2065
  "learning_rate": 1.1999999999999999e-05,
2066
- "loss": 0.238,
2067
  "step": 7125
2068
  },
2069
  {
2070
  "epoch": 0.715,
2071
- "grad_norm": 4.935601711273193,
2072
  "learning_rate": 1.1895833333333332e-05,
2073
- "loss": 0.1848,
2074
  "step": 7150
2075
  },
2076
  {
2077
  "epoch": 0.7175,
2078
- "grad_norm": 3.1769227981567383,
2079
  "learning_rate": 1.1791666666666666e-05,
2080
- "loss": 0.1695,
2081
  "step": 7175
2082
  },
2083
  {
2084
  "epoch": 0.72,
2085
- "grad_norm": 3.629225492477417,
2086
  "learning_rate": 1.1687499999999998e-05,
2087
- "loss": 0.1313,
2088
  "step": 7200
2089
  },
2090
  {
2091
  "epoch": 0.7225,
2092
- "grad_norm": 2.838541269302368,
2093
  "learning_rate": 1.1583333333333331e-05,
2094
- "loss": 0.1274,
2095
  "step": 7225
2096
  },
2097
  {
2098
  "epoch": 0.725,
2099
- "grad_norm": 2.8158419132232666,
2100
  "learning_rate": 1.1479166666666665e-05,
2101
- "loss": 0.1372,
2102
  "step": 7250
2103
  },
2104
  {
2105
  "epoch": 0.7275,
2106
- "grad_norm": 2.6257667541503906,
2107
  "learning_rate": 1.1374999999999999e-05,
2108
- "loss": 0.1132,
2109
  "step": 7275
2110
  },
2111
  {
2112
  "epoch": 0.73,
2113
- "grad_norm": 2.1429176330566406,
2114
  "learning_rate": 1.1270833333333332e-05,
2115
- "loss": 0.0966,
2116
  "step": 7300
2117
  },
2118
  {
2119
  "epoch": 0.7325,
2120
- "grad_norm": 2.7238330841064453,
2121
  "learning_rate": 1.1166666666666664e-05,
2122
- "loss": 0.1008,
2123
  "step": 7325
2124
  },
2125
  {
2126
  "epoch": 0.735,
2127
- "grad_norm": 4.3870344161987305,
2128
  "learning_rate": 1.1062499999999998e-05,
2129
- "loss": 0.1323,
2130
  "step": 7350
2131
  },
2132
  {
2133
  "epoch": 0.7375,
2134
- "grad_norm": 3.9880590438842773,
2135
  "learning_rate": 1.0958333333333331e-05,
2136
- "loss": 0.1818,
2137
  "step": 7375
2138
  },
2139
  {
2140
  "epoch": 0.74,
2141
- "grad_norm": 5.648591995239258,
2142
  "learning_rate": 1.0854166666666665e-05,
2143
- "loss": 0.1446,
2144
  "step": 7400
2145
  },
2146
  {
2147
  "epoch": 0.7425,
2148
- "grad_norm": 2.984696388244629,
2149
  "learning_rate": 1.075e-05,
2150
- "loss": 0.1677,
2151
  "step": 7425
2152
  },
2153
  {
2154
  "epoch": 0.745,
2155
- "grad_norm": 3.2804365158081055,
2156
  "learning_rate": 1.0645833333333334e-05,
2157
- "loss": 0.1169,
2158
  "step": 7450
2159
  },
2160
  {
2161
  "epoch": 0.7475,
2162
- "grad_norm": 2.6319210529327393,
2163
  "learning_rate": 1.0541666666666664e-05,
2164
- "loss": 0.1076,
2165
  "step": 7475
2166
  },
2167
  {
2168
  "epoch": 0.75,
2169
- "grad_norm": 3.784388780593872,
2170
  "learning_rate": 1.0437499999999998e-05,
2171
- "loss": 0.1044,
2172
  "step": 7500
2173
  },
2174
  {
2175
  "epoch": 0.7525,
2176
- "grad_norm": 4.933755397796631,
2177
  "learning_rate": 1.0333333333333332e-05,
2178
- "loss": 0.2042,
2179
  "step": 7525
2180
  },
2181
  {
2182
  "epoch": 0.755,
2183
- "grad_norm": 5.344150543212891,
2184
  "learning_rate": 1.0229166666666667e-05,
2185
- "loss": 0.2641,
2186
  "step": 7550
2187
  },
2188
  {
2189
  "epoch": 0.7575,
2190
- "grad_norm": 5.08501672744751,
2191
  "learning_rate": 1.0125e-05,
2192
- "loss": 0.293,
2193
  "step": 7575
2194
  },
2195
  {
2196
  "epoch": 0.76,
2197
- "grad_norm": 2.6458065509796143,
2198
  "learning_rate": 1.0020833333333334e-05,
2199
- "loss": 0.1825,
2200
  "step": 7600
2201
  },
2202
  {
2203
  "epoch": 0.7625,
2204
- "grad_norm": 4.469775199890137,
2205
  "learning_rate": 9.916666666666664e-06,
2206
- "loss": 0.1311,
2207
  "step": 7625
2208
  },
2209
  {
2210
  "epoch": 0.765,
2211
- "grad_norm": 2.5928456783294678,
2212
  "learning_rate": 9.8125e-06,
2213
- "loss": 0.1084,
2214
  "step": 7650
2215
  },
2216
  {
2217
  "epoch": 0.7675,
2218
- "grad_norm": 4.348841190338135,
2219
  "learning_rate": 9.708333333333333e-06,
2220
- "loss": 0.1447,
2221
  "step": 7675
2222
  },
2223
  {
2224
  "epoch": 0.77,
2225
- "grad_norm": 4.078396797180176,
2226
  "learning_rate": 9.604166666666667e-06,
2227
- "loss": 0.1727,
2228
  "step": 7700
2229
  },
2230
  {
2231
  "epoch": 0.7725,
2232
- "grad_norm": 3.949575185775757,
2233
  "learning_rate": 9.5e-06,
2234
- "loss": 0.1824,
2235
  "step": 7725
2236
  },
2237
  {
2238
  "epoch": 0.775,
2239
- "grad_norm": 3.2387499809265137,
2240
  "learning_rate": 9.39583333333333e-06,
2241
  "loss": 0.1671,
2242
  "step": 7750
2243
  },
2244
  {
2245
  "epoch": 0.7775,
2246
- "grad_norm": 3.390455722808838,
2247
  "learning_rate": 9.291666666666666e-06,
2248
- "loss": 0.1201,
2249
  "step": 7775
2250
  },
2251
  {
2252
  "epoch": 0.78,
2253
- "grad_norm": 4.596331596374512,
2254
  "learning_rate": 9.1875e-06,
2255
- "loss": 0.1413,
2256
  "step": 7800
2257
  },
2258
  {
2259
  "epoch": 0.7825,
2260
- "grad_norm": 3.470177412033081,
2261
  "learning_rate": 9.083333333333333e-06,
2262
- "loss": 0.3118,
2263
  "step": 7825
2264
  },
2265
  {
2266
  "epoch": 0.785,
2267
- "grad_norm": 2.657711982727051,
2268
  "learning_rate": 8.979166666666665e-06,
2269
- "loss": 0.1523,
2270
  "step": 7850
2271
  },
2272
  {
2273
  "epoch": 0.7875,
2274
- "grad_norm": 2.3193860054016113,
2275
  "learning_rate": 8.874999999999999e-06,
2276
- "loss": 0.1134,
2277
  "step": 7875
2278
  },
2279
  {
2280
  "epoch": 0.79,
2281
- "grad_norm": 4.3279008865356445,
2282
  "learning_rate": 8.770833333333333e-06,
2283
- "loss": 0.1089,
2284
  "step": 7900
2285
  },
2286
  {
2287
  "epoch": 0.7925,
2288
- "grad_norm": 2.435753107070923,
2289
  "learning_rate": 8.666666666666666e-06,
2290
- "loss": 0.1112,
2291
  "step": 7925
2292
  },
2293
  {
2294
  "epoch": 0.795,
2295
- "grad_norm": 2.8667356967926025,
2296
  "learning_rate": 8.5625e-06,
2297
- "loss": 0.1072,
2298
  "step": 7950
2299
  },
2300
  {
2301
  "epoch": 0.7975,
2302
- "grad_norm": 2.846033811569214,
2303
  "learning_rate": 8.458333333333333e-06,
2304
- "loss": 0.1151,
2305
  "step": 7975
2306
  },
2307
  {
2308
  "epoch": 0.8,
2309
- "grad_norm": 3.3730928897857666,
2310
  "learning_rate": 8.354166666666665e-06,
2311
- "loss": 0.1434,
2312
  "step": 8000
2313
  },
2314
  {
2315
  "epoch": 0.8,
2316
- "eval_loss": 0.300187349319458,
2317
- "eval_runtime": 58.5676,
2318
- "eval_samples_per_second": 35.924,
2319
- "eval_steps_per_second": 2.254,
2320
- "eval_wer": 14.985509956062447,
2321
  "step": 8000
2322
  },
2323
  {
2324
  "epoch": 0.8025,
2325
- "grad_norm": 4.13847017288208,
2326
  "learning_rate": 8.249999999999999e-06,
2327
- "loss": 0.1658,
2328
  "step": 8025
2329
  },
2330
  {
2331
  "epoch": 0.805,
2332
- "grad_norm": 3.6509456634521484,
2333
  "learning_rate": 8.145833333333333e-06,
2334
- "loss": 0.1818,
2335
  "step": 8050
2336
  },
2337
  {
2338
  "epoch": 0.8075,
2339
- "grad_norm": 2.960130453109741,
2340
  "learning_rate": 8.041666666666666e-06,
2341
- "loss": 0.135,
2342
  "step": 8075
2343
  },
2344
  {
2345
  "epoch": 0.81,
2346
- "grad_norm": 2.997581720352173,
2347
  "learning_rate": 7.9375e-06,
2348
- "loss": 0.1213,
2349
  "step": 8100
2350
  },
2351
  {
2352
  "epoch": 0.8125,
2353
- "grad_norm": 2.4850475788116455,
2354
  "learning_rate": 7.833333333333333e-06,
2355
- "loss": 0.1052,
2356
  "step": 8125
2357
  },
2358
  {
2359
  "epoch": 0.815,
2360
- "grad_norm": 3.6655027866363525,
2361
  "learning_rate": 7.729166666666665e-06,
2362
- "loss": 0.1054,
2363
  "step": 8150
2364
  },
2365
  {
2366
  "epoch": 0.8175,
2367
- "grad_norm": 2.144341468811035,
2368
  "learning_rate": 7.625e-06,
2369
- "loss": 0.0934,
2370
  "step": 8175
2371
  },
2372
  {
2373
  "epoch": 0.82,
2374
- "grad_norm": 3.284132242202759,
2375
  "learning_rate": 7.520833333333332e-06,
2376
- "loss": 0.0762,
2377
  "step": 8200
2378
  },
2379
  {
2380
  "epoch": 0.8225,
2381
- "grad_norm": 2.597266912460327,
2382
  "learning_rate": 7.416666666666666e-06,
2383
- "loss": 0.0982,
2384
  "step": 8225
2385
  },
2386
  {
2387
  "epoch": 0.825,
2388
- "grad_norm": 3.4222335815429688,
2389
  "learning_rate": 7.3125e-06,
2390
- "loss": 0.0851,
2391
  "step": 8250
2392
  },
2393
  {
2394
  "epoch": 0.8275,
2395
- "grad_norm": 2.741823434829712,
2396
  "learning_rate": 7.208333333333333e-06,
2397
- "loss": 0.092,
2398
  "step": 8275
2399
  },
2400
  {
2401
  "epoch": 0.83,
2402
- "grad_norm": 2.2585489749908447,
2403
  "learning_rate": 7.104166666666666e-06,
2404
- "loss": 0.0948,
2405
  "step": 8300
2406
  },
2407
  {
2408
  "epoch": 0.8325,
2409
- "grad_norm": 3.675316572189331,
2410
  "learning_rate": 7e-06,
2411
- "loss": 0.1375,
2412
  "step": 8325
2413
  },
2414
  {
2415
  "epoch": 0.835,
2416
- "grad_norm": 4.135271072387695,
2417
  "learning_rate": 6.895833333333333e-06,
2418
- "loss": 0.1713,
2419
  "step": 8350
2420
  },
2421
  {
2422
  "epoch": 0.8375,
2423
- "grad_norm": 4.943787097930908,
2424
  "learning_rate": 6.791666666666666e-06,
2425
- "loss": 0.2061,
2426
  "step": 8375
2427
  },
2428
  {
2429
  "epoch": 0.84,
2430
- "grad_norm": 2.7876579761505127,
2431
  "learning_rate": 6.6875e-06,
2432
- "loss": 0.1586,
2433
  "step": 8400
2434
  },
2435
  {
2436
  "epoch": 0.8425,
2437
- "grad_norm": 3.986652135848999,
2438
  "learning_rate": 6.583333333333333e-06,
2439
- "loss": 0.1148,
2440
  "step": 8425
2441
  },
2442
  {
2443
  "epoch": 0.845,
2444
- "grad_norm": 2.5285580158233643,
2445
  "learning_rate": 6.479166666666666e-06,
2446
  "loss": 0.1098,
2447
  "step": 8450
2448
  },
2449
  {
2450
  "epoch": 0.8475,
2451
- "grad_norm": 3.109323263168335,
2452
  "learning_rate": 6.375e-06,
2453
- "loss": 0.1222,
2454
  "step": 8475
2455
  },
2456
  {
2457
  "epoch": 0.85,
2458
- "grad_norm": 3.02284574508667,
2459
  "learning_rate": 6.270833333333333e-06,
2460
- "loss": 0.1371,
2461
  "step": 8500
2462
  },
2463
  {
2464
  "epoch": 0.8525,
2465
- "grad_norm": 3.8272876739501953,
2466
  "learning_rate": 6.166666666666666e-06,
2467
- "loss": 0.1406,
2468
  "step": 8525
2469
  },
2470
  {
2471
  "epoch": 0.855,
2472
- "grad_norm": 5.428800106048584,
2473
  "learning_rate": 6.062499999999999e-06,
2474
- "loss": 0.1932,
2475
  "step": 8550
2476
  },
2477
  {
2478
  "epoch": 0.8575,
2479
- "grad_norm": 5.56389045715332,
2480
  "learning_rate": 5.958333333333333e-06,
2481
- "loss": 0.3211,
2482
  "step": 8575
2483
  },
2484
  {
2485
  "epoch": 0.86,
2486
- "grad_norm": 7.038808822631836,
2487
  "learning_rate": 5.854166666666666e-06,
2488
- "loss": 0.4388,
2489
  "step": 8600
2490
  },
2491
  {
2492
  "epoch": 0.8625,
2493
- "grad_norm": 7.0381245613098145,
2494
  "learning_rate": 5.749999999999999e-06,
2495
- "loss": 0.515,
2496
  "step": 8625
2497
  },
2498
  {
2499
  "epoch": 0.865,
2500
- "grad_norm": 3.0722436904907227,
2501
  "learning_rate": 5.645833333333333e-06,
2502
- "loss": 0.3093,
2503
  "step": 8650
2504
  },
2505
  {
2506
  "epoch": 0.8675,
2507
- "grad_norm": 4.79665470123291,
2508
  "learning_rate": 5.541666666666666e-06,
2509
- "loss": 0.2125,
2510
  "step": 8675
2511
  },
2512
  {
2513
  "epoch": 0.87,
2514
- "grad_norm": 5.695593357086182,
2515
  "learning_rate": 5.437499999999999e-06,
2516
- "loss": 0.2446,
2517
  "step": 8700
2518
  },
2519
  {
2520
  "epoch": 0.8725,
2521
- "grad_norm": 3.4895339012145996,
2522
  "learning_rate": 5.333333333333333e-06,
2523
- "loss": 0.1659,
2524
  "step": 8725
2525
  },
2526
  {
2527
  "epoch": 0.875,
2528
- "grad_norm": 2.6607508659362793,
2529
  "learning_rate": 5.2291666666666664e-06,
2530
- "loss": 0.1084,
2531
  "step": 8750
2532
  },
2533
  {
2534
  "epoch": 0.8775,
2535
- "grad_norm": 2.7779884338378906,
2536
  "learning_rate": 5.124999999999999e-06,
2537
- "loss": 0.1082,
2538
  "step": 8775
2539
  },
2540
  {
2541
  "epoch": 0.88,
2542
- "grad_norm": 3.051637887954712,
2543
  "learning_rate": 5.020833333333333e-06,
2544
- "loss": 0.1218,
2545
  "step": 8800
2546
  },
2547
  {
2548
  "epoch": 0.8825,
2549
- "grad_norm": 3.9986276626586914,
2550
  "learning_rate": 4.9166666666666665e-06,
2551
- "loss": 0.1534,
2552
  "step": 8825
2553
  },
2554
  {
2555
  "epoch": 0.885,
2556
- "grad_norm": 3.7295081615448,
2557
  "learning_rate": 4.812499999999999e-06,
2558
- "loss": 0.1498,
2559
  "step": 8850
2560
  },
2561
  {
2562
  "epoch": 0.8875,
2563
- "grad_norm": 3.2010765075683594,
2564
  "learning_rate": 4.708333333333333e-06,
2565
- "loss": 0.1514,
2566
  "step": 8875
2567
  },
2568
  {
2569
  "epoch": 0.89,
2570
- "grad_norm": 3.19004487991333,
2571
  "learning_rate": 4.6041666666666665e-06,
2572
- "loss": 0.1095,
2573
  "step": 8900
2574
  },
2575
  {
2576
  "epoch": 0.8925,
2577
- "grad_norm": 3.772831916809082,
2578
  "learning_rate": 4.499999999999999e-06,
2579
- "loss": 0.1066,
2580
  "step": 8925
2581
  },
2582
  {
2583
  "epoch": 0.895,
2584
- "grad_norm": 2.938344717025757,
2585
  "learning_rate": 4.395833333333333e-06,
2586
- "loss": 0.1156,
2587
  "step": 8950
2588
  },
2589
  {
2590
  "epoch": 0.8975,
2591
- "grad_norm": 3.13283109664917,
2592
  "learning_rate": 4.2916666666666665e-06,
2593
- "loss": 0.0922,
2594
  "step": 8975
2595
  },
2596
  {
2597
  "epoch": 0.9,
2598
- "grad_norm": 2.813206672668457,
2599
  "learning_rate": 4.187499999999999e-06,
2600
- "loss": 0.0951,
2601
  "step": 9000
2602
  },
2603
  {
2604
  "epoch": 0.9,
2605
- "eval_loss": 0.2976318597793579,
2606
- "eval_runtime": 59.2686,
2607
- "eval_samples_per_second": 35.499,
2608
- "eval_steps_per_second": 2.227,
2609
- "eval_wer": 15.294007665700663,
2610
  "step": 9000
2611
  },
2612
  {
2613
  "epoch": 0.9025,
2614
- "grad_norm": 3.3851749897003174,
2615
  "learning_rate": 4.083333333333333e-06,
2616
  "loss": 0.1113,
2617
  "step": 9025
2618
  },
2619
  {
2620
  "epoch": 0.905,
2621
- "grad_norm": 3.7882187366485596,
2622
  "learning_rate": 3.9791666666666665e-06,
2623
- "loss": 0.1345,
2624
  "step": 9050
2625
  },
2626
  {
2627
  "epoch": 0.9075,
2628
- "grad_norm": 4.723577976226807,
2629
  "learning_rate": 3.874999999999999e-06,
2630
  "loss": 0.1739,
2631
  "step": 9075
2632
  },
2633
  {
2634
  "epoch": 0.91,
2635
- "grad_norm": 3.7890665531158447,
2636
  "learning_rate": 3.770833333333333e-06,
2637
- "loss": 0.173,
2638
  "step": 9100
2639
  },
2640
  {
2641
  "epoch": 0.9125,
2642
- "grad_norm": 3.224851608276367,
2643
  "learning_rate": 3.6666666666666666e-06,
2644
- "loss": 0.1381,
2645
  "step": 9125
2646
  },
2647
  {
2648
  "epoch": 0.915,
2649
- "grad_norm": 2.4666051864624023,
2650
  "learning_rate": 3.5624999999999998e-06,
2651
- "loss": 0.1291,
2652
  "step": 9150
2653
  },
2654
  {
2655
  "epoch": 0.9175,
2656
- "grad_norm": 3.090360403060913,
2657
  "learning_rate": 3.458333333333333e-06,
2658
- "loss": 0.1249,
2659
  "step": 9175
2660
  },
2661
  {
2662
  "epoch": 0.92,
2663
- "grad_norm": 4.420276641845703,
2664
  "learning_rate": 3.354166666666666e-06,
2665
- "loss": 0.1292,
2666
  "step": 9200
2667
  },
2668
  {
2669
  "epoch": 0.9225,
2670
- "grad_norm": 4.0348663330078125,
2671
  "learning_rate": 3.25e-06,
2672
- "loss": 0.1508,
2673
  "step": 9225
2674
  },
2675
  {
2676
  "epoch": 0.925,
2677
- "grad_norm": 4.426786422729492,
2678
  "learning_rate": 3.145833333333333e-06,
2679
- "loss": 0.1749,
2680
  "step": 9250
2681
  },
2682
  {
2683
  "epoch": 0.9275,
2684
- "grad_norm": 3.2825982570648193,
2685
  "learning_rate": 3.041666666666666e-06,
2686
- "loss": 0.1932,
2687
  "step": 9275
2688
  },
2689
  {
2690
  "epoch": 0.93,
2691
- "grad_norm": 2.628441572189331,
2692
  "learning_rate": 2.9375e-06,
2693
- "loss": 0.1182,
2694
  "step": 9300
2695
  },
2696
  {
2697
  "epoch": 0.9325,
2698
- "grad_norm": 2.464374303817749,
2699
  "learning_rate": 2.833333333333333e-06,
2700
- "loss": 0.1196,
2701
  "step": 9325
2702
  },
2703
  {
2704
  "epoch": 0.935,
2705
- "grad_norm": 2.491689682006836,
2706
  "learning_rate": 2.7291666666666662e-06,
2707
- "loss": 0.0968,
2708
  "step": 9350
2709
  },
2710
  {
2711
  "epoch": 0.9375,
2712
- "grad_norm": 3.4698681831359863,
2713
  "learning_rate": 2.625e-06,
2714
- "loss": 0.1251,
2715
  "step": 9375
2716
  },
2717
  {
2718
  "epoch": 0.94,
2719
- "grad_norm": 3.9469587802886963,
2720
  "learning_rate": 2.520833333333333e-06,
2721
- "loss": 0.1507,
2722
  "step": 9400
2723
  },
2724
  {
2725
  "epoch": 0.9425,
2726
- "grad_norm": 3.5354082584381104,
2727
  "learning_rate": 2.4166666666666663e-06,
2728
  "loss": 0.169,
2729
  "step": 9425
2730
  },
2731
  {
2732
  "epoch": 0.945,
2733
- "grad_norm": 2.7507169246673584,
2734
  "learning_rate": 2.3125e-06,
2735
- "loss": 0.2939,
2736
  "step": 9450
2737
  },
2738
  {
2739
  "epoch": 0.9475,
2740
- "grad_norm": 3.2346575260162354,
2741
  "learning_rate": 2.208333333333333e-06,
2742
- "loss": 0.1602,
2743
  "step": 9475
2744
  },
2745
  {
2746
  "epoch": 0.95,
2747
- "grad_norm": 4.097684860229492,
2748
  "learning_rate": 2.1041666666666667e-06,
2749
- "loss": 0.134,
2750
  "step": 9500
2751
  },
2752
  {
2753
  "epoch": 0.9525,
2754
- "grad_norm": 4.1434855461120605,
2755
  "learning_rate": 2e-06,
2756
- "loss": 0.1553,
2757
  "step": 9525
2758
  },
2759
  {
2760
  "epoch": 0.955,
2761
- "grad_norm": 3.8769595623016357,
2762
  "learning_rate": 1.8958333333333331e-06,
2763
- "loss": 0.171,
2764
  "step": 9550
2765
  },
2766
  {
2767
  "epoch": 0.9575,
2768
- "grad_norm": 4.308934211730957,
2769
  "learning_rate": 1.7916666666666665e-06,
2770
- "loss": 0.1935,
2771
  "step": 9575
2772
  },
2773
  {
2774
  "epoch": 0.96,
2775
- "grad_norm": 3.0821316242218018,
2776
  "learning_rate": 1.6874999999999997e-06,
2777
- "loss": 0.1496,
2778
  "step": 9600
2779
  },
2780
  {
2781
  "epoch": 0.9625,
2782
- "grad_norm": 4.086252689361572,
2783
  "learning_rate": 1.5833333333333331e-06,
2784
- "loss": 0.1223,
2785
  "step": 9625
2786
  },
2787
  {
2788
  "epoch": 0.965,
2789
- "grad_norm": 2.3455817699432373,
2790
  "learning_rate": 1.4791666666666663e-06,
2791
- "loss": 0.0933,
2792
  "step": 9650
2793
  },
2794
  {
2795
  "epoch": 0.9675,
2796
- "grad_norm": 2.302103042602539,
2797
  "learning_rate": 1.375e-06,
2798
  "loss": 0.0959,
2799
  "step": 9675
2800
  },
2801
  {
2802
  "epoch": 0.97,
2803
- "grad_norm": 2.8981809616088867,
2804
  "learning_rate": 1.2708333333333334e-06,
2805
- "loss": 0.0963,
2806
  "step": 9700
2807
  },
2808
  {
2809
  "epoch": 0.9725,
2810
- "grad_norm": 1.89694082736969,
2811
  "learning_rate": 1.1666666666666666e-06,
2812
- "loss": 0.096,
2813
  "step": 9725
2814
  },
2815
  {
2816
  "epoch": 0.975,
2817
- "grad_norm": 2.363546371459961,
2818
  "learning_rate": 1.0624999999999998e-06,
2819
- "loss": 0.1005,
2820
  "step": 9750
2821
  },
2822
  {
2823
  "epoch": 0.9775,
2824
- "grad_norm": 2.9393630027770996,
2825
  "learning_rate": 9.583333333333334e-07,
2826
- "loss": 0.11,
2827
  "step": 9775
2828
  },
2829
  {
2830
  "epoch": 0.98,
2831
- "grad_norm": 2.824051856994629,
2832
  "learning_rate": 8.541666666666666e-07,
2833
- "loss": 0.153,
2834
  "step": 9800
2835
  },
2836
  {
2837
  "epoch": 0.9825,
2838
- "grad_norm": 3.817542552947998,
2839
  "learning_rate": 7.499999999999999e-07,
2840
- "loss": 0.1647,
2841
  "step": 9825
2842
  },
2843
  {
2844
  "epoch": 0.985,
2845
- "grad_norm": 3.506502151489258,
2846
  "learning_rate": 6.458333333333332e-07,
2847
- "loss": 0.1499,
2848
  "step": 9850
2849
  },
2850
  {
2851
  "epoch": 0.9875,
2852
- "grad_norm": 2.9996325969696045,
2853
  "learning_rate": 5.416666666666666e-07,
2854
- "loss": 0.148,
2855
  "step": 9875
2856
  },
2857
  {
2858
  "epoch": 0.99,
2859
- "grad_norm": 6.828978538513184,
2860
  "learning_rate": 4.375e-07,
2861
- "loss": 0.2303,
2862
  "step": 9900
2863
  },
2864
  {
2865
  "epoch": 0.9925,
2866
- "grad_norm": 2.7112486362457275,
2867
  "learning_rate": 3.333333333333333e-07,
2868
- "loss": 0.195,
2869
  "step": 9925
2870
  },
2871
  {
2872
  "epoch": 0.995,
2873
- "grad_norm": 3.023608684539795,
2874
  "learning_rate": 2.2916666666666666e-07,
2875
- "loss": 0.106,
2876
  "step": 9950
2877
  },
2878
  {
2879
  "epoch": 0.9975,
2880
- "grad_norm": 2.6858067512512207,
2881
  "learning_rate": 1.25e-07,
2882
- "loss": 0.1,
2883
  "step": 9975
2884
  },
2885
  {
2886
  "epoch": 1.0,
2887
- "grad_norm": 2.3674516677856445,
2888
  "learning_rate": 2.083333333333333e-08,
2889
- "loss": 0.106,
2890
  "step": 10000
2891
  },
2892
  {
2893
  "epoch": 1.0,
2894
- "eval_loss": 0.2991788983345032,
2895
- "eval_runtime": 60.4166,
2896
- "eval_samples_per_second": 34.825,
2897
- "eval_steps_per_second": 2.185,
2898
- "eval_wer": 15.72403477610545,
2899
  "step": 10000
2900
  },
2901
  {
2902
  "epoch": 1.0,
2903
  "step": 10000,
2904
  "total_flos": 7.8780432384e+18,
2905
- "train_loss": 0.24547564173936845,
2906
- "train_runtime": 3924.8092,
2907
- "train_samples_per_second": 81.533,
2908
- "train_steps_per_second": 2.548
2909
  }
2910
  ],
2911
  "logging_steps": 25,
 
1
  {
2
+ "best_metric": 14.849506681653555,
3
+ "best_model_checkpoint": "./checkpoint-10000",
4
  "epoch": 1.0,
5
  "eval_steps": 1000,
6
  "global_step": 10000,
 
10
  "log_history": [
11
  {
12
  "epoch": 0.0025,
13
+ "grad_norm": 32.17699432373047,
14
  "learning_rate": 7.875e-07,
15
+ "loss": 3.5416,
16
  "step": 25
17
  },
18
  {
19
  "epoch": 0.005,
20
+ "grad_norm": 17.338768005371094,
21
  "learning_rate": 1.7249999999999998e-06,
22
+ "loss": 2.8498,
23
  "step": 50
24
  },
25
  {
26
  "epoch": 0.0075,
27
+ "grad_norm": 13.783746719360352,
28
  "learning_rate": 2.6624999999999995e-06,
29
  "loss": 1.9843,
30
  "step": 75
31
  },
32
  {
33
  "epoch": 0.01,
34
+ "grad_norm": 10.80038070678711,
35
  "learning_rate": 3.6e-06,
36
+ "loss": 1.6113,
37
  "step": 100
38
  },
39
  {
40
  "epoch": 0.0125,
41
+ "grad_norm": 9.404985427856445,
42
  "learning_rate": 4.537499999999999e-06,
43
  "loss": 1.3704,
44
  "step": 125
45
  },
46
  {
47
  "epoch": 0.015,
48
+ "grad_norm": 8.393142700195312,
49
  "learning_rate": 5.474999999999999e-06,
50
+ "loss": 1.1666,
51
  "step": 150
52
  },
53
  {
54
  "epoch": 0.0175,
55
+ "grad_norm": 9.127829551696777,
56
  "learning_rate": 6.4125e-06,
57
  "loss": 1.0771,
58
  "step": 175
59
  },
60
  {
61
  "epoch": 0.02,
62
+ "grad_norm": 9.412626266479492,
63
  "learning_rate": 7.35e-06,
64
  "loss": 1.0148,
65
  "step": 200
66
  },
67
  {
68
  "epoch": 0.0225,
69
+ "grad_norm": 7.45149564743042,
70
  "learning_rate": 8.2875e-06,
71
+ "loss": 0.8875,
72
  "step": 225
73
  },
74
  {
75
  "epoch": 0.025,
76
+ "grad_norm": 10.142014503479004,
77
  "learning_rate": 9.224999999999999e-06,
78
+ "loss": 0.8914,
79
  "step": 250
80
  },
81
  {
82
  "epoch": 0.0275,
83
+ "grad_norm": 8.410262107849121,
84
  "learning_rate": 1.01625e-05,
85
  "loss": 0.8811,
86
  "step": 275
87
  },
88
  {
89
  "epoch": 0.03,
90
+ "grad_norm": 9.67717170715332,
91
  "learning_rate": 1.1099999999999999e-05,
92
  "loss": 0.8374,
93
  "step": 300
94
  },
95
  {
96
  "epoch": 0.0325,
97
+ "grad_norm": 7.850519180297852,
98
  "learning_rate": 1.20375e-05,
99
  "loss": 0.7848,
100
  "step": 325
101
  },
102
  {
103
  "epoch": 0.035,
104
+ "grad_norm": 7.787046909332275,
105
  "learning_rate": 1.2974999999999999e-05,
106
  "loss": 0.7056,
107
  "step": 350
108
  },
109
  {
110
  "epoch": 0.0375,
111
+ "grad_norm": 8.000933647155762,
112
  "learning_rate": 1.39125e-05,
113
+ "loss": 0.6118,
114
  "step": 375
115
  },
116
  {
117
  "epoch": 0.04,
118
+ "grad_norm": 6.588298320770264,
119
  "learning_rate": 1.485e-05,
120
+ "loss": 0.5839,
121
  "step": 400
122
  },
123
  {
124
  "epoch": 0.0425,
125
+ "grad_norm": 7.084440231323242,
126
  "learning_rate": 1.5787499999999997e-05,
127
+ "loss": 0.5352,
128
  "step": 425
129
  },
130
  {
131
  "epoch": 0.045,
132
+ "grad_norm": 6.439165115356445,
133
  "learning_rate": 1.6725e-05,
134
  "loss": 0.5099,
135
  "step": 450
136
  },
137
  {
138
  "epoch": 0.0475,
139
+ "grad_norm": 6.848193168640137,
140
  "learning_rate": 1.76625e-05,
141
+ "loss": 0.4845,
142
  "step": 475
143
  },
144
  {
145
  "epoch": 0.05,
146
+ "grad_norm": 6.957454204559326,
147
  "learning_rate": 1.8599999999999998e-05,
148
+ "loss": 0.4591,
149
  "step": 500
150
  },
151
  {
152
  "epoch": 0.0525,
153
+ "grad_norm": 7.173631191253662,
154
  "learning_rate": 1.95375e-05,
155
+ "loss": 0.4265,
156
  "step": 525
157
  },
158
  {
159
  "epoch": 0.055,
160
+ "grad_norm": 5.627034664154053,
161
  "learning_rate": 2.0475e-05,
162
  "loss": 0.4271,
163
  "step": 550
164
  },
165
  {
166
  "epoch": 0.0575,
167
+ "grad_norm": 5.964080333709717,
168
  "learning_rate": 2.1412499999999995e-05,
169
+ "loss": 0.4051,
170
  "step": 575
171
  },
172
  {
173
  "epoch": 0.06,
174
+ "grad_norm": 8.408676147460938,
175
  "learning_rate": 2.2349999999999998e-05,
176
+ "loss": 0.3964,
177
  "step": 600
178
  },
179
  {
180
  "epoch": 0.0625,
181
+ "grad_norm": 6.321172714233398,
182
  "learning_rate": 2.3287499999999997e-05,
183
+ "loss": 0.3565,
184
  "step": 625
185
  },
186
  {
187
  "epoch": 0.065,
188
+ "grad_norm": 5.115601062774658,
189
  "learning_rate": 2.4225e-05,
190
+ "loss": 0.3746,
191
  "step": 650
192
  },
193
  {
194
  "epoch": 0.0675,
195
+ "grad_norm": 5.302433967590332,
196
  "learning_rate": 2.51625e-05,
197
+ "loss": 0.3636,
198
  "step": 675
199
  },
200
  {
201
  "epoch": 0.07,
202
+ "grad_norm": 6.260375499725342,
203
  "learning_rate": 2.6099999999999997e-05,
204
  "loss": 0.3597,
205
  "step": 700
206
  },
207
  {
208
  "epoch": 0.0725,
209
+ "grad_norm": 8.463918685913086,
210
  "learning_rate": 2.7037499999999997e-05,
211
+ "loss": 0.399,
212
  "step": 725
213
  },
214
  {
215
  "epoch": 0.075,
216
+ "grad_norm": 6.9618659019470215,
217
  "learning_rate": 2.7975e-05,
218
+ "loss": 0.5304,
219
  "step": 750
220
  },
221
  {
222
  "epoch": 0.0775,
223
+ "grad_norm": 6.6647162437438965,
224
  "learning_rate": 2.8912499999999998e-05,
225
+ "loss": 0.5135,
226
  "step": 775
227
  },
228
  {
229
  "epoch": 0.08,
230
+ "grad_norm": 7.29068660736084,
231
  "learning_rate": 2.985e-05,
232
+ "loss": 0.5595,
233
  "step": 800
234
  },
235
  {
236
  "epoch": 0.0825,
237
+ "grad_norm": 5.9147186279296875,
238
  "learning_rate": 3.0787499999999996e-05,
239
+ "loss": 0.3989,
240
  "step": 825
241
  },
242
  {
243
  "epoch": 0.085,
244
+ "grad_norm": 4.840363502502441,
245
  "learning_rate": 3.1725e-05,
246
+ "loss": 0.3295,
247
  "step": 850
248
  },
249
  {
250
  "epoch": 0.0875,
251
+ "grad_norm": 4.7903571128845215,
252
  "learning_rate": 3.2662499999999994e-05,
253
+ "loss": 0.3158,
254
  "step": 875
255
  },
256
  {
257
  "epoch": 0.09,
258
+ "grad_norm": 6.355573654174805,
259
  "learning_rate": 3.36e-05,
260
+ "loss": 0.4046,
261
  "step": 900
262
  },
263
  {
264
  "epoch": 0.0925,
265
+ "grad_norm": 7.575016975402832,
266
  "learning_rate": 3.45375e-05,
267
  "loss": 0.4779,
268
  "step": 925
269
  },
270
  {
271
  "epoch": 0.095,
272
+ "grad_norm": 6.783919334411621,
273
  "learning_rate": 3.5474999999999995e-05,
274
+ "loss": 0.4578,
275
  "step": 950
276
  },
277
  {
278
  "epoch": 0.0975,
279
+ "grad_norm": 7.364860534667969,
280
  "learning_rate": 3.64125e-05,
281
+ "loss": 0.6591,
282
  "step": 975
283
  },
284
  {
285
  "epoch": 0.1,
286
+ "grad_norm": 7.520545959472656,
287
  "learning_rate": 3.735e-05,
288
+ "loss": 0.586,
289
  "step": 1000
290
  },
291
  {
292
  "epoch": 0.1,
293
+ "eval_loss": 0.6248713731765747,
294
+ "eval_runtime": 39.9662,
295
+ "eval_samples_per_second": 42.311,
296
+ "eval_steps_per_second": 2.652,
297
+ "eval_wer": 34.16385662545272,
298
  "step": 1000
299
  },
300
  {
301
  "epoch": 0.1025,
302
+ "grad_norm": 6.746083736419678,
303
  "learning_rate": 3.74125e-05,
304
  "loss": 0.5033,
305
  "step": 1025
306
  },
307
  {
308
  "epoch": 0.105,
309
+ "grad_norm": 5.35268497467041,
310
  "learning_rate": 3.730833333333333e-05,
311
+ "loss": 0.3954,
312
  "step": 1050
313
  },
314
  {
315
  "epoch": 0.1075,
316
+ "grad_norm": 4.840243816375732,
317
  "learning_rate": 3.7204166666666665e-05,
318
+ "loss": 0.3024,
319
  "step": 1075
320
  },
321
  {
322
  "epoch": 0.11,
323
+ "grad_norm": 4.398126602172852,
324
  "learning_rate": 3.7099999999999994e-05,
325
+ "loss": 0.2543,
326
  "step": 1100
327
  },
328
  {
329
  "epoch": 0.1125,
330
+ "grad_norm": 4.504413604736328,
331
  "learning_rate": 3.699583333333333e-05,
332
  "loss": 0.2439,
333
  "step": 1125
334
  },
335
  {
336
  "epoch": 0.115,
337
+ "grad_norm": 4.229017734527588,
338
  "learning_rate": 3.6891666666666664e-05,
339
  "loss": 0.2602,
340
  "step": 1150
341
  },
342
  {
343
  "epoch": 0.1175,
344
+ "grad_norm": 4.006415367126465,
345
  "learning_rate": 3.678749999999999e-05,
346
+ "loss": 0.2588,
347
  "step": 1175
348
  },
349
  {
350
  "epoch": 0.12,
351
+ "grad_norm": 4.367706298828125,
352
  "learning_rate": 3.668333333333333e-05,
353
+ "loss": 0.2419,
354
  "step": 1200
355
  },
356
  {
357
  "epoch": 0.1225,
358
+ "grad_norm": 7.554067611694336,
359
  "learning_rate": 3.6579166666666664e-05,
360
+ "loss": 0.3699,
361
  "step": 1225
362
  },
363
  {
364
  "epoch": 0.125,
365
+ "grad_norm": 6.349033355712891,
366
  "learning_rate": 3.6475e-05,
367
+ "loss": 0.3811,
368
  "step": 1250
369
  },
370
  {
371
  "epoch": 0.1275,
372
+ "grad_norm": 6.685649394989014,
373
  "learning_rate": 3.6370833333333334e-05,
374
+ "loss": 0.4109,
375
  "step": 1275
376
  },
377
  {
378
  "epoch": 0.13,
379
+ "grad_norm": 8.145482063293457,
380
  "learning_rate": 3.626666666666666e-05,
381
+ "loss": 0.4295,
382
  "step": 1300
383
  },
384
  {
385
  "epoch": 0.1325,
386
+ "grad_norm": 6.097599983215332,
387
  "learning_rate": 3.61625e-05,
388
+ "loss": 0.3691,
389
  "step": 1325
390
  },
391
  {
392
  "epoch": 0.135,
393
+ "grad_norm": 6.148138999938965,
394
  "learning_rate": 3.6058333333333333e-05,
395
+ "loss": 0.3754,
396
  "step": 1350
397
  },
398
  {
399
  "epoch": 0.1375,
400
+ "grad_norm": 6.437056541442871,
401
  "learning_rate": 3.595416666666666e-05,
402
  "loss": 0.3569,
403
  "step": 1375
404
  },
405
  {
406
  "epoch": 0.14,
407
+ "grad_norm": 6.0700201988220215,
408
  "learning_rate": 3.585e-05,
409
+ "loss": 0.3443,
410
  "step": 1400
411
  },
412
  {
413
  "epoch": 0.1425,
414
+ "grad_norm": 6.010077476501465,
415
  "learning_rate": 3.5745833333333326e-05,
416
+ "loss": 0.3516,
417
  "step": 1425
418
  },
419
  {
420
  "epoch": 0.145,
421
+ "grad_norm": 4.950198173522949,
422
  "learning_rate": 3.564166666666666e-05,
423
+ "loss": 0.3309,
424
  "step": 1450
425
  },
426
  {
427
  "epoch": 0.1475,
428
+ "grad_norm": 4.597211837768555,
429
  "learning_rate": 3.5537499999999996e-05,
430
+ "loss": 0.2661,
431
  "step": 1475
432
  },
433
  {
434
  "epoch": 0.15,
435
+ "grad_norm": 5.0821356773376465,
436
  "learning_rate": 3.543333333333333e-05,
437
+ "loss": 0.2346,
438
  "step": 1500
439
  },
440
  {
441
  "epoch": 0.1525,
442
+ "grad_norm": 3.8110575675964355,
443
  "learning_rate": 3.532916666666667e-05,
444
+ "loss": 0.2383,
445
  "step": 1525
446
  },
447
  {
448
  "epoch": 0.155,
449
+ "grad_norm": 5.058354377746582,
450
  "learning_rate": 3.5224999999999996e-05,
451
+ "loss": 0.2311,
452
  "step": 1550
453
  },
454
  {
455
  "epoch": 0.1575,
456
+ "grad_norm": 4.210774898529053,
457
  "learning_rate": 3.512083333333333e-05,
458
+ "loss": 0.205,
459
  "step": 1575
460
  },
461
  {
462
  "epoch": 0.16,
463
+ "grad_norm": 4.318747043609619,
464
  "learning_rate": 3.5016666666666666e-05,
465
+ "loss": 0.215,
466
  "step": 1600
467
  },
468
  {
469
  "epoch": 0.1625,
470
+ "grad_norm": 5.172638893127441,
471
  "learning_rate": 3.49125e-05,
472
+ "loss": 0.3064,
473
  "step": 1625
474
  },
475
  {
476
  "epoch": 0.165,
477
+ "grad_norm": 5.396555423736572,
478
  "learning_rate": 3.480833333333333e-05,
479
+ "loss": 0.3197,
480
  "step": 1650
481
  },
482
  {
483
  "epoch": 0.1675,
484
+ "grad_norm": 7.734130382537842,
485
  "learning_rate": 3.4704166666666665e-05,
486
+ "loss": 0.3303,
487
  "step": 1675
488
  },
489
  {
490
  "epoch": 0.17,
491
+ "grad_norm": 4.788872241973877,
492
  "learning_rate": 3.4599999999999994e-05,
493
+ "loss": 0.3104,
494
  "step": 1700
495
  },
496
  {
497
  "epoch": 0.1725,
498
+ "grad_norm": 4.634150505065918,
499
  "learning_rate": 3.449583333333333e-05,
500
+ "loss": 0.26,
501
  "step": 1725
502
  },
503
  {
504
  "epoch": 0.175,
505
+ "grad_norm": 4.166738510131836,
506
  "learning_rate": 3.4391666666666665e-05,
507
+ "loss": 0.2411,
508
  "step": 1750
509
  },
510
  {
511
  "epoch": 0.1775,
512
+ "grad_norm": 4.349499702453613,
513
  "learning_rate": 3.42875e-05,
514
+ "loss": 0.2139,
515
  "step": 1775
516
  },
517
  {
518
  "epoch": 0.18,
519
+ "grad_norm": 4.308148384094238,
520
  "learning_rate": 3.418333333333333e-05,
521
+ "loss": 0.218,
522
  "step": 1800
523
  },
524
  {
525
  "epoch": 0.1825,
526
+ "grad_norm": 3.210516929626465,
527
  "learning_rate": 3.4079166666666664e-05,
528
+ "loss": 0.2069,
529
  "step": 1825
530
  },
531
  {
532
  "epoch": 0.185,
533
+ "grad_norm": 3.348567247390747,
534
  "learning_rate": 3.3975e-05,
535
+ "loss": 0.193,
536
  "step": 1850
537
  },
538
  {
539
  "epoch": 0.1875,
540
+ "grad_norm": 4.138334274291992,
541
  "learning_rate": 3.3870833333333334e-05,
542
+ "loss": 0.1939,
543
  "step": 1875
544
  },
545
  {
546
  "epoch": 0.19,
547
+ "grad_norm": 4.503148555755615,
548
  "learning_rate": 3.376666666666666e-05,
549
+ "loss": 0.1921,
550
  "step": 1900
551
  },
552
  {
553
  "epoch": 0.1925,
554
+ "grad_norm": 3.379345417022705,
555
  "learning_rate": 3.36625e-05,
556
+ "loss": 0.1829,
557
  "step": 1925
558
  },
559
  {
560
  "epoch": 0.195,
561
+ "grad_norm": 4.82003927230835,
562
  "learning_rate": 3.355833333333333e-05,
563
+ "loss": 0.2564,
564
  "step": 1950
565
  },
566
  {
567
  "epoch": 0.1975,
568
+ "grad_norm": 5.72125768661499,
569
  "learning_rate": 3.345416666666666e-05,
570
+ "loss": 0.3326,
571
  "step": 1975
572
  },
573
  {
574
  "epoch": 0.2,
575
+ "grad_norm": 5.574431896209717,
576
  "learning_rate": 3.335e-05,
577
+ "loss": 0.3145,
578
  "step": 2000
579
  },
580
  {
581
  "epoch": 0.2,
582
+ "eval_loss": 0.5048365592956543,
583
+ "eval_runtime": 37.7406,
584
+ "eval_samples_per_second": 44.806,
585
+ "eval_steps_per_second": 2.809,
586
+ "eval_wer": 25.259148245285374,
587
  "step": 2000
588
  },
589
  {
590
  "epoch": 0.2025,
591
+ "grad_norm": 4.822042942047119,
592
  "learning_rate": 3.324583333333333e-05,
593
+ "loss": 0.2662,
594
  "step": 2025
595
  },
596
  {
597
  "epoch": 0.205,
598
+ "grad_norm": 4.082330226898193,
599
  "learning_rate": 3.314166666666666e-05,
600
+ "loss": 0.1935,
601
  "step": 2050
602
  },
603
  {
604
  "epoch": 0.2075,
605
+ "grad_norm": 5.841582775115967,
606
  "learning_rate": 3.30375e-05,
607
+ "loss": 0.186,
608
  "step": 2075
609
  },
610
  {
611
  "epoch": 0.21,
612
+ "grad_norm": 3.377840042114258,
613
  "learning_rate": 3.293333333333333e-05,
614
+ "loss": 0.1834,
615
  "step": 2100
616
  },
617
  {
618
  "epoch": 0.2125,
619
+ "grad_norm": 3.8289568424224854,
620
  "learning_rate": 3.282916666666667e-05,
621
+ "loss": 0.1594,
622
  "step": 2125
623
  },
624
  {
625
  "epoch": 0.215,
626
+ "grad_norm": 3.3037023544311523,
627
  "learning_rate": 3.2724999999999996e-05,
628
+ "loss": 0.1623,
629
  "step": 2150
630
  },
631
  {
632
  "epoch": 0.2175,
633
+ "grad_norm": 4.1908860206604,
634
  "learning_rate": 3.262083333333333e-05,
635
+ "loss": 0.1674,
636
  "step": 2175
637
  },
638
  {
639
  "epoch": 0.22,
640
+ "grad_norm": 6.681819438934326,
641
  "learning_rate": 3.2516666666666666e-05,
642
+ "loss": 0.2856,
643
  "step": 2200
644
  },
645
  {
646
  "epoch": 0.2225,
647
+ "grad_norm": 5.509127616882324,
648
  "learning_rate": 3.2412499999999995e-05,
649
+ "loss": 0.2918,
650
  "step": 2225
651
  },
652
  {
653
  "epoch": 0.225,
654
+ "grad_norm": 4.549745559692383,
655
  "learning_rate": 3.230833333333333e-05,
656
+ "loss": 0.3008,
657
  "step": 2250
658
  },
659
  {
660
  "epoch": 0.2275,
661
+ "grad_norm": 4.073692798614502,
662
  "learning_rate": 3.2204166666666666e-05,
663
+ "loss": 0.2116,
664
  "step": 2275
665
  },
666
  {
667
  "epoch": 0.23,
668
+ "grad_norm": 3.217360734939575,
669
  "learning_rate": 3.2099999999999994e-05,
670
+ "loss": 0.1622,
671
  "step": 2300
672
  },
673
  {
674
  "epoch": 0.2325,
675
+ "grad_norm": 4.068457126617432,
676
  "learning_rate": 3.199583333333333e-05,
677
+ "loss": 0.1538,
678
  "step": 2325
679
  },
680
  {
681
  "epoch": 0.235,
682
+ "grad_norm": 6.21290922164917,
683
  "learning_rate": 3.1891666666666665e-05,
684
+ "loss": 0.1543,
685
  "step": 2350
686
  },
687
  {
688
  "epoch": 0.2375,
689
+ "grad_norm": 2.9277803897857666,
690
  "learning_rate": 3.17875e-05,
691
+ "loss": 0.158,
692
  "step": 2375
693
  },
694
  {
695
  "epoch": 0.24,
696
+ "grad_norm": 3.4852840900421143,
697
  "learning_rate": 3.168333333333333e-05,
698
+ "loss": 0.1626,
699
  "step": 2400
700
  },
701
  {
702
  "epoch": 0.2425,
703
+ "grad_norm": 4.382246971130371,
704
  "learning_rate": 3.1579166666666664e-05,
705
+ "loss": 0.1642,
706
  "step": 2425
707
  },
708
  {
709
  "epoch": 0.245,
710
+ "grad_norm": 2.6627678871154785,
711
  "learning_rate": 3.1475e-05,
712
+ "loss": 0.1526,
713
  "step": 2450
714
  },
715
  {
716
  "epoch": 0.2475,
717
+ "grad_norm": 3.2728075981140137,
718
  "learning_rate": 3.1370833333333335e-05,
719
+ "loss": 0.1624,
720
  "step": 2475
721
  },
722
  {
723
  "epoch": 0.25,
724
+ "grad_norm": 3.8267433643341064,
725
  "learning_rate": 3.126666666666666e-05,
726
+ "loss": 0.1857,
727
  "step": 2500
728
  },
729
  {
730
  "epoch": 0.2525,
731
+ "grad_norm": 9.670909881591797,
732
  "learning_rate": 3.11625e-05,
733
+ "loss": 0.2492,
734
  "step": 2525
735
  },
736
  {
737
  "epoch": 0.255,
738
+ "grad_norm": 4.275064945220947,
739
  "learning_rate": 3.105833333333333e-05,
740
+ "loss": 0.238,
741
  "step": 2550
742
  },
743
  {
744
  "epoch": 0.2575,
745
+ "grad_norm": 4.751267910003662,
746
  "learning_rate": 3.095416666666666e-05,
747
+ "loss": 0.2788,
748
  "step": 2575
749
  },
750
  {
751
  "epoch": 0.26,
752
+ "grad_norm": 3.571152925491333,
753
  "learning_rate": 3.085e-05,
754
+ "loss": 0.2056,
755
  "step": 2600
756
  },
757
  {
758
  "epoch": 0.2625,
759
+ "grad_norm": 4.068671226501465,
760
  "learning_rate": 3.074583333333333e-05,
761
  "loss": 0.1741,
762
  "step": 2625
763
  },
764
  {
765
  "epoch": 0.265,
766
+ "grad_norm": 3.274651527404785,
767
  "learning_rate": 3.064166666666666e-05,
768
+ "loss": 0.1571,
769
  "step": 2650
770
  },
771
  {
772
  "epoch": 0.2675,
773
+ "grad_norm": 3.0895748138427734,
774
  "learning_rate": 3.05375e-05,
775
+ "loss": 0.149,
776
  "step": 2675
777
  },
778
  {
779
  "epoch": 0.27,
780
+ "grad_norm": 2.9620044231414795,
781
  "learning_rate": 3.0433333333333332e-05,
782
  "loss": 0.1584,
783
  "step": 2700
784
  },
785
  {
786
  "epoch": 0.2725,
787
+ "grad_norm": 3.2053639888763428,
788
  "learning_rate": 3.0329166666666664e-05,
789
+ "loss": 0.1676,
790
  "step": 2725
791
  },
792
  {
793
  "epoch": 0.275,
794
+ "grad_norm": 4.407464981079102,
795
  "learning_rate": 3.0225e-05,
796
+ "loss": 0.1799,
797
  "step": 2750
798
  },
799
  {
800
  "epoch": 0.2775,
801
+ "grad_norm": 5.430395603179932,
802
  "learning_rate": 3.0120833333333328e-05,
803
+ "loss": 0.3165,
804
  "step": 2775
805
  },
806
  {
807
  "epoch": 0.28,
808
+ "grad_norm": 4.443249702453613,
809
  "learning_rate": 3.0016666666666663e-05,
810
+ "loss": 0.2934,
811
  "step": 2800
812
  },
813
  {
814
  "epoch": 0.2825,
815
+ "grad_norm": 4.94956111907959,
816
  "learning_rate": 2.9912499999999995e-05,
817
+ "loss": 0.2587,
818
  "step": 2825
819
  },
820
  {
821
  "epoch": 0.285,
822
+ "grad_norm": 4.102962493896484,
823
  "learning_rate": 2.980833333333333e-05,
824
+ "loss": 0.2637,
825
  "step": 2850
826
  },
827
  {
828
  "epoch": 0.2875,
829
+ "grad_norm": 3.9422686100006104,
830
  "learning_rate": 2.9704166666666662e-05,
831
  "loss": 0.2561,
832
  "step": 2875
833
  },
834
  {
835
  "epoch": 0.29,
836
+ "grad_norm": 4.891707897186279,
837
  "learning_rate": 2.9599999999999998e-05,
838
+ "loss": 0.2476,
839
  "step": 2900
840
  },
841
  {
842
  "epoch": 0.2925,
843
+ "grad_norm": 3.3687989711761475,
844
  "learning_rate": 2.949583333333333e-05,
845
+ "loss": 0.2015,
846
  "step": 2925
847
  },
848
  {
849
  "epoch": 0.295,
850
+ "grad_norm": 3.280766010284424,
851
  "learning_rate": 2.9391666666666665e-05,
852
+ "loss": 0.1618,
853
  "step": 2950
854
  },
855
  {
856
  "epoch": 0.2975,
857
+ "grad_norm": 3.6520583629608154,
858
  "learning_rate": 2.9287499999999997e-05,
859
+ "loss": 0.1685,
860
  "step": 2975
861
  },
862
  {
863
  "epoch": 0.3,
864
+ "grad_norm": 4.03117561340332,
865
  "learning_rate": 2.9183333333333332e-05,
866
+ "loss": 0.225,
867
  "step": 3000
868
  },
869
  {
870
  "epoch": 0.3,
871
+ "eval_loss": 0.4838997423648834,
872
+ "eval_runtime": 38.3108,
873
+ "eval_samples_per_second": 44.139,
874
+ "eval_steps_per_second": 2.767,
875
+ "eval_wer": 22.05570126139628,
876
  "step": 3000
877
  },
878
  {
879
  "epoch": 0.3025,
880
+ "grad_norm": 5.466115951538086,
881
  "learning_rate": 2.9079166666666664e-05,
882
+ "loss": 0.2752,
883
  "step": 3025
884
  },
885
  {
886
  "epoch": 0.305,
887
+ "grad_norm": 6.833763599395752,
888
  "learning_rate": 2.8974999999999996e-05,
889
+ "loss": 0.3203,
890
  "step": 3050
891
  },
892
  {
893
  "epoch": 0.3075,
894
+ "grad_norm": 3.3256447315216064,
895
  "learning_rate": 2.8870833333333328e-05,
896
+ "loss": 0.2206,
897
  "step": 3075
898
  },
899
  {
900
  "epoch": 0.31,
901
+ "grad_norm": 3.841505289077759,
902
  "learning_rate": 2.8766666666666663e-05,
903
+ "loss": 0.1708,
904
  "step": 3100
905
  },
906
  {
907
  "epoch": 0.3125,
908
+ "grad_norm": 3.2223970890045166,
909
  "learning_rate": 2.8662499999999995e-05,
910
+ "loss": 0.1507,
911
  "step": 3125
912
  },
913
  {
914
  "epoch": 0.315,
915
+ "grad_norm": 4.438643932342529,
916
  "learning_rate": 2.855833333333333e-05,
917
+ "loss": 0.1827,
918
  "step": 3150
919
  },
920
  {
921
  "epoch": 0.3175,
922
+ "grad_norm": 4.88558292388916,
923
  "learning_rate": 2.8454166666666663e-05,
924
+ "loss": 0.2668,
925
  "step": 3175
926
  },
927
  {
928
  "epoch": 0.32,
929
+ "grad_norm": 5.326033115386963,
930
  "learning_rate": 2.8349999999999998e-05,
931
+ "loss": 0.247,
932
  "step": 3200
933
  },
934
  {
935
  "epoch": 0.3225,
936
+ "grad_norm": 4.686404228210449,
937
  "learning_rate": 2.824583333333333e-05,
938
+ "loss": 0.2666,
939
  "step": 3225
940
  },
941
  {
942
  "epoch": 0.325,
943
+ "grad_norm": 5.8094401359558105,
944
  "learning_rate": 2.8141666666666665e-05,
945
+ "loss": 0.2178,
946
  "step": 3250
947
  },
948
  {
949
  "epoch": 0.3275,
950
+ "grad_norm": 5.154630661010742,
951
  "learning_rate": 2.80375e-05,
952
+ "loss": 0.2241,
953
  "step": 3275
954
  },
955
  {
956
  "epoch": 0.33,
957
+ "grad_norm": 3.6322267055511475,
958
  "learning_rate": 2.7933333333333332e-05,
959
+ "loss": 0.2393,
960
  "step": 3300
961
  },
962
  {
963
  "epoch": 0.3325,
964
+ "grad_norm": 3.901859998703003,
965
  "learning_rate": 2.7829166666666668e-05,
966
+ "loss": 0.188,
967
  "step": 3325
968
  },
969
  {
970
  "epoch": 0.335,
971
+ "grad_norm": 3.8515241146087646,
972
  "learning_rate": 2.7724999999999996e-05,
973
+ "loss": 0.1522,
974
  "step": 3350
975
  },
976
  {
977
  "epoch": 0.3375,
978
+ "grad_norm": 3.150157928466797,
979
  "learning_rate": 2.7620833333333328e-05,
980
+ "loss": 0.1356,
981
  "step": 3375
982
  },
983
  {
984
  "epoch": 0.34,
985
+ "grad_norm": 3.471564769744873,
986
  "learning_rate": 2.7516666666666664e-05,
987
+ "loss": 0.1435,
988
  "step": 3400
989
  },
990
  {
991
  "epoch": 0.3425,
992
+ "grad_norm": 3.938312292098999,
993
  "learning_rate": 2.7412499999999995e-05,
994
+ "loss": 0.1445,
995
  "step": 3425
996
  },
997
  {
998
  "epoch": 0.345,
999
+ "grad_norm": 2.5613808631896973,
1000
  "learning_rate": 2.730833333333333e-05,
1001
+ "loss": 0.1363,
1002
  "step": 3450
1003
  },
1004
  {
1005
  "epoch": 0.3475,
1006
+ "grad_norm": 3.3892834186553955,
1007
  "learning_rate": 2.7204166666666663e-05,
1008
+ "loss": 0.1322,
1009
  "step": 3475
1010
  },
1011
  {
1012
  "epoch": 0.35,
1013
+ "grad_norm": 4.404175281524658,
1014
  "learning_rate": 2.7099999999999998e-05,
1015
+ "loss": 0.1602,
1016
  "step": 3500
1017
  },
1018
  {
1019
  "epoch": 0.3525,
1020
+ "grad_norm": 3.336073398590088,
1021
  "learning_rate": 2.6995833333333333e-05,
1022
+ "loss": 0.1488,
1023
  "step": 3525
1024
  },
1025
  {
1026
  "epoch": 0.355,
1027
+ "grad_norm": 5.919867992401123,
1028
  "learning_rate": 2.6891666666666665e-05,
1029
+ "loss": 0.1476,
1030
  "step": 3550
1031
  },
1032
  {
1033
  "epoch": 0.3575,
1034
+ "grad_norm": 5.114974021911621,
1035
  "learning_rate": 2.67875e-05,
1036
+ "loss": 0.2274,
1037
  "step": 3575
1038
  },
1039
  {
1040
  "epoch": 0.36,
1041
+ "grad_norm": 4.443377494812012,
1042
  "learning_rate": 2.6683333333333333e-05,
1043
+ "loss": 0.2627,
1044
  "step": 3600
1045
  },
1046
  {
1047
  "epoch": 0.3625,
1048
+ "grad_norm": 4.095592021942139,
1049
  "learning_rate": 2.657916666666666e-05,
1050
+ "loss": 0.2451,
1051
  "step": 3625
1052
  },
1053
  {
1054
  "epoch": 0.365,
1055
+ "grad_norm": 2.603665828704834,
1056
  "learning_rate": 2.6474999999999996e-05,
1057
+ "loss": 0.1531,
1058
  "step": 3650
1059
  },
1060
  {
1061
  "epoch": 0.3675,
1062
+ "grad_norm": 3.089383125305176,
1063
  "learning_rate": 2.637083333333333e-05,
1064
+ "loss": 0.1334,
1065
  "step": 3675
1066
  },
1067
  {
1068
  "epoch": 0.37,
1069
+ "grad_norm": 3.058241605758667,
1070
  "learning_rate": 2.6266666666666664e-05,
1071
+ "loss": 0.1322,
1072
  "step": 3700
1073
  },
1074
  {
1075
  "epoch": 0.3725,
1076
+ "grad_norm": 3.3943984508514404,
1077
  "learning_rate": 2.61625e-05,
1078
+ "loss": 0.159,
1079
  "step": 3725
1080
  },
1081
  {
1082
  "epoch": 0.375,
1083
+ "grad_norm": 4.98250150680542,
1084
  "learning_rate": 2.605833333333333e-05,
1085
+ "loss": 0.2044,
1086
  "step": 3750
1087
  },
1088
  {
1089
  "epoch": 0.3775,
1090
+ "grad_norm": 3.9143283367156982,
1091
  "learning_rate": 2.5954166666666666e-05,
1092
+ "loss": 0.2495,
1093
  "step": 3775
1094
  },
1095
  {
1096
  "epoch": 0.38,
1097
+ "grad_norm": 5.307981014251709,
1098
  "learning_rate": 2.5849999999999998e-05,
1099
+ "loss": 0.2502,
1100
  "step": 3800
1101
  },
1102
  {
1103
  "epoch": 0.3825,
1104
+ "grad_norm": 4.974552631378174,
1105
  "learning_rate": 2.5745833333333333e-05,
1106
+ "loss": 0.2502,
1107
  "step": 3825
1108
  },
1109
  {
1110
  "epoch": 0.385,
1111
+ "grad_norm": 5.2868547439575195,
1112
  "learning_rate": 2.5641666666666665e-05,
1113
+ "loss": 0.2662,
1114
  "step": 3850
1115
  },
1116
  {
1117
  "epoch": 0.3875,
1118
+ "grad_norm": 4.530261039733887,
1119
  "learning_rate": 2.55375e-05,
1120
+ "loss": 0.2359,
1121
  "step": 3875
1122
  },
1123
  {
1124
  "epoch": 0.39,
1125
+ "grad_norm": 3.932204484939575,
1126
  "learning_rate": 2.543333333333333e-05,
1127
+ "loss": 0.1757,
1128
  "step": 3900
1129
  },
1130
  {
1131
  "epoch": 0.3925,
1132
+ "grad_norm": 3.0662739276885986,
1133
  "learning_rate": 2.5329166666666665e-05,
1134
+ "loss": 0.148,
1135
  "step": 3925
1136
  },
1137
  {
1138
  "epoch": 0.395,
1139
+ "grad_norm": 3.4663736820220947,
1140
  "learning_rate": 2.5224999999999997e-05,
1141
+ "loss": 0.1411,
1142
  "step": 3950
1143
  },
1144
  {
1145
  "epoch": 0.3975,
1146
+ "grad_norm": 6.448814868927002,
1147
  "learning_rate": 2.5120833333333332e-05,
1148
+ "loss": 0.2409,
1149
  "step": 3975
1150
  },
1151
  {
1152
  "epoch": 0.4,
1153
+ "grad_norm": 4.826459884643555,
1154
  "learning_rate": 2.5016666666666664e-05,
1155
+ "loss": 0.3003,
1156
  "step": 4000
1157
  },
1158
  {
1159
  "epoch": 0.4,
1160
+ "eval_loss": 0.45400944352149963,
1161
+ "eval_runtime": 38.2487,
1162
+ "eval_samples_per_second": 44.211,
1163
+ "eval_steps_per_second": 2.771,
1164
+ "eval_wer": 20.307231172723867,
1165
  "step": 4000
1166
  },
1167
  {
1168
  "epoch": 0.4025,
1169
+ "grad_norm": 3.8398826122283936,
1170
  "learning_rate": 2.49125e-05,
1171
+ "loss": 0.2244,
1172
  "step": 4025
1173
  },
1174
  {
1175
  "epoch": 0.405,
1176
+ "grad_norm": 5.592238426208496,
1177
  "learning_rate": 2.480833333333333e-05,
1178
+ "loss": 0.3029,
1179
  "step": 4050
1180
  },
1181
  {
1182
  "epoch": 0.4075,
1183
+ "grad_norm": 4.635577201843262,
1184
  "learning_rate": 2.4704166666666666e-05,
1185
+ "loss": 0.2194,
1186
  "step": 4075
1187
  },
1188
  {
1189
  "epoch": 0.41,
1190
+ "grad_norm": 3.2737910747528076,
1191
  "learning_rate": 2.4599999999999998e-05,
1192
+ "loss": 0.2102,
1193
  "step": 4100
1194
  },
1195
  {
1196
  "epoch": 0.4125,
1197
+ "grad_norm": 2.5521626472473145,
1198
  "learning_rate": 2.4495833333333334e-05,
1199
+ "loss": 0.1517,
1200
  "step": 4125
1201
  },
1202
  {
1203
  "epoch": 0.415,
1204
+ "grad_norm": 3.2408368587493896,
1205
  "learning_rate": 2.4391666666666666e-05,
1206
+ "loss": 0.1331,
1207
  "step": 4150
1208
  },
1209
  {
1210
  "epoch": 0.4175,
1211
+ "grad_norm": 3.243713855743408,
1212
  "learning_rate": 2.4287499999999997e-05,
1213
+ "loss": 0.1385,
1214
  "step": 4175
1215
  },
1216
  {
1217
  "epoch": 0.42,
1218
+ "grad_norm": 2.6619813442230225,
1219
  "learning_rate": 2.418333333333333e-05,
1220
+ "loss": 0.1307,
1221
  "step": 4200
1222
  },
1223
  {
1224
  "epoch": 0.4225,
1225
+ "grad_norm": 2.726177930831909,
1226
  "learning_rate": 2.4079166666666665e-05,
1227
+ "loss": 0.1399,
1228
  "step": 4225
1229
  },
1230
  {
1231
  "epoch": 0.425,
1232
+ "grad_norm": 3.1518099308013916,
1233
  "learning_rate": 2.3974999999999997e-05,
1234
+ "loss": 0.1344,
1235
  "step": 4250
1236
  },
1237
  {
1238
  "epoch": 0.4275,
1239
+ "grad_norm": 3.95133376121521,
1240
  "learning_rate": 2.3870833333333332e-05,
1241
+ "loss": 0.1512,
1242
  "step": 4275
1243
  },
1244
  {
1245
  "epoch": 0.43,
1246
+ "grad_norm": 4.805422306060791,
1247
  "learning_rate": 2.3766666666666664e-05,
1248
+ "loss": 0.2212,
1249
  "step": 4300
1250
  },
1251
  {
1252
  "epoch": 0.4325,
1253
+ "grad_norm": 4.867978572845459,
1254
  "learning_rate": 2.36625e-05,
1255
+ "loss": 0.2005,
1256
  "step": 4325
1257
  },
1258
  {
1259
  "epoch": 0.435,
1260
+ "grad_norm": 3.448626756668091,
1261
  "learning_rate": 2.355833333333333e-05,
1262
+ "loss": 0.2085,
1263
  "step": 4350
1264
  },
1265
  {
1266
  "epoch": 0.4375,
1267
+ "grad_norm": 2.675185441970825,
1268
  "learning_rate": 2.3454166666666666e-05,
1269
+ "loss": 0.1263,
1270
  "step": 4375
1271
  },
1272
  {
1273
  "epoch": 0.44,
1274
+ "grad_norm": 3.467017412185669,
1275
  "learning_rate": 2.335e-05,
1276
+ "loss": 0.1122,
1277
  "step": 4400
1278
  },
1279
  {
1280
  "epoch": 0.4425,
1281
+ "grad_norm": 3.4933815002441406,
1282
  "learning_rate": 2.3245833333333334e-05,
1283
+ "loss": 0.1266,
1284
  "step": 4425
1285
  },
1286
  {
1287
  "epoch": 0.445,
1288
+ "grad_norm": 3.4990930557250977,
1289
  "learning_rate": 2.3141666666666666e-05,
1290
  "loss": 0.1466,
1291
  "step": 4450
1292
  },
1293
  {
1294
  "epoch": 0.4475,
1295
+ "grad_norm": 3.077288866043091,
1296
  "learning_rate": 2.3037499999999998e-05,
1297
+ "loss": 0.1486,
1298
  "step": 4475
1299
  },
1300
  {
1301
  "epoch": 0.45,
1302
+ "grad_norm": 3.375373363494873,
1303
  "learning_rate": 2.293333333333333e-05,
1304
+ "loss": 0.1391,
1305
  "step": 4500
1306
  },
1307
  {
1308
  "epoch": 0.4525,
1309
+ "grad_norm": 4.026995658874512,
1310
  "learning_rate": 2.2829166666666665e-05,
1311
  "loss": 0.1807,
1312
  "step": 4525
1313
  },
1314
  {
1315
  "epoch": 0.455,
1316
+ "grad_norm": 4.551440238952637,
1317
  "learning_rate": 2.2724999999999997e-05,
1318
+ "loss": 0.2373,
1319
  "step": 4550
1320
  },
1321
  {
1322
  "epoch": 0.4575,
1323
+ "grad_norm": 5.197234153747559,
1324
  "learning_rate": 2.2620833333333332e-05,
1325
+ "loss": 0.2225,
1326
  "step": 4575
1327
  },
1328
  {
1329
  "epoch": 0.46,
1330
+ "grad_norm": 4.593672752380371,
1331
  "learning_rate": 2.2516666666666664e-05,
1332
+ "loss": 0.2394,
1333
  "step": 4600
1334
  },
1335
  {
1336
  "epoch": 0.4625,
1337
+ "grad_norm": 4.616493225097656,
1338
  "learning_rate": 2.24125e-05,
1339
+ "loss": 0.2431,
1340
  "step": 4625
1341
  },
1342
  {
1343
  "epoch": 0.465,
1344
+ "grad_norm": 5.233091831207275,
1345
  "learning_rate": 2.230833333333333e-05,
1346
+ "loss": 0.2357,
1347
  "step": 4650
1348
  },
1349
  {
1350
  "epoch": 0.4675,
1351
+ "grad_norm": 4.357009410858154,
1352
  "learning_rate": 2.2204166666666667e-05,
1353
+ "loss": 0.2041,
1354
  "step": 4675
1355
  },
1356
  {
1357
  "epoch": 0.47,
1358
+ "grad_norm": 3.481781482696533,
1359
  "learning_rate": 2.21e-05,
1360
+ "loss": 0.1817,
1361
  "step": 4700
1362
  },
1363
  {
1364
  "epoch": 0.4725,
1365
+ "grad_norm": 4.179861545562744,
1366
  "learning_rate": 2.1995833333333334e-05,
1367
  "loss": 0.1953,
1368
  "step": 4725
1369
  },
1370
  {
1371
  "epoch": 0.475,
1372
+ "grad_norm": 3.9264073371887207,
1373
  "learning_rate": 2.1891666666666662e-05,
1374
+ "loss": 0.1927,
1375
  "step": 4750
1376
  },
1377
  {
1378
  "epoch": 0.4775,
1379
+ "grad_norm": 3.4452853202819824,
1380
  "learning_rate": 2.1787499999999998e-05,
1381
+ "loss": 0.1443,
1382
  "step": 4775
1383
  },
1384
  {
1385
  "epoch": 0.48,
1386
+ "grad_norm": 2.9945247173309326,
1387
  "learning_rate": 2.168333333333333e-05,
1388
+ "loss": 0.1587,
1389
  "step": 4800
1390
  },
1391
  {
1392
  "epoch": 0.4825,
1393
+ "grad_norm": 3.666703701019287,
1394
  "learning_rate": 2.1579166666666665e-05,
1395
+ "loss": 0.1314,
1396
  "step": 4825
1397
  },
1398
  {
1399
  "epoch": 0.485,
1400
+ "grad_norm": 3.7032406330108643,
1401
  "learning_rate": 2.1474999999999997e-05,
1402
+ "loss": 0.1524,
1403
  "step": 4850
1404
  },
1405
  {
1406
  "epoch": 0.4875,
1407
+ "grad_norm": 3.9737789630889893,
1408
  "learning_rate": 2.1370833333333332e-05,
1409
+ "loss": 0.1605,
1410
  "step": 4875
1411
  },
1412
  {
1413
  "epoch": 0.49,
1414
+ "grad_norm": 4.30121374130249,
1415
  "learning_rate": 2.1266666666666664e-05,
1416
  "loss": 0.1834,
1417
  "step": 4900
1418
  },
1419
  {
1420
  "epoch": 0.4925,
1421
+ "grad_norm": 3.051647424697876,
1422
  "learning_rate": 2.11625e-05,
1423
+ "loss": 0.1651,
1424
  "step": 4925
1425
  },
1426
  {
1427
  "epoch": 0.495,
1428
+ "grad_norm": 3.1889472007751465,
1429
  "learning_rate": 2.105833333333333e-05,
1430
+ "loss": 0.1392,
1431
  "step": 4950
1432
  },
1433
  {
1434
  "epoch": 0.4975,
1435
+ "grad_norm": 3.226409912109375,
1436
  "learning_rate": 2.0954166666666667e-05,
1437
+ "loss": 0.1286,
1438
  "step": 4975
1439
  },
1440
  {
1441
  "epoch": 0.5,
1442
+ "grad_norm": 3.729316234588623,
1443
  "learning_rate": 2.085e-05,
1444
+ "loss": 0.132,
1445
  "step": 5000
1446
  },
1447
  {
1448
  "epoch": 0.5,
1449
+ "eval_loss": 0.45741865038871765,
1450
+ "eval_runtime": 38.6756,
1451
+ "eval_samples_per_second": 43.723,
1452
+ "eval_steps_per_second": 2.741,
1453
+ "eval_wer": 19.014612214312475,
1454
  "step": 5000
1455
  },
1456
  {
1457
  "epoch": 0.5025,
1458
+ "grad_norm": 3.4599833488464355,
1459
  "learning_rate": 2.074583333333333e-05,
1460
+ "loss": 0.1868,
1461
  "step": 5025
1462
  },
1463
  {
1464
  "epoch": 0.505,
1465
+ "grad_norm": 3.7839012145996094,
1466
  "learning_rate": 2.0641666666666662e-05,
1467
+ "loss": 0.1635,
1468
  "step": 5050
1469
  },
1470
  {
1471
  "epoch": 0.5075,
1472
+ "grad_norm": 4.264291286468506,
1473
  "learning_rate": 2.0537499999999998e-05,
1474
+ "loss": 0.2522,
1475
  "step": 5075
1476
  },
1477
  {
1478
  "epoch": 0.51,
1479
+ "grad_norm": 4.526363849639893,
1480
  "learning_rate": 2.043333333333333e-05,
1481
+ "loss": 0.2296,
1482
  "step": 5100
1483
  },
1484
  {
1485
  "epoch": 0.5125,
1486
+ "grad_norm": 4.191585063934326,
1487
  "learning_rate": 2.0329166666666665e-05,
1488
+ "loss": 0.1969,
1489
  "step": 5125
1490
  },
1491
  {
1492
  "epoch": 0.515,
1493
+ "grad_norm": 5.047796249389648,
1494
  "learning_rate": 2.0224999999999997e-05,
1495
+ "loss": 0.204,
1496
  "step": 5150
1497
  },
1498
  {
1499
  "epoch": 0.5175,
1500
+ "grad_norm": 2.665344476699829,
1501
  "learning_rate": 2.0120833333333332e-05,
1502
+ "loss": 0.1704,
1503
  "step": 5175
1504
  },
1505
  {
1506
  "epoch": 0.52,
1507
+ "grad_norm": 2.922651529312134,
1508
  "learning_rate": 2.0016666666666664e-05,
1509
+ "loss": 0.117,
1510
  "step": 5200
1511
  },
1512
  {
1513
  "epoch": 0.5225,
1514
+ "grad_norm": 2.9956483840942383,
1515
  "learning_rate": 1.99125e-05,
1516
+ "loss": 0.123,
1517
  "step": 5225
1518
  },
1519
  {
1520
  "epoch": 0.525,
1521
+ "grad_norm": 2.745727777481079,
1522
  "learning_rate": 1.980833333333333e-05,
1523
+ "loss": 0.1223,
1524
  "step": 5250
1525
  },
1526
  {
1527
  "epoch": 0.5275,
1528
+ "grad_norm": 2.3079681396484375,
1529
  "learning_rate": 1.9704166666666667e-05,
1530
+ "loss": 0.1229,
1531
  "step": 5275
1532
  },
1533
  {
1534
  "epoch": 0.53,
1535
+ "grad_norm": 3.4931304454803467,
1536
  "learning_rate": 1.9599999999999995e-05,
1537
  "loss": 0.1287,
1538
  "step": 5300
1539
  },
1540
  {
1541
  "epoch": 0.5325,
1542
+ "grad_norm": 3.3155760765075684,
1543
  "learning_rate": 1.949583333333333e-05,
1544
+ "loss": 0.1284,
1545
  "step": 5325
1546
  },
1547
  {
1548
  "epoch": 0.535,
1549
+ "grad_norm": 4.483437538146973,
1550
  "learning_rate": 1.9391666666666663e-05,
1551
+ "loss": 0.1695,
1552
  "step": 5350
1553
  },
1554
  {
1555
  "epoch": 0.5375,
1556
+ "grad_norm": 4.182435512542725,
1557
  "learning_rate": 1.9287499999999998e-05,
1558
+ "loss": 0.2029,
1559
  "step": 5375
1560
  },
1561
  {
1562
  "epoch": 0.54,
1563
+ "grad_norm": 3.4684391021728516,
1564
  "learning_rate": 1.918333333333333e-05,
1565
+ "loss": 0.1907,
1566
  "step": 5400
1567
  },
1568
  {
1569
  "epoch": 0.5425,
1570
+ "grad_norm": 4.1064019203186035,
1571
  "learning_rate": 1.9079166666666665e-05,
1572
+ "loss": 0.1847,
1573
  "step": 5425
1574
  },
1575
  {
1576
  "epoch": 0.545,
1577
+ "grad_norm": 3.6676344871520996,
1578
  "learning_rate": 1.8974999999999997e-05,
1579
+ "loss": 0.1644,
1580
  "step": 5450
1581
  },
1582
  {
1583
  "epoch": 0.5475,
1584
+ "grad_norm": 3.6105685234069824,
1585
  "learning_rate": 1.8870833333333332e-05,
1586
+ "loss": 0.1368,
1587
  "step": 5475
1588
  },
1589
  {
1590
  "epoch": 0.55,
1591
+ "grad_norm": 3.2299535274505615,
1592
  "learning_rate": 1.8766666666666664e-05,
1593
+ "loss": 0.138,
1594
  "step": 5500
1595
  },
1596
  {
1597
  "epoch": 0.5525,
1598
+ "grad_norm": 5.327032566070557,
1599
  "learning_rate": 1.8662499999999996e-05,
1600
+ "loss": 0.1786,
1601
  "step": 5525
1602
  },
1603
  {
1604
  "epoch": 0.555,
1605
+ "grad_norm": 4.6841583251953125,
1606
  "learning_rate": 1.855833333333333e-05,
1607
+ "loss": 0.2034,
1608
  "step": 5550
1609
  },
1610
  {
1611
  "epoch": 0.5575,
1612
+ "grad_norm": 4.341950416564941,
1613
  "learning_rate": 1.8454166666666663e-05,
1614
+ "loss": 0.1611,
1615
  "step": 5575
1616
  },
1617
  {
1618
  "epoch": 0.56,
1619
+ "grad_norm": 2.254387378692627,
1620
  "learning_rate": 1.835e-05,
1621
+ "loss": 0.1087,
1622
  "step": 5600
1623
  },
1624
  {
1625
  "epoch": 0.5625,
1626
+ "grad_norm": 3.0610556602478027,
1627
  "learning_rate": 1.8245833333333334e-05,
1628
+ "loss": 0.0877,
1629
  "step": 5625
1630
  },
1631
  {
1632
  "epoch": 0.565,
1633
+ "grad_norm": 2.6597042083740234,
1634
  "learning_rate": 1.8141666666666663e-05,
1635
+ "loss": 0.0893,
1636
  "step": 5650
1637
  },
1638
  {
1639
  "epoch": 0.5675,
1640
+ "grad_norm": 2.638615369796753,
1641
  "learning_rate": 1.8037499999999998e-05,
1642
+ "loss": 0.1155,
1643
  "step": 5675
1644
  },
1645
  {
1646
  "epoch": 0.57,
1647
+ "grad_norm": 3.690338373184204,
1648
  "learning_rate": 1.793333333333333e-05,
1649
+ "loss": 0.1252,
1650
  "step": 5700
1651
  },
1652
  {
1653
  "epoch": 0.5725,
1654
+ "grad_norm": 2.847730875015259,
1655
  "learning_rate": 1.7829166666666665e-05,
1656
+ "loss": 0.1228,
1657
  "step": 5725
1658
  },
1659
  {
1660
  "epoch": 0.575,
1661
+ "grad_norm": 2.7520906925201416,
1662
  "learning_rate": 1.7725e-05,
1663
+ "loss": 0.1162,
1664
  "step": 5750
1665
  },
1666
  {
1667
  "epoch": 0.5775,
1668
+ "grad_norm": 2.643385648727417,
1669
  "learning_rate": 1.7620833333333332e-05,
1670
+ "loss": 0.1168,
1671
  "step": 5775
1672
  },
1673
  {
1674
  "epoch": 0.58,
1675
+ "grad_norm": 2.70414400100708,
1676
  "learning_rate": 1.7516666666666664e-05,
1677
+ "loss": 0.1092,
1678
  "step": 5800
1679
  },
1680
  {
1681
  "epoch": 0.5825,
1682
+ "grad_norm": 2.194267988204956,
1683
  "learning_rate": 1.7412499999999996e-05,
1684
+ "loss": 0.0949,
1685
  "step": 5825
1686
  },
1687
  {
1688
  "epoch": 0.585,
1689
+ "grad_norm": 3.784864902496338,
1690
  "learning_rate": 1.730833333333333e-05,
1691
+ "loss": 0.1041,
1692
  "step": 5850
1693
  },
1694
  {
1695
  "epoch": 0.5875,
1696
+ "grad_norm": 3.313042402267456,
1697
  "learning_rate": 1.7204166666666667e-05,
1698
+ "loss": 0.1105,
1699
  "step": 5875
1700
  },
1701
  {
1702
  "epoch": 0.59,
1703
+ "grad_norm": 3.7411179542541504,
1704
  "learning_rate": 1.71e-05,
1705
+ "loss": 0.1396,
1706
  "step": 5900
1707
  },
1708
  {
1709
  "epoch": 0.5925,
1710
+ "grad_norm": 5.693575859069824,
1711
  "learning_rate": 1.6995833333333334e-05,
1712
  "loss": 0.2024,
1713
  "step": 5925
1714
  },
1715
  {
1716
  "epoch": 0.595,
1717
+ "grad_norm": 3.940126419067383,
1718
  "learning_rate": 1.6891666666666663e-05,
1719
+ "loss": 0.1936,
1720
  "step": 5950
1721
  },
1722
  {
1723
  "epoch": 0.5975,
1724
+ "grad_norm": 4.423816680908203,
1725
  "learning_rate": 1.6787499999999998e-05,
1726
+ "loss": 0.1702,
1727
  "step": 5975
1728
  },
1729
  {
1730
  "epoch": 0.6,
1731
+ "grad_norm": 3.7899911403656006,
1732
  "learning_rate": 1.6683333333333333e-05,
1733
+ "loss": 0.1588,
1734
  "step": 6000
1735
  },
1736
  {
1737
  "epoch": 0.6,
1738
+ "eval_loss": 0.4380021393299103,
1739
+ "eval_runtime": 37.918,
1740
+ "eval_samples_per_second": 44.596,
1741
+ "eval_steps_per_second": 2.796,
1742
+ "eval_wer": 17.821905832396652,
1743
  "step": 6000
1744
  },
1745
  {
1746
  "epoch": 0.6025,
1747
+ "grad_norm": 3.4838547706604004,
1748
  "learning_rate": 1.6579166666666665e-05,
1749
+ "loss": 0.1486,
1750
  "step": 6025
1751
  },
1752
  {
1753
  "epoch": 0.605,
1754
+ "grad_norm": 3.3172895908355713,
1755
  "learning_rate": 1.6475e-05,
1756
+ "loss": 0.1349,
1757
  "step": 6050
1758
  },
1759
  {
1760
  "epoch": 0.6075,
1761
+ "grad_norm": 2.6951234340667725,
1762
  "learning_rate": 1.6370833333333333e-05,
1763
+ "loss": 0.1201,
1764
  "step": 6075
1765
  },
1766
  {
1767
  "epoch": 0.61,
1768
+ "grad_norm": 2.4754366874694824,
1769
  "learning_rate": 1.6266666666666665e-05,
1770
+ "loss": 0.1109,
1771
  "step": 6100
1772
  },
1773
  {
1774
  "epoch": 0.6125,
1775
+ "grad_norm": 3.2808432579040527,
1776
  "learning_rate": 1.61625e-05,
1777
+ "loss": 0.115,
1778
  "step": 6125
1779
  },
1780
  {
1781
  "epoch": 0.615,
1782
+ "grad_norm": 3.401995897293091,
1783
  "learning_rate": 1.6058333333333332e-05,
1784
+ "loss": 0.1293,
1785
  "step": 6150
1786
  },
1787
  {
1788
  "epoch": 0.6175,
1789
+ "grad_norm": 3.313483476638794,
1790
  "learning_rate": 1.5954166666666667e-05,
1791
+ "loss": 0.1285,
1792
  "step": 6175
1793
  },
1794
  {
1795
  "epoch": 0.62,
1796
+ "grad_norm": 4.194374084472656,
1797
  "learning_rate": 1.585e-05,
1798
+ "loss": 0.129,
1799
  "step": 6200
1800
  },
1801
  {
1802
  "epoch": 0.6225,
1803
+ "grad_norm": 3.408337354660034,
1804
  "learning_rate": 1.574583333333333e-05,
1805
+ "loss": 0.1212,
1806
  "step": 6225
1807
  },
1808
  {
1809
  "epoch": 0.625,
1810
+ "grad_norm": 3.5416505336761475,
1811
  "learning_rate": 1.5641666666666666e-05,
1812
+ "loss": 0.1146,
1813
  "step": 6250
1814
  },
1815
  {
1816
  "epoch": 0.6275,
1817
+ "grad_norm": 3.736720561981201,
1818
  "learning_rate": 1.5537499999999998e-05,
1819
+ "loss": 0.133,
1820
  "step": 6275
1821
  },
1822
  {
1823
  "epoch": 0.63,
1824
+ "grad_norm": 4.025073051452637,
1825
  "learning_rate": 1.5433333333333334e-05,
1826
+ "loss": 0.1445,
1827
  "step": 6300
1828
  },
1829
  {
1830
  "epoch": 0.6325,
1831
+ "grad_norm": 3.1371307373046875,
1832
  "learning_rate": 1.5329166666666665e-05,
1833
+ "loss": 0.1943,
1834
  "step": 6325
1835
  },
1836
  {
1837
  "epoch": 0.635,
1838
+ "grad_norm": 3.793010711669922,
1839
  "learning_rate": 1.5224999999999999e-05,
1840
+ "loss": 0.176,
1841
  "step": 6350
1842
  },
1843
  {
1844
  "epoch": 0.6375,
1845
+ "grad_norm": 3.112964630126953,
1846
  "learning_rate": 1.5120833333333331e-05,
1847
+ "loss": 0.1647,
1848
  "step": 6375
1849
  },
1850
  {
1851
  "epoch": 0.64,
1852
+ "grad_norm": 2.877613067626953,
1853
  "learning_rate": 1.5016666666666665e-05,
1854
+ "loss": 0.1252,
1855
  "step": 6400
1856
  },
1857
  {
1858
  "epoch": 0.6425,
1859
+ "grad_norm": 2.556334972381592,
1860
  "learning_rate": 1.4912499999999998e-05,
1861
+ "loss": 0.1137,
1862
  "step": 6425
1863
  },
1864
  {
1865
  "epoch": 0.645,
1866
+ "grad_norm": 5.248802661895752,
1867
  "learning_rate": 1.4808333333333332e-05,
1868
+ "loss": 0.1087,
1869
  "step": 6450
1870
  },
1871
  {
1872
  "epoch": 0.6475,
1873
+ "grad_norm": 3.568530321121216,
1874
  "learning_rate": 1.4704166666666666e-05,
1875
+ "loss": 0.1548,
1876
  "step": 6475
1877
  },
1878
  {
1879
  "epoch": 0.65,
1880
+ "grad_norm": 3.2436602115631104,
1881
  "learning_rate": 1.4599999999999997e-05,
1882
+ "loss": 0.1494,
1883
  "step": 6500
1884
  },
1885
  {
1886
  "epoch": 0.6525,
1887
+ "grad_norm": 5.127964019775391,
1888
  "learning_rate": 1.4495833333333331e-05,
1889
+ "loss": 0.1935,
1890
  "step": 6525
1891
  },
1892
  {
1893
  "epoch": 0.655,
1894
+ "grad_norm": 3.848689079284668,
1895
  "learning_rate": 1.4391666666666665e-05,
1896
+ "loss": 0.1781,
1897
  "step": 6550
1898
  },
1899
  {
1900
  "epoch": 0.6575,
1901
+ "grad_norm": 3.3769173622131348,
1902
  "learning_rate": 1.4287499999999998e-05,
1903
+ "loss": 0.178,
1904
  "step": 6575
1905
  },
1906
  {
1907
  "epoch": 0.66,
1908
+ "grad_norm": 3.279507875442505,
1909
  "learning_rate": 1.4183333333333332e-05,
1910
+ "loss": 0.1559,
1911
  "step": 6600
1912
  },
1913
  {
1914
  "epoch": 0.6625,
1915
+ "grad_norm": 4.212521553039551,
1916
  "learning_rate": 1.4079166666666666e-05,
1917
+ "loss": 0.1667,
1918
  "step": 6625
1919
  },
1920
  {
1921
  "epoch": 0.665,
1922
+ "grad_norm": 3.3866727352142334,
1923
  "learning_rate": 1.3974999999999997e-05,
1924
+ "loss": 0.1966,
1925
  "step": 6650
1926
  },
1927
  {
1928
  "epoch": 0.6675,
1929
+ "grad_norm": 3.52656888961792,
1930
  "learning_rate": 1.3870833333333331e-05,
1931
+ "loss": 0.1675,
1932
  "step": 6675
1933
  },
1934
  {
1935
  "epoch": 0.67,
1936
+ "grad_norm": 2.9528002738952637,
1937
  "learning_rate": 1.3766666666666665e-05,
1938
+ "loss": 0.1612,
1939
  "step": 6700
1940
  },
1941
  {
1942
  "epoch": 0.6725,
1943
+ "grad_norm": 3.4069855213165283,
1944
  "learning_rate": 1.3662499999999998e-05,
1945
+ "loss": 0.1162,
1946
  "step": 6725
1947
  },
1948
  {
1949
  "epoch": 0.675,
1950
+ "grad_norm": 3.048247814178467,
1951
  "learning_rate": 1.3558333333333334e-05,
1952
  "loss": 0.105,
1953
  "step": 6750
1954
  },
1955
  {
1956
  "epoch": 0.6775,
1957
+ "grad_norm": 3.930851459503174,
1958
  "learning_rate": 1.3454166666666664e-05,
1959
+ "loss": 0.1272,
1960
  "step": 6775
1961
  },
1962
  {
1963
  "epoch": 0.68,
1964
+ "grad_norm": 4.210860729217529,
1965
  "learning_rate": 1.3349999999999998e-05,
1966
+ "loss": 0.2174,
1967
  "step": 6800
1968
  },
1969
  {
1970
  "epoch": 0.6825,
1971
+ "grad_norm": 6.0455498695373535,
1972
  "learning_rate": 1.3245833333333331e-05,
1973
+ "loss": 0.194,
1974
  "step": 6825
1975
  },
1976
  {
1977
  "epoch": 0.685,
1978
+ "grad_norm": 5.270689487457275,
1979
  "learning_rate": 1.3141666666666665e-05,
1980
+ "loss": 0.2003,
1981
  "step": 6850
1982
  },
1983
  {
1984
  "epoch": 0.6875,
1985
+ "grad_norm": 4.297138690948486,
1986
  "learning_rate": 1.30375e-05,
1987
+ "loss": 0.1923,
1988
  "step": 6875
1989
  },
1990
  {
1991
  "epoch": 0.69,
1992
+ "grad_norm": 4.304157257080078,
1993
  "learning_rate": 1.2933333333333334e-05,
1994
+ "loss": 0.1884,
1995
  "step": 6900
1996
  },
1997
  {
1998
  "epoch": 0.6925,
1999
+ "grad_norm": 3.3254096508026123,
2000
  "learning_rate": 1.2829166666666664e-05,
2001
+ "loss": 0.1713,
2002
  "step": 6925
2003
  },
2004
  {
2005
  "epoch": 0.695,
2006
+ "grad_norm": 4.185650825500488,
2007
  "learning_rate": 1.2724999999999998e-05,
2008
+ "loss": 0.1756,
2009
  "step": 6950
2010
  },
2011
  {
2012
  "epoch": 0.6975,
2013
+ "grad_norm": 4.220348358154297,
2014
  "learning_rate": 1.2620833333333333e-05,
2015
+ "loss": 0.1958,
2016
  "step": 6975
2017
  },
2018
  {
2019
  "epoch": 0.7,
2020
+ "grad_norm": 4.203312873840332,
2021
  "learning_rate": 1.2516666666666667e-05,
2022
+ "loss": 0.1841,
2023
  "step": 7000
2024
  },
2025
  {
2026
  "epoch": 0.7,
2027
+ "eval_loss": 0.4394695460796356,
2028
+ "eval_runtime": 37.5658,
2029
+ "eval_samples_per_second": 45.014,
2030
+ "eval_steps_per_second": 2.822,
2031
+ "eval_wer": 16.666666666666664,
2032
  "step": 7000
2033
  },
2034
  {
2035
  "epoch": 0.7025,
2036
+ "grad_norm": 6.67822265625,
2037
  "learning_rate": 1.2416666666666666e-05,
2038
+ "loss": 0.3408,
2039
  "step": 7025
2040
  },
2041
  {
2042
  "epoch": 0.705,
2043
+ "grad_norm": 8.843494415283203,
2044
  "learning_rate": 1.2312499999999998e-05,
2045
+ "loss": 0.6013,
2046
  "step": 7050
2047
  },
2048
  {
2049
  "epoch": 0.7075,
2050
+ "grad_norm": 5.624876499176025,
2051
  "learning_rate": 1.2208333333333331e-05,
2052
+ "loss": 0.5257,
2053
  "step": 7075
2054
  },
2055
  {
2056
  "epoch": 0.71,
2057
+ "grad_norm": 4.507925987243652,
2058
  "learning_rate": 1.2104166666666665e-05,
2059
+ "loss": 0.4356,
2060
  "step": 7100
2061
  },
2062
  {
2063
  "epoch": 0.7125,
2064
+ "grad_norm": 4.30970573425293,
2065
  "learning_rate": 1.1999999999999999e-05,
2066
+ "loss": 0.2381,
2067
  "step": 7125
2068
  },
2069
  {
2070
  "epoch": 0.715,
2071
+ "grad_norm": 5.139924049377441,
2072
  "learning_rate": 1.1895833333333332e-05,
2073
+ "loss": 0.185,
2074
  "step": 7150
2075
  },
2076
  {
2077
  "epoch": 0.7175,
2078
+ "grad_norm": 2.9631428718566895,
2079
  "learning_rate": 1.1791666666666666e-05,
2080
+ "loss": 0.17,
2081
  "step": 7175
2082
  },
2083
  {
2084
  "epoch": 0.72,
2085
+ "grad_norm": 3.6727359294891357,
2086
  "learning_rate": 1.1687499999999998e-05,
2087
+ "loss": 0.1323,
2088
  "step": 7200
2089
  },
2090
  {
2091
  "epoch": 0.7225,
2092
+ "grad_norm": 2.7629499435424805,
2093
  "learning_rate": 1.1583333333333331e-05,
2094
+ "loss": 0.128,
2095
  "step": 7225
2096
  },
2097
  {
2098
  "epoch": 0.725,
2099
+ "grad_norm": 3.040910482406616,
2100
  "learning_rate": 1.1479166666666665e-05,
2101
+ "loss": 0.1371,
2102
  "step": 7250
2103
  },
2104
  {
2105
  "epoch": 0.7275,
2106
+ "grad_norm": 2.7423293590545654,
2107
  "learning_rate": 1.1374999999999999e-05,
2108
+ "loss": 0.1128,
2109
  "step": 7275
2110
  },
2111
  {
2112
  "epoch": 0.73,
2113
+ "grad_norm": 2.2156248092651367,
2114
  "learning_rate": 1.1270833333333332e-05,
2115
+ "loss": 0.0964,
2116
  "step": 7300
2117
  },
2118
  {
2119
  "epoch": 0.7325,
2120
+ "grad_norm": 2.783275604248047,
2121
  "learning_rate": 1.1166666666666664e-05,
2122
+ "loss": 0.101,
2123
  "step": 7325
2124
  },
2125
  {
2126
  "epoch": 0.735,
2127
+ "grad_norm": 4.380770206451416,
2128
  "learning_rate": 1.1062499999999998e-05,
2129
+ "loss": 0.132,
2130
  "step": 7350
2131
  },
2132
  {
2133
  "epoch": 0.7375,
2134
+ "grad_norm": 3.904127597808838,
2135
  "learning_rate": 1.0958333333333331e-05,
2136
+ "loss": 0.1807,
2137
  "step": 7375
2138
  },
2139
  {
2140
  "epoch": 0.74,
2141
+ "grad_norm": 5.420929431915283,
2142
  "learning_rate": 1.0854166666666665e-05,
2143
+ "loss": 0.1436,
2144
  "step": 7400
2145
  },
2146
  {
2147
  "epoch": 0.7425,
2148
+ "grad_norm": 2.929569721221924,
2149
  "learning_rate": 1.075e-05,
2150
+ "loss": 0.1648,
2151
  "step": 7425
2152
  },
2153
  {
2154
  "epoch": 0.745,
2155
+ "grad_norm": 3.0535011291503906,
2156
  "learning_rate": 1.0645833333333334e-05,
2157
+ "loss": 0.1166,
2158
  "step": 7450
2159
  },
2160
  {
2161
  "epoch": 0.7475,
2162
+ "grad_norm": 2.630368232727051,
2163
  "learning_rate": 1.0541666666666664e-05,
2164
+ "loss": 0.1081,
2165
  "step": 7475
2166
  },
2167
  {
2168
  "epoch": 0.75,
2169
+ "grad_norm": 4.1855621337890625,
2170
  "learning_rate": 1.0437499999999998e-05,
2171
+ "loss": 0.1033,
2172
  "step": 7500
2173
  },
2174
  {
2175
  "epoch": 0.7525,
2176
+ "grad_norm": 4.28782844543457,
2177
  "learning_rate": 1.0333333333333332e-05,
2178
+ "loss": 0.2037,
2179
  "step": 7525
2180
  },
2181
  {
2182
  "epoch": 0.755,
2183
+ "grad_norm": 5.351161956787109,
2184
  "learning_rate": 1.0229166666666667e-05,
2185
+ "loss": 0.2651,
2186
  "step": 7550
2187
  },
2188
  {
2189
  "epoch": 0.7575,
2190
+ "grad_norm": 5.073176383972168,
2191
  "learning_rate": 1.0125e-05,
2192
+ "loss": 0.2933,
2193
  "step": 7575
2194
  },
2195
  {
2196
  "epoch": 0.76,
2197
+ "grad_norm": 2.562958002090454,
2198
  "learning_rate": 1.0020833333333334e-05,
2199
+ "loss": 0.1829,
2200
  "step": 7600
2201
  },
2202
  {
2203
  "epoch": 0.7625,
2204
+ "grad_norm": 4.164181709289551,
2205
  "learning_rate": 9.916666666666664e-06,
2206
+ "loss": 0.1309,
2207
  "step": 7625
2208
  },
2209
  {
2210
  "epoch": 0.765,
2211
+ "grad_norm": 2.616945743560791,
2212
  "learning_rate": 9.8125e-06,
2213
+ "loss": 0.1077,
2214
  "step": 7650
2215
  },
2216
  {
2217
  "epoch": 0.7675,
2218
+ "grad_norm": 4.083223342895508,
2219
  "learning_rate": 9.708333333333333e-06,
2220
+ "loss": 0.1442,
2221
  "step": 7675
2222
  },
2223
  {
2224
  "epoch": 0.77,
2225
+ "grad_norm": 4.046257972717285,
2226
  "learning_rate": 9.604166666666667e-06,
2227
+ "loss": 0.1725,
2228
  "step": 7700
2229
  },
2230
  {
2231
  "epoch": 0.7725,
2232
+ "grad_norm": 4.065029621124268,
2233
  "learning_rate": 9.5e-06,
2234
+ "loss": 0.1833,
2235
  "step": 7725
2236
  },
2237
  {
2238
  "epoch": 0.775,
2239
+ "grad_norm": 3.321071147918701,
2240
  "learning_rate": 9.39583333333333e-06,
2241
  "loss": 0.1671,
2242
  "step": 7750
2243
  },
2244
  {
2245
  "epoch": 0.7775,
2246
+ "grad_norm": 3.388200044631958,
2247
  "learning_rate": 9.291666666666666e-06,
2248
+ "loss": 0.1196,
2249
  "step": 7775
2250
  },
2251
  {
2252
  "epoch": 0.78,
2253
+ "grad_norm": 4.393247604370117,
2254
  "learning_rate": 9.1875e-06,
2255
+ "loss": 0.1399,
2256
  "step": 7800
2257
  },
2258
  {
2259
  "epoch": 0.7825,
2260
+ "grad_norm": 3.463327646255493,
2261
  "learning_rate": 9.083333333333333e-06,
2262
+ "loss": 0.3125,
2263
  "step": 7825
2264
  },
2265
  {
2266
  "epoch": 0.785,
2267
+ "grad_norm": 2.6306939125061035,
2268
  "learning_rate": 8.979166666666665e-06,
2269
+ "loss": 0.153,
2270
  "step": 7850
2271
  },
2272
  {
2273
  "epoch": 0.7875,
2274
+ "grad_norm": 2.3278794288635254,
2275
  "learning_rate": 8.874999999999999e-06,
2276
+ "loss": 0.1141,
2277
  "step": 7875
2278
  },
2279
  {
2280
  "epoch": 0.79,
2281
+ "grad_norm": 2.850830554962158,
2282
  "learning_rate": 8.770833333333333e-06,
2283
+ "loss": 0.1096,
2284
  "step": 7900
2285
  },
2286
  {
2287
  "epoch": 0.7925,
2288
+ "grad_norm": 2.4107863903045654,
2289
  "learning_rate": 8.666666666666666e-06,
2290
+ "loss": 0.1117,
2291
  "step": 7925
2292
  },
2293
  {
2294
  "epoch": 0.795,
2295
+ "grad_norm": 3.420828104019165,
2296
  "learning_rate": 8.5625e-06,
2297
+ "loss": 0.1071,
2298
  "step": 7950
2299
  },
2300
  {
2301
  "epoch": 0.7975,
2302
+ "grad_norm": 3.005918025970459,
2303
  "learning_rate": 8.458333333333333e-06,
2304
+ "loss": 0.1146,
2305
  "step": 7975
2306
  },
2307
  {
2308
  "epoch": 0.8,
2309
+ "grad_norm": 3.3296029567718506,
2310
  "learning_rate": 8.354166666666665e-06,
2311
+ "loss": 0.143,
2312
  "step": 8000
2313
  },
2314
  {
2315
  "epoch": 0.8,
2316
+ "eval_loss": 0.3718983232975006,
2317
+ "eval_runtime": 38.8288,
2318
+ "eval_samples_per_second": 43.55,
2319
+ "eval_steps_per_second": 2.73,
2320
+ "eval_wer": 15.448982140626951,
2321
  "step": 8000
2322
  },
2323
  {
2324
  "epoch": 0.8025,
2325
+ "grad_norm": 4.029442310333252,
2326
  "learning_rate": 8.249999999999999e-06,
2327
+ "loss": 0.1663,
2328
  "step": 8025
2329
  },
2330
  {
2331
  "epoch": 0.805,
2332
+ "grad_norm": 3.7387983798980713,
2333
  "learning_rate": 8.145833333333333e-06,
2334
+ "loss": 0.1808,
2335
  "step": 8050
2336
  },
2337
  {
2338
  "epoch": 0.8075,
2339
+ "grad_norm": 3.0396807193756104,
2340
  "learning_rate": 8.041666666666666e-06,
2341
+ "loss": 0.1351,
2342
  "step": 8075
2343
  },
2344
  {
2345
  "epoch": 0.81,
2346
+ "grad_norm": 2.9825220108032227,
2347
  "learning_rate": 7.9375e-06,
2348
+ "loss": 0.1215,
2349
  "step": 8100
2350
  },
2351
  {
2352
  "epoch": 0.8125,
2353
+ "grad_norm": 2.495398998260498,
2354
  "learning_rate": 7.833333333333333e-06,
2355
+ "loss": 0.1054,
2356
  "step": 8125
2357
  },
2358
  {
2359
  "epoch": 0.815,
2360
+ "grad_norm": 3.750054121017456,
2361
  "learning_rate": 7.729166666666665e-06,
2362
+ "loss": 0.1049,
2363
  "step": 8150
2364
  },
2365
  {
2366
  "epoch": 0.8175,
2367
+ "grad_norm": 2.1268110275268555,
2368
  "learning_rate": 7.625e-06,
2369
+ "loss": 0.0932,
2370
  "step": 8175
2371
  },
2372
  {
2373
  "epoch": 0.82,
2374
+ "grad_norm": 3.2984964847564697,
2375
  "learning_rate": 7.520833333333332e-06,
2376
+ "loss": 0.0759,
2377
  "step": 8200
2378
  },
2379
  {
2380
  "epoch": 0.8225,
2381
+ "grad_norm": 2.470698356628418,
2382
  "learning_rate": 7.416666666666666e-06,
2383
+ "loss": 0.0983,
2384
  "step": 8225
2385
  },
2386
  {
2387
  "epoch": 0.825,
2388
+ "grad_norm": 3.2774899005889893,
2389
  "learning_rate": 7.3125e-06,
2390
+ "loss": 0.085,
2391
  "step": 8250
2392
  },
2393
  {
2394
  "epoch": 0.8275,
2395
+ "grad_norm": 2.46321177482605,
2396
  "learning_rate": 7.208333333333333e-06,
2397
+ "loss": 0.0916,
2398
  "step": 8275
2399
  },
2400
  {
2401
  "epoch": 0.83,
2402
+ "grad_norm": 2.0468456745147705,
2403
  "learning_rate": 7.104166666666666e-06,
2404
+ "loss": 0.0951,
2405
  "step": 8300
2406
  },
2407
  {
2408
  "epoch": 0.8325,
2409
+ "grad_norm": 3.481823444366455,
2410
  "learning_rate": 7e-06,
2411
+ "loss": 0.1368,
2412
  "step": 8325
2413
  },
2414
  {
2415
  "epoch": 0.835,
2416
+ "grad_norm": 4.122819423675537,
2417
  "learning_rate": 6.895833333333333e-06,
2418
+ "loss": 0.1719,
2419
  "step": 8350
2420
  },
2421
  {
2422
  "epoch": 0.8375,
2423
+ "grad_norm": 4.750814914703369,
2424
  "learning_rate": 6.791666666666666e-06,
2425
+ "loss": 0.2073,
2426
  "step": 8375
2427
  },
2428
  {
2429
  "epoch": 0.84,
2430
+ "grad_norm": 2.771611452102661,
2431
  "learning_rate": 6.6875e-06,
2432
+ "loss": 0.1592,
2433
  "step": 8400
2434
  },
2435
  {
2436
  "epoch": 0.8425,
2437
+ "grad_norm": 4.536616325378418,
2438
  "learning_rate": 6.583333333333333e-06,
2439
+ "loss": 0.1153,
2440
  "step": 8425
2441
  },
2442
  {
2443
  "epoch": 0.845,
2444
+ "grad_norm": 2.6289072036743164,
2445
  "learning_rate": 6.479166666666666e-06,
2446
  "loss": 0.1098,
2447
  "step": 8450
2448
  },
2449
  {
2450
  "epoch": 0.8475,
2451
+ "grad_norm": 3.1746957302093506,
2452
  "learning_rate": 6.375e-06,
2453
+ "loss": 0.1216,
2454
  "step": 8475
2455
  },
2456
  {
2457
  "epoch": 0.85,
2458
+ "grad_norm": 3.029151439666748,
2459
  "learning_rate": 6.270833333333333e-06,
2460
+ "loss": 0.1374,
2461
  "step": 8500
2462
  },
2463
  {
2464
  "epoch": 0.8525,
2465
+ "grad_norm": 3.8162496089935303,
2466
  "learning_rate": 6.166666666666666e-06,
2467
+ "loss": 0.1408,
2468
  "step": 8525
2469
  },
2470
  {
2471
  "epoch": 0.855,
2472
+ "grad_norm": 5.568809509277344,
2473
  "learning_rate": 6.062499999999999e-06,
2474
+ "loss": 0.1948,
2475
  "step": 8550
2476
  },
2477
  {
2478
  "epoch": 0.8575,
2479
+ "grad_norm": 5.649611473083496,
2480
  "learning_rate": 5.958333333333333e-06,
2481
+ "loss": 0.3217,
2482
  "step": 8575
2483
  },
2484
  {
2485
  "epoch": 0.86,
2486
+ "grad_norm": 7.035798072814941,
2487
  "learning_rate": 5.854166666666666e-06,
2488
+ "loss": 0.4378,
2489
  "step": 8600
2490
  },
2491
  {
2492
  "epoch": 0.8625,
2493
+ "grad_norm": 7.135374546051025,
2494
  "learning_rate": 5.749999999999999e-06,
2495
+ "loss": 0.5134,
2496
  "step": 8625
2497
  },
2498
  {
2499
  "epoch": 0.865,
2500
+ "grad_norm": 3.085472345352173,
2501
  "learning_rate": 5.645833333333333e-06,
2502
+ "loss": 0.3075,
2503
  "step": 8650
2504
  },
2505
  {
2506
  "epoch": 0.8675,
2507
+ "grad_norm": 4.60648250579834,
2508
  "learning_rate": 5.541666666666666e-06,
2509
+ "loss": 0.2117,
2510
  "step": 8675
2511
  },
2512
  {
2513
  "epoch": 0.87,
2514
+ "grad_norm": 5.39269495010376,
2515
  "learning_rate": 5.437499999999999e-06,
2516
+ "loss": 0.2447,
2517
  "step": 8700
2518
  },
2519
  {
2520
  "epoch": 0.8725,
2521
+ "grad_norm": 3.4270975589752197,
2522
  "learning_rate": 5.333333333333333e-06,
2523
+ "loss": 0.1657,
2524
  "step": 8725
2525
  },
2526
  {
2527
  "epoch": 0.875,
2528
+ "grad_norm": 2.6738994121551514,
2529
  "learning_rate": 5.2291666666666664e-06,
2530
+ "loss": 0.1087,
2531
  "step": 8750
2532
  },
2533
  {
2534
  "epoch": 0.8775,
2535
+ "grad_norm": 2.7085695266723633,
2536
  "learning_rate": 5.124999999999999e-06,
2537
+ "loss": 0.1076,
2538
  "step": 8775
2539
  },
2540
  {
2541
  "epoch": 0.88,
2542
+ "grad_norm": 3.1228623390197754,
2543
  "learning_rate": 5.020833333333333e-06,
2544
+ "loss": 0.1216,
2545
  "step": 8800
2546
  },
2547
  {
2548
  "epoch": 0.8825,
2549
+ "grad_norm": 5.188724994659424,
2550
  "learning_rate": 4.9166666666666665e-06,
2551
+ "loss": 0.154,
2552
  "step": 8825
2553
  },
2554
  {
2555
  "epoch": 0.885,
2556
+ "grad_norm": 3.700319528579712,
2557
  "learning_rate": 4.812499999999999e-06,
2558
+ "loss": 0.1491,
2559
  "step": 8850
2560
  },
2561
  {
2562
  "epoch": 0.8875,
2563
+ "grad_norm": 3.185534954071045,
2564
  "learning_rate": 4.708333333333333e-06,
2565
+ "loss": 0.1517,
2566
  "step": 8875
2567
  },
2568
  {
2569
  "epoch": 0.89,
2570
+ "grad_norm": 3.0981645584106445,
2571
  "learning_rate": 4.6041666666666665e-06,
2572
+ "loss": 0.1092,
2573
  "step": 8900
2574
  },
2575
  {
2576
  "epoch": 0.8925,
2577
+ "grad_norm": 3.850358247756958,
2578
  "learning_rate": 4.499999999999999e-06,
2579
+ "loss": 0.107,
2580
  "step": 8925
2581
  },
2582
  {
2583
  "epoch": 0.895,
2584
+ "grad_norm": 3.169626235961914,
2585
  "learning_rate": 4.395833333333333e-06,
2586
+ "loss": 0.115,
2587
  "step": 8950
2588
  },
2589
  {
2590
  "epoch": 0.8975,
2591
+ "grad_norm": 2.9183895587921143,
2592
  "learning_rate": 4.2916666666666665e-06,
2593
+ "loss": 0.0914,
2594
  "step": 8975
2595
  },
2596
  {
2597
  "epoch": 0.9,
2598
+ "grad_norm": 2.877211570739746,
2599
  "learning_rate": 4.187499999999999e-06,
2600
+ "loss": 0.0967,
2601
  "step": 9000
2602
  },
2603
  {
2604
  "epoch": 0.9,
2605
+ "eval_loss": 0.3684903383255005,
2606
+ "eval_runtime": 39.0288,
2607
+ "eval_samples_per_second": 43.327,
2608
+ "eval_steps_per_second": 2.716,
2609
+ "eval_wer": 15.136755339078306,
2610
  "step": 9000
2611
  },
2612
  {
2613
  "epoch": 0.9025,
2614
+ "grad_norm": 3.196434497833252,
2615
  "learning_rate": 4.083333333333333e-06,
2616
  "loss": 0.1113,
2617
  "step": 9025
2618
  },
2619
  {
2620
  "epoch": 0.905,
2621
+ "grad_norm": 3.862992525100708,
2622
  "learning_rate": 3.9791666666666665e-06,
2623
+ "loss": 0.1354,
2624
  "step": 9050
2625
  },
2626
  {
2627
  "epoch": 0.9075,
2628
+ "grad_norm": 4.684475898742676,
2629
  "learning_rate": 3.874999999999999e-06,
2630
  "loss": 0.1739,
2631
  "step": 9075
2632
  },
2633
  {
2634
  "epoch": 0.91,
2635
+ "grad_norm": 3.8043711185455322,
2636
  "learning_rate": 3.770833333333333e-06,
2637
+ "loss": 0.1725,
2638
  "step": 9100
2639
  },
2640
  {
2641
  "epoch": 0.9125,
2642
+ "grad_norm": 3.2041592597961426,
2643
  "learning_rate": 3.6666666666666666e-06,
2644
+ "loss": 0.1385,
2645
  "step": 9125
2646
  },
2647
  {
2648
  "epoch": 0.915,
2649
+ "grad_norm": 2.448774576187134,
2650
  "learning_rate": 3.5624999999999998e-06,
2651
+ "loss": 0.1294,
2652
  "step": 9150
2653
  },
2654
  {
2655
  "epoch": 0.9175,
2656
+ "grad_norm": 3.0288240909576416,
2657
  "learning_rate": 3.458333333333333e-06,
2658
+ "loss": 0.1252,
2659
  "step": 9175
2660
  },
2661
  {
2662
  "epoch": 0.92,
2663
+ "grad_norm": 3.7271015644073486,
2664
  "learning_rate": 3.354166666666666e-06,
2665
+ "loss": 0.1297,
2666
  "step": 9200
2667
  },
2668
  {
2669
  "epoch": 0.9225,
2670
+ "grad_norm": 3.9993860721588135,
2671
  "learning_rate": 3.25e-06,
2672
+ "loss": 0.1503,
2673
  "step": 9225
2674
  },
2675
  {
2676
  "epoch": 0.925,
2677
+ "grad_norm": 4.390246391296387,
2678
  "learning_rate": 3.145833333333333e-06,
2679
+ "loss": 0.1744,
2680
  "step": 9250
2681
  },
2682
  {
2683
  "epoch": 0.9275,
2684
+ "grad_norm": 3.318673849105835,
2685
  "learning_rate": 3.041666666666666e-06,
2686
+ "loss": 0.1926,
2687
  "step": 9275
2688
  },
2689
  {
2690
  "epoch": 0.93,
2691
+ "grad_norm": 2.6013784408569336,
2692
  "learning_rate": 2.9375e-06,
2693
+ "loss": 0.1183,
2694
  "step": 9300
2695
  },
2696
  {
2697
  "epoch": 0.9325,
2698
+ "grad_norm": 2.507906675338745,
2699
  "learning_rate": 2.833333333333333e-06,
2700
+ "loss": 0.1198,
2701
  "step": 9325
2702
  },
2703
  {
2704
  "epoch": 0.935,
2705
+ "grad_norm": 2.4156315326690674,
2706
  "learning_rate": 2.7291666666666662e-06,
2707
+ "loss": 0.0964,
2708
  "step": 9350
2709
  },
2710
  {
2711
  "epoch": 0.9375,
2712
+ "grad_norm": 3.535658359527588,
2713
  "learning_rate": 2.625e-06,
2714
+ "loss": 0.125,
2715
  "step": 9375
2716
  },
2717
  {
2718
  "epoch": 0.94,
2719
+ "grad_norm": 3.782447099685669,
2720
  "learning_rate": 2.520833333333333e-06,
2721
+ "loss": 0.15,
2722
  "step": 9400
2723
  },
2724
  {
2725
  "epoch": 0.9425,
2726
+ "grad_norm": 3.4775750637054443,
2727
  "learning_rate": 2.4166666666666663e-06,
2728
  "loss": 0.169,
2729
  "step": 9425
2730
  },
2731
  {
2732
  "epoch": 0.945,
2733
+ "grad_norm": 2.6878416538238525,
2734
  "learning_rate": 2.3125e-06,
2735
+ "loss": 0.2931,
2736
  "step": 9450
2737
  },
2738
  {
2739
  "epoch": 0.9475,
2740
+ "grad_norm": 3.1754825115203857,
2741
  "learning_rate": 2.208333333333333e-06,
2742
+ "loss": 0.1597,
2743
  "step": 9475
2744
  },
2745
  {
2746
  "epoch": 0.95,
2747
+ "grad_norm": 4.0340256690979,
2748
  "learning_rate": 2.1041666666666667e-06,
2749
+ "loss": 0.1347,
2750
  "step": 9500
2751
  },
2752
  {
2753
  "epoch": 0.9525,
2754
+ "grad_norm": 4.122541904449463,
2755
  "learning_rate": 2e-06,
2756
+ "loss": 0.1548,
2757
  "step": 9525
2758
  },
2759
  {
2760
  "epoch": 0.955,
2761
+ "grad_norm": 3.8141324520111084,
2762
  "learning_rate": 1.8958333333333331e-06,
2763
+ "loss": 0.1713,
2764
  "step": 9550
2765
  },
2766
  {
2767
  "epoch": 0.9575,
2768
+ "grad_norm": 4.313726902008057,
2769
  "learning_rate": 1.7916666666666665e-06,
2770
+ "loss": 0.1928,
2771
  "step": 9575
2772
  },
2773
  {
2774
  "epoch": 0.96,
2775
+ "grad_norm": 3.0914995670318604,
2776
  "learning_rate": 1.6874999999999997e-06,
2777
+ "loss": 0.1501,
2778
  "step": 9600
2779
  },
2780
  {
2781
  "epoch": 0.9625,
2782
+ "grad_norm": 2.9334723949432373,
2783
  "learning_rate": 1.5833333333333331e-06,
2784
+ "loss": 0.1221,
2785
  "step": 9625
2786
  },
2787
  {
2788
  "epoch": 0.965,
2789
+ "grad_norm": 2.4183266162872314,
2790
  "learning_rate": 1.4791666666666663e-06,
2791
+ "loss": 0.0928,
2792
  "step": 9650
2793
  },
2794
  {
2795
  "epoch": 0.9675,
2796
+ "grad_norm": 2.296832323074341,
2797
  "learning_rate": 1.375e-06,
2798
  "loss": 0.0959,
2799
  "step": 9675
2800
  },
2801
  {
2802
  "epoch": 0.97,
2803
+ "grad_norm": 2.63551926612854,
2804
  "learning_rate": 1.2708333333333334e-06,
2805
+ "loss": 0.0966,
2806
  "step": 9700
2807
  },
2808
  {
2809
  "epoch": 0.9725,
2810
+ "grad_norm": 1.874773621559143,
2811
  "learning_rate": 1.1666666666666666e-06,
2812
+ "loss": 0.0958,
2813
  "step": 9725
2814
  },
2815
  {
2816
  "epoch": 0.975,
2817
+ "grad_norm": 2.397674322128296,
2818
  "learning_rate": 1.0624999999999998e-06,
2819
+ "loss": 0.1009,
2820
  "step": 9750
2821
  },
2822
  {
2823
  "epoch": 0.9775,
2824
+ "grad_norm": 3.000075101852417,
2825
  "learning_rate": 9.583333333333334e-07,
2826
+ "loss": 0.1095,
2827
  "step": 9775
2828
  },
2829
  {
2830
  "epoch": 0.98,
2831
+ "grad_norm": 2.8197531700134277,
2832
  "learning_rate": 8.541666666666666e-07,
2833
+ "loss": 0.1535,
2834
  "step": 9800
2835
  },
2836
  {
2837
  "epoch": 0.9825,
2838
+ "grad_norm": 3.8931257724761963,
2839
  "learning_rate": 7.499999999999999e-07,
2840
+ "loss": 0.1639,
2841
  "step": 9825
2842
  },
2843
  {
2844
  "epoch": 0.985,
2845
+ "grad_norm": 3.463376045227051,
2846
  "learning_rate": 6.458333333333332e-07,
2847
+ "loss": 0.1494,
2848
  "step": 9850
2849
  },
2850
  {
2851
  "epoch": 0.9875,
2852
+ "grad_norm": 2.9888062477111816,
2853
  "learning_rate": 5.416666666666666e-07,
2854
+ "loss": 0.1483,
2855
  "step": 9875
2856
  },
2857
  {
2858
  "epoch": 0.99,
2859
+ "grad_norm": 7.088611602783203,
2860
  "learning_rate": 4.375e-07,
2861
+ "loss": 0.2288,
2862
  "step": 9900
2863
  },
2864
  {
2865
  "epoch": 0.9925,
2866
+ "grad_norm": 2.751157283782959,
2867
  "learning_rate": 3.333333333333333e-07,
2868
+ "loss": 0.1954,
2869
  "step": 9925
2870
  },
2871
  {
2872
  "epoch": 0.995,
2873
+ "grad_norm": 3.0588839054107666,
2874
  "learning_rate": 2.2916666666666666e-07,
2875
+ "loss": 0.1068,
2876
  "step": 9950
2877
  },
2878
  {
2879
  "epoch": 0.9975,
2880
+ "grad_norm": 2.712277412414551,
2881
  "learning_rate": 1.25e-07,
2882
+ "loss": 0.0997,
2883
  "step": 9975
2884
  },
2885
  {
2886
  "epoch": 1.0,
2887
+ "grad_norm": 2.309202194213867,
2888
  "learning_rate": 2.083333333333333e-08,
2889
+ "loss": 0.1059,
2890
  "step": 10000
2891
  },
2892
  {
2893
  "epoch": 1.0,
2894
+ "eval_loss": 0.37193799018859863,
2895
+ "eval_runtime": 39.6288,
2896
+ "eval_samples_per_second": 42.671,
2897
+ "eval_steps_per_second": 2.675,
2898
+ "eval_wer": 14.849506681653555,
2899
  "step": 10000
2900
  },
2901
  {
2902
  "epoch": 1.0,
2903
  "step": 10000,
2904
  "total_flos": 7.8780432384e+18,
2905
+ "train_loss": 0.2454334835767746,
2906
+ "train_runtime": 3974.1996,
2907
+ "train_samples_per_second": 80.519,
2908
+ "train_steps_per_second": 2.516
2909
  }
2910
  ],
2911
  "logging_steps": 25,