DuongTrongChi commited on
Commit
028d774
1 Parent(s): 4cb5124

Training in progress, step 553, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a76ebf58b46d7d773c0e60f3c3b3202c39175dc82e54c189f3267d0947c4a8ff
3
  size 100198584
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7c7efe866276ae7cbe3d104678cd00bf3527bbd6e30a9a945a5ebecfee27e759
3
  size 100198584
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:62b4cdbdbd72fca14cbd95d40faf9abb8a8ecb3ba4993c400be6e7b437b4b824
3
  size 50675604
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:32b9dc35758135f884494cc0e53f601a5e3e91671cbbf46618714b389006b98e
3
  size 50675604
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b050456dfa3d81625079076f253a2e5a55a9198ab0c9ed74cbb8cd2fe6a1e442
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6e166349555ca5e7760bd934ba6aeb783f7b623356bfc480bba3fd1729b099ba
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.6940005478951694,
5
  "eval_steps": 500,
6
- "global_step": 475,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -3332,6 +3332,552 @@
3332
  "learning_rate": 7.1575342465753425e-06,
3333
  "loss": 1.2028,
3334
  "step": 475
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3335
  }
3336
  ],
3337
  "logging_steps": 1,
@@ -3351,7 +3897,7 @@
3351
  "attributes": {}
3352
  }
3353
  },
3354
- "total_flos": 5.357403510693028e+17,
3355
  "train_batch_size": 4,
3356
  "trial_name": null,
3357
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.8079627431284814,
5
  "eval_steps": 500,
6
+ "global_step": 553,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
3332
  "learning_rate": 7.1575342465753425e-06,
3333
  "loss": 1.2028,
3334
  "step": 475
3335
+ },
3336
+ {
3337
+ "epoch": 0.6954616016802119,
3338
+ "grad_norm": 0.12074082344770432,
3339
+ "learning_rate": 7.123287671232877e-06,
3340
+ "loss": 1.3148,
3341
+ "step": 476
3342
+ },
3343
+ {
3344
+ "epoch": 0.6969226554652543,
3345
+ "grad_norm": 0.11308849602937698,
3346
+ "learning_rate": 7.089041095890411e-06,
3347
+ "loss": 1.2337,
3348
+ "step": 477
3349
+ },
3350
+ {
3351
+ "epoch": 0.6983837092502968,
3352
+ "grad_norm": 0.11705081909894943,
3353
+ "learning_rate": 7.054794520547946e-06,
3354
+ "loss": 1.1486,
3355
+ "step": 478
3356
+ },
3357
+ {
3358
+ "epoch": 0.6998447630353393,
3359
+ "grad_norm": 0.11467244476079941,
3360
+ "learning_rate": 7.020547945205481e-06,
3361
+ "loss": 1.3139,
3362
+ "step": 479
3363
+ },
3364
+ {
3365
+ "epoch": 0.7013058168203817,
3366
+ "grad_norm": 0.11780110001564026,
3367
+ "learning_rate": 6.9863013698630145e-06,
3368
+ "loss": 1.2417,
3369
+ "step": 480
3370
+ },
3371
+ {
3372
+ "epoch": 0.7027668706054242,
3373
+ "grad_norm": 0.11144915223121643,
3374
+ "learning_rate": 6.952054794520548e-06,
3375
+ "loss": 1.1892,
3376
+ "step": 481
3377
+ },
3378
+ {
3379
+ "epoch": 0.7042279243904667,
3380
+ "grad_norm": 0.13650654256343842,
3381
+ "learning_rate": 6.917808219178082e-06,
3382
+ "loss": 1.0756,
3383
+ "step": 482
3384
+ },
3385
+ {
3386
+ "epoch": 0.7056889781755091,
3387
+ "grad_norm": 0.11797624081373215,
3388
+ "learning_rate": 6.883561643835617e-06,
3389
+ "loss": 1.275,
3390
+ "step": 483
3391
+ },
3392
+ {
3393
+ "epoch": 0.7071500319605516,
3394
+ "grad_norm": 0.1288430392742157,
3395
+ "learning_rate": 6.849315068493151e-06,
3396
+ "loss": 1.1719,
3397
+ "step": 484
3398
+ },
3399
+ {
3400
+ "epoch": 0.7086110857455941,
3401
+ "grad_norm": 0.11288215219974518,
3402
+ "learning_rate": 6.815068493150685e-06,
3403
+ "loss": 1.1841,
3404
+ "step": 485
3405
+ },
3406
+ {
3407
+ "epoch": 0.7100721395306365,
3408
+ "grad_norm": 0.11503782123327255,
3409
+ "learning_rate": 6.78082191780822e-06,
3410
+ "loss": 1.1977,
3411
+ "step": 486
3412
+ },
3413
+ {
3414
+ "epoch": 0.7115331933156789,
3415
+ "grad_norm": 0.11059726774692535,
3416
+ "learning_rate": 6.746575342465754e-06,
3417
+ "loss": 1.1771,
3418
+ "step": 487
3419
+ },
3420
+ {
3421
+ "epoch": 0.7129942471007213,
3422
+ "grad_norm": 0.12105996906757355,
3423
+ "learning_rate": 6.712328767123288e-06,
3424
+ "loss": 1.218,
3425
+ "step": 488
3426
+ },
3427
+ {
3428
+ "epoch": 0.7144553008857638,
3429
+ "grad_norm": 0.1285051554441452,
3430
+ "learning_rate": 6.678082191780823e-06,
3431
+ "loss": 1.1423,
3432
+ "step": 489
3433
+ },
3434
+ {
3435
+ "epoch": 0.7159163546708063,
3436
+ "grad_norm": 0.11841081827878952,
3437
+ "learning_rate": 6.643835616438357e-06,
3438
+ "loss": 1.1433,
3439
+ "step": 490
3440
+ },
3441
+ {
3442
+ "epoch": 0.7173774084558487,
3443
+ "grad_norm": 0.11378856003284454,
3444
+ "learning_rate": 6.609589041095891e-06,
3445
+ "loss": 1.1941,
3446
+ "step": 491
3447
+ },
3448
+ {
3449
+ "epoch": 0.7188384622408912,
3450
+ "grad_norm": 0.10600030422210693,
3451
+ "learning_rate": 6.5753424657534245e-06,
3452
+ "loss": 1.188,
3453
+ "step": 492
3454
+ },
3455
+ {
3456
+ "epoch": 0.7202995160259337,
3457
+ "grad_norm": 0.10563358664512634,
3458
+ "learning_rate": 6.541095890410959e-06,
3459
+ "loss": 1.2165,
3460
+ "step": 493
3461
+ },
3462
+ {
3463
+ "epoch": 0.7217605698109761,
3464
+ "grad_norm": 0.11092449724674225,
3465
+ "learning_rate": 6.506849315068494e-06,
3466
+ "loss": 1.1956,
3467
+ "step": 494
3468
+ },
3469
+ {
3470
+ "epoch": 0.7232216235960186,
3471
+ "grad_norm": 0.11748078465461731,
3472
+ "learning_rate": 6.472602739726028e-06,
3473
+ "loss": 1.1741,
3474
+ "step": 495
3475
+ },
3476
+ {
3477
+ "epoch": 0.7246826773810611,
3478
+ "grad_norm": 0.12683749198913574,
3479
+ "learning_rate": 6.438356164383563e-06,
3480
+ "loss": 1.166,
3481
+ "step": 496
3482
+ },
3483
+ {
3484
+ "epoch": 0.7261437311661035,
3485
+ "grad_norm": 0.10706394910812378,
3486
+ "learning_rate": 6.4041095890410965e-06,
3487
+ "loss": 1.2278,
3488
+ "step": 497
3489
+ },
3490
+ {
3491
+ "epoch": 0.727604784951146,
3492
+ "grad_norm": 0.10801483690738678,
3493
+ "learning_rate": 6.36986301369863e-06,
3494
+ "loss": 1.1693,
3495
+ "step": 498
3496
+ },
3497
+ {
3498
+ "epoch": 0.7290658387361885,
3499
+ "grad_norm": 0.12337271869182587,
3500
+ "learning_rate": 6.335616438356164e-06,
3501
+ "loss": 1.229,
3502
+ "step": 499
3503
+ },
3504
+ {
3505
+ "epoch": 0.7305268925212309,
3506
+ "grad_norm": 0.13341547548770905,
3507
+ "learning_rate": 6.301369863013699e-06,
3508
+ "loss": 1.1274,
3509
+ "step": 500
3510
+ },
3511
+ {
3512
+ "epoch": 0.7319879463062734,
3513
+ "grad_norm": 0.11283931136131287,
3514
+ "learning_rate": 6.267123287671233e-06,
3515
+ "loss": 1.1867,
3516
+ "step": 501
3517
+ },
3518
+ {
3519
+ "epoch": 0.7334490000913159,
3520
+ "grad_norm": 0.1254453957080841,
3521
+ "learning_rate": 6.2328767123287685e-06,
3522
+ "loss": 1.2634,
3523
+ "step": 502
3524
+ },
3525
+ {
3526
+ "epoch": 0.7349100538763583,
3527
+ "grad_norm": 0.125976100564003,
3528
+ "learning_rate": 6.198630136986302e-06,
3529
+ "loss": 1.0729,
3530
+ "step": 503
3531
+ },
3532
+ {
3533
+ "epoch": 0.7363711076614008,
3534
+ "grad_norm": 0.10732964426279068,
3535
+ "learning_rate": 6.164383561643836e-06,
3536
+ "loss": 1.2072,
3537
+ "step": 504
3538
+ },
3539
+ {
3540
+ "epoch": 0.7378321614464433,
3541
+ "grad_norm": 0.12129033356904984,
3542
+ "learning_rate": 6.13013698630137e-06,
3543
+ "loss": 1.1197,
3544
+ "step": 505
3545
+ },
3546
+ {
3547
+ "epoch": 0.7392932152314857,
3548
+ "grad_norm": 0.12821297347545624,
3549
+ "learning_rate": 6.095890410958905e-06,
3550
+ "loss": 1.1515,
3551
+ "step": 506
3552
+ },
3553
+ {
3554
+ "epoch": 0.7407542690165282,
3555
+ "grad_norm": 0.11655119061470032,
3556
+ "learning_rate": 6.061643835616439e-06,
3557
+ "loss": 1.172,
3558
+ "step": 507
3559
+ },
3560
+ {
3561
+ "epoch": 0.7422153228015707,
3562
+ "grad_norm": 0.11455903202295303,
3563
+ "learning_rate": 6.027397260273973e-06,
3564
+ "loss": 1.1762,
3565
+ "step": 508
3566
+ },
3567
+ {
3568
+ "epoch": 0.7436763765866131,
3569
+ "grad_norm": 0.10701651871204376,
3570
+ "learning_rate": 5.993150684931507e-06,
3571
+ "loss": 1.1685,
3572
+ "step": 509
3573
+ },
3574
+ {
3575
+ "epoch": 0.7451374303716556,
3576
+ "grad_norm": 0.11655491590499878,
3577
+ "learning_rate": 5.958904109589042e-06,
3578
+ "loss": 1.1975,
3579
+ "step": 510
3580
+ },
3581
+ {
3582
+ "epoch": 0.746598484156698,
3583
+ "grad_norm": 0.11159254610538483,
3584
+ "learning_rate": 5.924657534246576e-06,
3585
+ "loss": 1.2226,
3586
+ "step": 511
3587
+ },
3588
+ {
3589
+ "epoch": 0.7480595379417405,
3590
+ "grad_norm": 0.11702670156955719,
3591
+ "learning_rate": 5.89041095890411e-06,
3592
+ "loss": 1.1552,
3593
+ "step": 512
3594
+ },
3595
+ {
3596
+ "epoch": 0.749520591726783,
3597
+ "grad_norm": 0.11294779181480408,
3598
+ "learning_rate": 5.856164383561645e-06,
3599
+ "loss": 1.189,
3600
+ "step": 513
3601
+ },
3602
+ {
3603
+ "epoch": 0.7509816455118254,
3604
+ "grad_norm": 0.10862728208303452,
3605
+ "learning_rate": 5.821917808219179e-06,
3606
+ "loss": 1.1997,
3607
+ "step": 514
3608
+ },
3609
+ {
3610
+ "epoch": 0.7524426992968679,
3611
+ "grad_norm": 0.12142271548509598,
3612
+ "learning_rate": 5.7876712328767125e-06,
3613
+ "loss": 1.1985,
3614
+ "step": 515
3615
+ },
3616
+ {
3617
+ "epoch": 0.7539037530819104,
3618
+ "grad_norm": 0.11388342082500458,
3619
+ "learning_rate": 5.753424657534246e-06,
3620
+ "loss": 1.1195,
3621
+ "step": 516
3622
+ },
3623
+ {
3624
+ "epoch": 0.7553648068669528,
3625
+ "grad_norm": 0.11917892098426819,
3626
+ "learning_rate": 5.719178082191781e-06,
3627
+ "loss": 1.1685,
3628
+ "step": 517
3629
+ },
3630
+ {
3631
+ "epoch": 0.7568258606519952,
3632
+ "grad_norm": 0.11466323584318161,
3633
+ "learning_rate": 5.684931506849316e-06,
3634
+ "loss": 1.1837,
3635
+ "step": 518
3636
+ },
3637
+ {
3638
+ "epoch": 0.7582869144370377,
3639
+ "grad_norm": 0.11477669328451157,
3640
+ "learning_rate": 5.6506849315068506e-06,
3641
+ "loss": 1.2336,
3642
+ "step": 519
3643
+ },
3644
+ {
3645
+ "epoch": 0.7597479682220801,
3646
+ "grad_norm": 0.12040074169635773,
3647
+ "learning_rate": 5.6164383561643845e-06,
3648
+ "loss": 1.2553,
3649
+ "step": 520
3650
+ },
3651
+ {
3652
+ "epoch": 0.7612090220071226,
3653
+ "grad_norm": 0.11461540311574936,
3654
+ "learning_rate": 5.582191780821918e-06,
3655
+ "loss": 1.1205,
3656
+ "step": 521
3657
+ },
3658
+ {
3659
+ "epoch": 0.7626700757921651,
3660
+ "grad_norm": 0.10867593437433243,
3661
+ "learning_rate": 5.547945205479452e-06,
3662
+ "loss": 1.1629,
3663
+ "step": 522
3664
+ },
3665
+ {
3666
+ "epoch": 0.7641311295772075,
3667
+ "grad_norm": 0.12366941571235657,
3668
+ "learning_rate": 5.513698630136987e-06,
3669
+ "loss": 1.2059,
3670
+ "step": 523
3671
+ },
3672
+ {
3673
+ "epoch": 0.76559218336225,
3674
+ "grad_norm": 0.11807534843683243,
3675
+ "learning_rate": 5.479452054794521e-06,
3676
+ "loss": 1.2863,
3677
+ "step": 524
3678
+ },
3679
+ {
3680
+ "epoch": 0.7670532371472925,
3681
+ "grad_norm": 0.11750409007072449,
3682
+ "learning_rate": 5.445205479452055e-06,
3683
+ "loss": 1.2293,
3684
+ "step": 525
3685
+ },
3686
+ {
3687
+ "epoch": 0.7685142909323349,
3688
+ "grad_norm": 0.11874507367610931,
3689
+ "learning_rate": 5.41095890410959e-06,
3690
+ "loss": 1.2275,
3691
+ "step": 526
3692
+ },
3693
+ {
3694
+ "epoch": 0.7699753447173774,
3695
+ "grad_norm": 0.12096529453992844,
3696
+ "learning_rate": 5.376712328767124e-06,
3697
+ "loss": 1.1525,
3698
+ "step": 527
3699
+ },
3700
+ {
3701
+ "epoch": 0.7714363985024199,
3702
+ "grad_norm": 0.10740137845277786,
3703
+ "learning_rate": 5.342465753424658e-06,
3704
+ "loss": 1.2267,
3705
+ "step": 528
3706
+ },
3707
+ {
3708
+ "epoch": 0.7728974522874623,
3709
+ "grad_norm": 0.12556499242782593,
3710
+ "learning_rate": 5.308219178082192e-06,
3711
+ "loss": 1.2042,
3712
+ "step": 529
3713
+ },
3714
+ {
3715
+ "epoch": 0.7743585060725048,
3716
+ "grad_norm": 0.1109650582075119,
3717
+ "learning_rate": 5.273972602739727e-06,
3718
+ "loss": 1.1813,
3719
+ "step": 530
3720
+ },
3721
+ {
3722
+ "epoch": 0.7758195598575472,
3723
+ "grad_norm": 0.10629246383905411,
3724
+ "learning_rate": 5.239726027397261e-06,
3725
+ "loss": 1.1959,
3726
+ "step": 531
3727
+ },
3728
+ {
3729
+ "epoch": 0.7772806136425897,
3730
+ "grad_norm": 0.1113128662109375,
3731
+ "learning_rate": 5.2054794520547945e-06,
3732
+ "loss": 1.1441,
3733
+ "step": 532
3734
+ },
3735
+ {
3736
+ "epoch": 0.7787416674276322,
3737
+ "grad_norm": 0.11163881421089172,
3738
+ "learning_rate": 5.171232876712328e-06,
3739
+ "loss": 1.1991,
3740
+ "step": 533
3741
+ },
3742
+ {
3743
+ "epoch": 0.7802027212126746,
3744
+ "grad_norm": 0.12462608516216278,
3745
+ "learning_rate": 5.136986301369864e-06,
3746
+ "loss": 1.1397,
3747
+ "step": 534
3748
+ },
3749
+ {
3750
+ "epoch": 0.7816637749977171,
3751
+ "grad_norm": 0.11631737649440765,
3752
+ "learning_rate": 5.102739726027398e-06,
3753
+ "loss": 1.1253,
3754
+ "step": 535
3755
+ },
3756
+ {
3757
+ "epoch": 0.7831248287827596,
3758
+ "grad_norm": 0.12405448406934738,
3759
+ "learning_rate": 5.068493150684932e-06,
3760
+ "loss": 1.1595,
3761
+ "step": 536
3762
+ },
3763
+ {
3764
+ "epoch": 0.784585882567802,
3765
+ "grad_norm": 0.1106800064444542,
3766
+ "learning_rate": 5.0342465753424665e-06,
3767
+ "loss": 1.2755,
3768
+ "step": 537
3769
+ },
3770
+ {
3771
+ "epoch": 0.7860469363528445,
3772
+ "grad_norm": 0.10687270015478134,
3773
+ "learning_rate": 5e-06,
3774
+ "loss": 1.1443,
3775
+ "step": 538
3776
+ },
3777
+ {
3778
+ "epoch": 0.787507990137887,
3779
+ "grad_norm": 0.10897688567638397,
3780
+ "learning_rate": 4.965753424657534e-06,
3781
+ "loss": 1.1917,
3782
+ "step": 539
3783
+ },
3784
+ {
3785
+ "epoch": 0.7889690439229294,
3786
+ "grad_norm": 0.12325593084096909,
3787
+ "learning_rate": 4.931506849315069e-06,
3788
+ "loss": 1.165,
3789
+ "step": 540
3790
+ },
3791
+ {
3792
+ "epoch": 0.7904300977079719,
3793
+ "grad_norm": 0.12180227786302567,
3794
+ "learning_rate": 4.897260273972603e-06,
3795
+ "loss": 1.15,
3796
+ "step": 541
3797
+ },
3798
+ {
3799
+ "epoch": 0.7918911514930144,
3800
+ "grad_norm": 0.1084585040807724,
3801
+ "learning_rate": 4.863013698630138e-06,
3802
+ "loss": 1.2431,
3803
+ "step": 542
3804
+ },
3805
+ {
3806
+ "epoch": 0.7933522052780568,
3807
+ "grad_norm": 0.11849282681941986,
3808
+ "learning_rate": 4.8287671232876716e-06,
3809
+ "loss": 1.2494,
3810
+ "step": 543
3811
+ },
3812
+ {
3813
+ "epoch": 0.7948132590630993,
3814
+ "grad_norm": 0.1109924465417862,
3815
+ "learning_rate": 4.7945205479452054e-06,
3816
+ "loss": 1.1517,
3817
+ "step": 544
3818
+ },
3819
+ {
3820
+ "epoch": 0.7962743128481418,
3821
+ "grad_norm": 0.1313486099243164,
3822
+ "learning_rate": 4.76027397260274e-06,
3823
+ "loss": 1.2044,
3824
+ "step": 545
3825
+ },
3826
+ {
3827
+ "epoch": 0.7977353666331842,
3828
+ "grad_norm": 0.12946535646915436,
3829
+ "learning_rate": 4.726027397260274e-06,
3830
+ "loss": 1.101,
3831
+ "step": 546
3832
+ },
3833
+ {
3834
+ "epoch": 0.7991964204182267,
3835
+ "grad_norm": 0.1083068773150444,
3836
+ "learning_rate": 4.691780821917809e-06,
3837
+ "loss": 1.1933,
3838
+ "step": 547
3839
+ },
3840
+ {
3841
+ "epoch": 0.8006574742032692,
3842
+ "grad_norm": 0.11590442061424255,
3843
+ "learning_rate": 4.657534246575343e-06,
3844
+ "loss": 1.198,
3845
+ "step": 548
3846
+ },
3847
+ {
3848
+ "epoch": 0.8021185279883116,
3849
+ "grad_norm": 0.11123711615800858,
3850
+ "learning_rate": 4.6232876712328774e-06,
3851
+ "loss": 1.1259,
3852
+ "step": 549
3853
+ },
3854
+ {
3855
+ "epoch": 0.803579581773354,
3856
+ "grad_norm": 0.1170891597867012,
3857
+ "learning_rate": 4.589041095890411e-06,
3858
+ "loss": 1.1977,
3859
+ "step": 550
3860
+ },
3861
+ {
3862
+ "epoch": 0.8050406355583964,
3863
+ "grad_norm": 0.12325557321310043,
3864
+ "learning_rate": 4.554794520547945e-06,
3865
+ "loss": 1.1549,
3866
+ "step": 551
3867
+ },
3868
+ {
3869
+ "epoch": 0.8065016893434389,
3870
+ "grad_norm": 0.10925264656543732,
3871
+ "learning_rate": 4.52054794520548e-06,
3872
+ "loss": 1.1376,
3873
+ "step": 552
3874
+ },
3875
+ {
3876
+ "epoch": 0.8079627431284814,
3877
+ "grad_norm": 0.10057859122753143,
3878
+ "learning_rate": 4.486301369863014e-06,
3879
+ "loss": 1.1237,
3880
+ "step": 553
3881
  }
3882
  ],
3883
  "logging_steps": 1,
 
3897
  "attributes": {}
3898
  }
3899
  },
3900
+ "total_flos": 6.248047407796224e+17,
3901
  "train_batch_size": 4,
3902
  "trial_name": null,
3903
  "trial_params": null