Training in progress, step 1700, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +703 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca6d7b29067a6f1802f95f9ae9a63da450c0fea767f9619e952dfe7ded4bbac1
 size 159967880

 version https://git-lfs.github.com/spec/v1
+oid sha256:0930d6e64875820c22c7cffca09ca1acaf6cdcc1e7968d0c5a856968a87824e8
 size 159967880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b22c239721aee44efc685d4b1334c0286d18e2d4e1a7cdd018c60a67b16bf89c
 size 81735892

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b9d593632762fa95cd51142f1adb4c560e59f1f9d92ecb7de05d6485c887205
 size 81735892

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ca599b893276769adc2f6c1d4d029dfc6620646247d84a40c0c82d7f07af46e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b283d316b0c499174401fc8457651f1fb183c6003c46a4d25e29dfecd151147
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3cac2327cb924e4f297c23ce5eb4e23debff02122db63c77a3bdcac410a9ffd
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a6797f0f81e1d80bc4d2d6295ad3c421b4b433370ca9e0c209b11267f3ef64f
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae270426c2cd8e1894df96f1ceb38a20e29481d4f6f7b2903c1da7e94dcbed0a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bd17fa23f67ef7fbf6e377f7e0c23474bf385755bb96f63949a2752039f1de4
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:333db600402aeeecc3fab07acc6d09f62217db914fcc898662b20b1afa147c61
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:212929e3bfad92319ef54b8b509922f96991c6c7d7791e9983b6f58b96c35aff
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa0f2c31dda0951ee9cc2b00073ac9a44026193943adb54ebced21cb99784765
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:671918de7ffc87d6187292033f79bb1cacaa6a7d5996a986d5989df4cdad43d1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
  "best_metric": null,
  "best_model_checkpoint": null,
- "epoch": 0.9324009324009324,
  "eval_steps": 500,
- "global_step": 1600,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
@@ -11207,6 +11207,706 @@
  "learning_rate": 6.759906759906761e-05,
  "loss": 0.0034,
  "step": 1600
  }
  ],
  "logging_steps": 1,
@@ -11226,7 +11926,7 @@
  "attributes": {}
  }
  },
- "total_flos": 6.6914779581854515e+19,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null

 {
  "best_metric": null,
  "best_model_checkpoint": null,
+ "epoch": 0.9906759906759907,
  "eval_steps": 500,
+ "global_step": 1700,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "learning_rate": 6.759906759906761e-05,
  "loss": 0.0034,
  "step": 1600
+ },
+ {
+ "epoch": 0.932983682983683,
+ "grad_norm": 0.0013091769069433212,
+ "learning_rate": 6.701631701631703e-05,
+ "loss": 0.0038,
+ "step": 1601
+ },
+ {
+ "epoch": 0.9335664335664335,
+ "grad_norm": 0.0009162210044451058,
+ "learning_rate": 6.643356643356644e-05,
+ "loss": 0.0028,
+ "step": 1602
+ },
+ {
+ "epoch": 0.9341491841491841,
+ "grad_norm": 0.0008717044838704169,
+ "learning_rate": 6.585081585081586e-05,
+ "loss": 0.003,
+ "step": 1603
+ },
+ {
+ "epoch": 0.9347319347319347,
+ "grad_norm": 0.0010865787044167519,
+ "learning_rate": 6.526806526806527e-05,
+ "loss": 0.0035,
+ "step": 1604
+ },
+ {
+ "epoch": 0.9353146853146853,
+ "grad_norm": 0.0007628489984199405,
+ "learning_rate": 6.46853146853147e-05,
+ "loss": 0.0025,
+ "step": 1605
+ },
+ {
+ "epoch": 0.9358974358974359,
+ "grad_norm": 0.0009772854391485453,
+ "learning_rate": 6.41025641025641e-05,
+ "loss": 0.0041,
+ "step": 1606
+ },
+ {
+ "epoch": 0.9364801864801865,
+ "grad_norm": 0.0008730532717891037,
+ "learning_rate": 6.351981351981353e-05,
+ "loss": 0.0028,
+ "step": 1607
+ },
+ {
+ "epoch": 0.9370629370629371,
+ "grad_norm": 0.0007411614060401917,
+ "learning_rate": 6.293706293706295e-05,
+ "loss": 0.0032,
+ "step": 1608
+ },
+ {
+ "epoch": 0.9376456876456877,
+ "grad_norm": 0.0009279727819375694,
+ "learning_rate": 6.235431235431236e-05,
+ "loss": 0.0022,
+ "step": 1609
+ },
+ {
+ "epoch": 0.9382284382284383,
+ "grad_norm": 0.0010616903891786933,
+ "learning_rate": 6.177156177156177e-05,
+ "loss": 0.0044,
+ "step": 1610
+ },
+ {
+ "epoch": 0.9388111888111889,
+ "grad_norm": 0.0009532080148346722,
+ "learning_rate": 6.118881118881119e-05,
+ "loss": 0.0026,
+ "step": 1611
+ },
+ {
+ "epoch": 0.9393939393939394,
+ "grad_norm": 0.0007426452939398587,
+ "learning_rate": 6.060606060606061e-05,
+ "loss": 0.0027,
+ "step": 1612
+ },
+ {
+ "epoch": 0.9399766899766899,
+ "grad_norm": 0.0010714689269661903,
+ "learning_rate": 6.002331002331003e-05,
+ "loss": 0.0041,
+ "step": 1613
+ },
+ {
+ "epoch": 0.9405594405594405,
+ "grad_norm": 0.0008739576442167163,
+ "learning_rate": 5.944055944055944e-05,
+ "loss": 0.0035,
+ "step": 1614
+ },
+ {
+ "epoch": 0.9411421911421911,
+ "grad_norm": 0.0018457169644534588,
+ "learning_rate": 5.885780885780886e-05,
+ "loss": 0.0048,
+ "step": 1615
+ },
+ {
+ "epoch": 0.9417249417249417,
+ "grad_norm": 0.0008747098036110401,
+ "learning_rate": 5.8275058275058275e-05,
+ "loss": 0.003,
+ "step": 1616
+ },
+ {
+ "epoch": 0.9423076923076923,
+ "grad_norm": 0.001420872751623392,
+ "learning_rate": 5.76923076923077e-05,
+ "loss": 0.0048,
+ "step": 1617
+ },
+ {
+ "epoch": 0.9428904428904429,
+ "grad_norm": 0.0008954692748375237,
+ "learning_rate": 5.7109557109557114e-05,
+ "loss": 0.0026,
+ "step": 1618
+ },
+ {
+ "epoch": 0.9434731934731935,
+ "grad_norm": 0.000952814007177949,
+ "learning_rate": 5.652680652680653e-05,
+ "loss": 0.004,
+ "step": 1619
+ },
+ {
+ "epoch": 0.9440559440559441,
+ "grad_norm": 0.0011160552967339754,
+ "learning_rate": 5.5944055944055945e-05,
+ "loss": 0.0034,
+ "step": 1620
+ },
+ {
+ "epoch": 0.9446386946386947,
+ "grad_norm": 0.0009834656957536936,
+ "learning_rate": 5.536130536130536e-05,
+ "loss": 0.0042,
+ "step": 1621
+ },
+ {
+ "epoch": 0.9452214452214452,
+ "grad_norm": 0.0007495367899537086,
+ "learning_rate": 5.477855477855478e-05,
+ "loss": 0.0028,
+ "step": 1622
+ },
+ {
+ "epoch": 0.9458041958041958,
+ "grad_norm": 0.0011641675373539329,
+ "learning_rate": 5.419580419580419e-05,
+ "loss": 0.004,
+ "step": 1623
+ },
+ {
+ "epoch": 0.9463869463869464,
+ "grad_norm": 0.0013844856293871999,
+ "learning_rate": 5.3613053613053616e-05,
+ "loss": 0.014,
+ "step": 1624
+ },
+ {
+ "epoch": 0.946969696969697,
+ "grad_norm": 0.0008486348669975996,
+ "learning_rate": 5.303030303030303e-05,
+ "loss": 0.0029,
+ "step": 1625
+ },
+ {
+ "epoch": 0.9475524475524476,
+ "grad_norm": 0.001107304822653532,
+ "learning_rate": 5.244755244755245e-05,
+ "loss": 0.0028,
+ "step": 1626
+ },
+ {
+ "epoch": 0.9481351981351981,
+ "grad_norm": 0.001052669482305646,
+ "learning_rate": 5.1864801864801863e-05,
+ "loss": 0.0035,
+ "step": 1627
+ },
+ {
+ "epoch": 0.9487179487179487,
+ "grad_norm": 0.001127295778132975,
+ "learning_rate": 5.128205128205128e-05,
+ "loss": 0.0033,
+ "step": 1628
+ },
+ {
+ "epoch": 0.9493006993006993,
+ "grad_norm": 0.00099327159114182,
+ "learning_rate": 5.0699300699300695e-05,
+ "loss": 0.0029,
+ "step": 1629
+ },
+ {
+ "epoch": 0.9498834498834499,
+ "grad_norm": 0.0008510001935064793,
+ "learning_rate": 5.011655011655012e-05,
+ "loss": 0.0031,
+ "step": 1630
+ },
+ {
+ "epoch": 0.9504662004662005,
+ "grad_norm": 0.0006990230758674443,
+ "learning_rate": 4.9533799533799534e-05,
+ "loss": 0.0028,
+ "step": 1631
+ },
+ {
+ "epoch": 0.951048951048951,
+ "grad_norm": 0.0008159316494129598,
+ "learning_rate": 4.895104895104895e-05,
+ "loss": 0.0028,
+ "step": 1632
+ },
+ {
+ "epoch": 0.9516317016317016,
+ "grad_norm": 0.0008230661042034626,
+ "learning_rate": 4.836829836829837e-05,
+ "loss": 0.0033,
+ "step": 1633
+ },
+ {
+ "epoch": 0.9522144522144522,
+ "grad_norm": 0.0009854782838374376,
+ "learning_rate": 4.778554778554779e-05,
+ "loss": 0.0034,
+ "step": 1634
+ },
+ {
+ "epoch": 0.9527972027972028,
+ "grad_norm": 0.0010709573980420828,
+ "learning_rate": 4.7202797202797204e-05,
+ "loss": 0.0029,
+ "step": 1635
+ },
+ {
+ "epoch": 0.9533799533799534,
+ "grad_norm": 0.0010027334792539477,
+ "learning_rate": 4.662004662004663e-05,
+ "loss": 0.0033,
+ "step": 1636
+ },
+ {
+ "epoch": 0.953962703962704,
+ "grad_norm": 0.0009396614041179419,
+ "learning_rate": 4.603729603729604e-05,
+ "loss": 0.0088,
+ "step": 1637
+ },
+ {
+ "epoch": 0.9545454545454546,
+ "grad_norm": 0.0007274977397173643,
+ "learning_rate": 4.545454545454546e-05,
+ "loss": 0.0032,
+ "step": 1638
+ },
+ {
+ "epoch": 0.9551282051282052,
+ "grad_norm": 0.0010892600985243917,
+ "learning_rate": 4.4871794871794874e-05,
+ "loss": 0.0042,
+ "step": 1639
+ },
+ {
+ "epoch": 0.9557109557109557,
+ "grad_norm": 0.0007885160739533603,
+ "learning_rate": 4.428904428904429e-05,
+ "loss": 0.0031,
+ "step": 1640
+ },
+ {
+ "epoch": 0.9562937062937062,
+ "grad_norm": 0.0012906527845188975,
+ "learning_rate": 4.3706293706293706e-05,
+ "loss": 0.0044,
+ "step": 1641
+ },
+ {
+ "epoch": 0.9568764568764568,
+ "grad_norm": 0.0012814976507797837,
+ "learning_rate": 4.312354312354312e-05,
+ "loss": 0.0038,
+ "step": 1642
+ },
+ {
+ "epoch": 0.9574592074592074,
+ "grad_norm": 0.0011575610842555761,
+ "learning_rate": 4.2540792540792545e-05,
+ "loss": 0.004,
+ "step": 1643
+ },
+ {
+ "epoch": 0.958041958041958,
+ "grad_norm": 0.0012061079032719135,
+ "learning_rate": 4.195804195804196e-05,
+ "loss": 0.0043,
+ "step": 1644
+ },
+ {
+ "epoch": 0.9586247086247086,
+ "grad_norm": 0.0008972581708803773,
+ "learning_rate": 4.1375291375291377e-05,
+ "loss": 0.0038,
+ "step": 1645
+ },
+ {
+ "epoch": 0.9592074592074592,
+ "grad_norm": 0.0008104901062324643,
+ "learning_rate": 4.079254079254079e-05,
+ "loss": 0.0028,
+ "step": 1646
+ },
+ {
+ "epoch": 0.9597902097902098,
+ "grad_norm": 0.0007863112259656191,
+ "learning_rate": 4.020979020979021e-05,
+ "loss": 0.003,
+ "step": 1647
+ },
+ {
+ "epoch": 0.9603729603729604,
+ "grad_norm": 0.0006893305107951164,
+ "learning_rate": 3.9627039627039624e-05,
+ "loss": 0.0026,
+ "step": 1648
+ },
+ {
+ "epoch": 0.960955710955711,
+ "grad_norm": 0.0009396909736096859,
+ "learning_rate": 3.904428904428905e-05,
+ "loss": 0.0029,
+ "step": 1649
+ },
+ {
+ "epoch": 0.9615384615384616,
+ "grad_norm": 0.0007228578324429691,
+ "learning_rate": 3.846153846153846e-05,
+ "loss": 0.0023,
+ "step": 1650
+ },
+ {
+ "epoch": 0.9621212121212122,
+ "grad_norm": 0.0011825780384242535,
+ "learning_rate": 3.787878787878788e-05,
+ "loss": 0.0044,
+ "step": 1651
+ },
+ {
+ "epoch": 0.9627039627039627,
+ "grad_norm": 0.0007647788152098656,
+ "learning_rate": 3.7296037296037295e-05,
+ "loss": 0.003,
+ "step": 1652
+ },
+ {
+ "epoch": 0.9632867132867133,
+ "grad_norm": 0.0010042464127764106,
+ "learning_rate": 3.671328671328671e-05,
+ "loss": 0.0041,
+ "step": 1653
+ },
+ {
+ "epoch": 0.9638694638694638,
+ "grad_norm": 0.0009029952925629914,
+ "learning_rate": 3.6130536130536126e-05,
+ "loss": 0.0032,
+ "step": 1654
+ },
+ {
+ "epoch": 0.9644522144522144,
+ "grad_norm": 0.0010356158018112183,
+ "learning_rate": 3.554778554778554e-05,
+ "loss": 0.0031,
+ "step": 1655
+ },
+ {
+ "epoch": 0.965034965034965,
+ "grad_norm": 0.0010094497120007873,
+ "learning_rate": 3.4965034965034965e-05,
+ "loss": 0.0043,
+ "step": 1656
+ },
+ {
+ "epoch": 0.9656177156177156,
+ "grad_norm": 0.0008370497962459922,
+ "learning_rate": 3.438228438228439e-05,
+ "loss": 0.0035,
+ "step": 1657
+ },
+ {
+ "epoch": 0.9662004662004662,
+ "grad_norm": 0.000803111121058464,
+ "learning_rate": 3.3799533799533804e-05,
+ "loss": 0.0029,
+ "step": 1658
+ },
+ {
+ "epoch": 0.9667832167832168,
+ "grad_norm": 0.0011143162846565247,
+ "learning_rate": 3.321678321678322e-05,
+ "loss": 0.0035,
+ "step": 1659
+ },
+ {
+ "epoch": 0.9673659673659674,
+ "grad_norm": 0.0008031773613765836,
+ "learning_rate": 3.2634032634032635e-05,
+ "loss": 0.0031,
+ "step": 1660
+ },
+ {
+ "epoch": 0.967948717948718,
+ "grad_norm": 0.0011737227905541658,
+ "learning_rate": 3.205128205128205e-05,
+ "loss": 0.004,
+ "step": 1661
+ },
+ {
+ "epoch": 0.9685314685314685,
+ "grad_norm": 0.001068048644810915,
+ "learning_rate": 3.1468531468531474e-05,
+ "loss": 0.0038,
+ "step": 1662
+ },
+ {
+ "epoch": 0.9691142191142191,
+ "grad_norm": 0.0008520625997334719,
+ "learning_rate": 3.088578088578088e-05,
+ "loss": 0.0032,
+ "step": 1663
+ },
+ {
+ "epoch": 0.9696969696969697,
+ "grad_norm": 0.0006241014925763011,
+ "learning_rate": 3.0303030303030306e-05,
+ "loss": 0.0023,
+ "step": 1664
+ },
+ {
+ "epoch": 0.9702797202797203,
+ "grad_norm": 0.0013019571779295802,
+ "learning_rate": 2.972027972027972e-05,
+ "loss": 0.0048,
+ "step": 1665
+ },
+ {
+ "epoch": 0.9708624708624709,
+ "grad_norm": 0.0011066205333918333,
+ "learning_rate": 2.9137529137529138e-05,
+ "loss": 0.0031,
+ "step": 1666
+ },
+ {
+ "epoch": 0.9714452214452215,
+ "grad_norm": 0.0010444342624396086,
+ "learning_rate": 2.8554778554778557e-05,
+ "loss": 0.0033,
+ "step": 1667
+ },
+ {
+ "epoch": 0.972027972027972,
+ "grad_norm": 0.0007983744144439697,
+ "learning_rate": 2.7972027972027973e-05,
+ "loss": 0.0032,
+ "step": 1668
+ },
+ {
+ "epoch": 0.9726107226107226,
+ "grad_norm": 0.0008884937269613147,
+ "learning_rate": 2.738927738927739e-05,
+ "loss": 0.0037,
+ "step": 1669
+ },
+ {
+ "epoch": 0.9731934731934732,
+ "grad_norm": 0.0012803805293515325,
+ "learning_rate": 2.6806526806526808e-05,
+ "loss": 0.0034,
+ "step": 1670
+ },
+ {
+ "epoch": 0.9737762237762237,
+ "grad_norm": 0.0011096763191744685,
+ "learning_rate": 2.6223776223776224e-05,
+ "loss": 0.0035,
+ "step": 1671
+ },
+ {
+ "epoch": 0.9743589743589743,
+ "grad_norm": 0.0011874607298523188,
+ "learning_rate": 2.564102564102564e-05,
+ "loss": 0.0043,
+ "step": 1672
+ },
+ {
+ "epoch": 0.9749417249417249,
+ "grad_norm": 0.0009078698931261897,
+ "learning_rate": 2.505827505827506e-05,
+ "loss": 0.0027,
+ "step": 1673
+ },
+ {
+ "epoch": 0.9755244755244755,
+ "grad_norm": 0.0009188731200993061,
+ "learning_rate": 2.4475524475524475e-05,
+ "loss": 0.0046,
+ "step": 1674
+ },
+ {
+ "epoch": 0.9761072261072261,
+ "grad_norm": 0.0009996923618018627,
+ "learning_rate": 2.3892773892773894e-05,
+ "loss": 0.006,
+ "step": 1675
+ },
+ {
+ "epoch": 0.9766899766899767,
+ "grad_norm": 0.0008249058737419546,
+ "learning_rate": 2.3310023310023313e-05,
+ "loss": 0.0033,
+ "step": 1676
+ },
+ {
+ "epoch": 0.9772727272727273,
+ "grad_norm": 0.0008003967232070863,
+ "learning_rate": 2.272727272727273e-05,
+ "loss": 0.003,
+ "step": 1677
+ },
+ {
+ "epoch": 0.9778554778554779,
+ "grad_norm": 0.0014063924318179488,
+ "learning_rate": 2.2144522144522145e-05,
+ "loss": 0.0036,
+ "step": 1678
+ },
+ {
+ "epoch": 0.9784382284382285,
+ "grad_norm": 0.0008004964329302311,
+ "learning_rate": 2.156177156177156e-05,
+ "loss": 0.0028,
+ "step": 1679
+ },
+ {
+ "epoch": 0.9790209790209791,
+ "grad_norm": 0.0009626666433177888,
+ "learning_rate": 2.097902097902098e-05,
+ "loss": 0.0027,
+ "step": 1680
+ },
+ {
+ "epoch": 0.9796037296037297,
+ "grad_norm": 0.0008628361392766237,
+ "learning_rate": 2.0396270396270396e-05,
+ "loss": 0.0027,
+ "step": 1681
+ },
+ {
+ "epoch": 0.9801864801864801,
+ "grad_norm": 0.0008874722989276052,
+ "learning_rate": 1.9813519813519812e-05,
+ "loss": 0.0042,
+ "step": 1682
+ },
+ {
+ "epoch": 0.9807692307692307,
+ "grad_norm": 0.0015157037414610386,
+ "learning_rate": 1.923076923076923e-05,
+ "loss": 0.0052,
+ "step": 1683
+ },
+ {
+ "epoch": 0.9813519813519813,
+ "grad_norm": 0.0011951492633670568,
+ "learning_rate": 1.8648018648018647e-05,
+ "loss": 0.0049,
+ "step": 1684
+ },
+ {
+ "epoch": 0.9819347319347319,
+ "grad_norm": 0.0009483549511060119,
+ "learning_rate": 1.8065268065268063e-05,
+ "loss": 0.0026,
+ "step": 1685
+ },
+ {
+ "epoch": 0.9825174825174825,
+ "grad_norm": 0.000737398280762136,
+ "learning_rate": 1.7482517482517483e-05,
+ "loss": 0.0027,
+ "step": 1686
+ },
+ {
+ "epoch": 0.9831002331002331,
+ "grad_norm": 0.001031695050187409,
+ "learning_rate": 1.6899766899766902e-05,
+ "loss": 0.0025,
+ "step": 1687
+ },
+ {
+ "epoch": 0.9836829836829837,
+ "grad_norm": 0.0009539015591144562,
+ "learning_rate": 1.6317016317016318e-05,
+ "loss": 0.0027,
+ "step": 1688
+ },
+ {
+ "epoch": 0.9842657342657343,
+ "grad_norm": 0.0007205713191069663,
+ "learning_rate": 1.5734265734265737e-05,
+ "loss": 0.0026,
+ "step": 1689
+ },
+ {
+ "epoch": 0.9848484848484849,
+ "grad_norm": 0.0009316445211879909,
+ "learning_rate": 1.5151515151515153e-05,
+ "loss": 0.0032,
+ "step": 1690
+ },
+ {
+ "epoch": 0.9854312354312355,
+ "grad_norm": 0.0010426414664834738,
+ "learning_rate": 1.4568764568764569e-05,
+ "loss": 0.0041,
+ "step": 1691
+ },
+ {
+ "epoch": 0.986013986013986,
+ "grad_norm": 0.0006400300771929324,
+ "learning_rate": 1.3986013986013986e-05,
+ "loss": 0.0024,
+ "step": 1692
+ },
+ {
+ "epoch": 0.9865967365967366,
+ "grad_norm": 0.0009383864235132933,
+ "learning_rate": 1.3403263403263404e-05,
+ "loss": 0.0029,
+ "step": 1693
+ },
+ {
+ "epoch": 0.9871794871794872,
+ "grad_norm": 0.0008284033392556012,
+ "learning_rate": 1.282051282051282e-05,
+ "loss": 0.0029,
+ "step": 1694
+ },
+ {
+ "epoch": 0.9877622377622378,
+ "grad_norm": 0.0010577579960227013,
+ "learning_rate": 1.2237762237762237e-05,
+ "loss": 0.0052,
+ "step": 1695
+ },
+ {
+ "epoch": 0.9883449883449883,
+ "grad_norm": 0.0009795171208679676,
+ "learning_rate": 1.1655011655011657e-05,
+ "loss": 0.0046,
+ "step": 1696
+ },
+ {
+ "epoch": 0.9889277389277389,
+ "grad_norm": 0.0007197922095656395,
+ "learning_rate": 1.1072261072261073e-05,
+ "loss": 0.0031,
+ "step": 1697
+ },
+ {
+ "epoch": 0.9895104895104895,
+ "grad_norm": 0.0010326344054192305,
+ "learning_rate": 1.048951048951049e-05,
+ "loss": 0.0028,
+ "step": 1698
+ },
+ {
+ "epoch": 0.9900932400932401,
+ "grad_norm": 0.0008666233043186367,
+ "learning_rate": 9.906759906759906e-06,
+ "loss": 0.003,
+ "step": 1699
+ },
+ {
+ "epoch": 0.9906759906759907,
+ "grad_norm": 0.0008774434681981802,
+ "learning_rate": 9.324009324009324e-06,
+ "loss": 0.003,
+ "step": 1700
  }
  ],
  "logging_steps": 1,
  "attributes": {}
  }
  },
+ "total_flos": 7.109695330572042e+19,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null