DuongTrongChi commited on
Commit
027562d
·
verified ·
1 Parent(s): 670b1ad

Training in progress, step 887, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0923d7bfb165730c707b55ab35122891f2a8c8498a25518cb635ec1300f51b9f
3
  size 100198584
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:82d8bacab76dbcf5eb4f92f5f82c3e20484571fea802ab9933f74589a3eabfb9
3
  size 100198584
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f23e8371dab93885de610e41b8e11f52407dda019050862f44c6ec86c72cfbdd
3
  size 50675604
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:494168482585a7bfcbfbcc705c8748da82c9e8a80556079a12a6d8916e7a8125
3
  size 50675604
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:21bcc8423a151bd8ae79bf10c4b7ae042577b7dd124f39aad4cdf7d54610b8c3
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b85a44ab20a866b548a1f13ff0bee3fdd4760db12bf889cf65646cf2995e841c
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.9272976680384087,
5
  "eval_steps": 500,
6
- "global_step": 845,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5922,6 +5922,300 @@
5922
  "learning_rate": 1.6276202219482124e-06,
5923
  "loss": 1.0783,
5924
  "step": 845
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5925
  }
5926
  ],
5927
  "logging_steps": 1,
@@ -5941,7 +6235,7 @@
5941
  "attributes": {}
5942
  }
5943
  },
5944
- "total_flos": 8.764600643521782e+17,
5945
  "train_batch_size": 4,
5946
  "trial_name": null,
5947
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.9733882030178327,
5
  "eval_steps": 500,
6
+ "global_step": 887,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5922
  "learning_rate": 1.6276202219482124e-06,
5923
  "loss": 1.0783,
5924
  "step": 845
5925
+ },
5926
+ {
5927
+ "epoch": 0.928395061728395,
5928
+ "grad_norm": 0.14913596212863922,
5929
+ "learning_rate": 1.6029593094944515e-06,
5930
+ "loss": 1.1579,
5931
+ "step": 846
5932
+ },
5933
+ {
5934
+ "epoch": 0.9294924554183813,
5935
+ "grad_norm": 0.14216169714927673,
5936
+ "learning_rate": 1.5782983970406906e-06,
5937
+ "loss": 1.2532,
5938
+ "step": 847
5939
+ },
5940
+ {
5941
+ "epoch": 0.9305898491083676,
5942
+ "grad_norm": 0.12944941222667694,
5943
+ "learning_rate": 1.5536374845869297e-06,
5944
+ "loss": 1.1187,
5945
+ "step": 848
5946
+ },
5947
+ {
5948
+ "epoch": 0.9316872427983539,
5949
+ "grad_norm": 0.15228183567523956,
5950
+ "learning_rate": 1.528976572133169e-06,
5951
+ "loss": 1.0625,
5952
+ "step": 849
5953
+ },
5954
+ {
5955
+ "epoch": 0.9327846364883402,
5956
+ "grad_norm": 0.1437804400920868,
5957
+ "learning_rate": 1.5043156596794082e-06,
5958
+ "loss": 1.0785,
5959
+ "step": 850
5960
+ },
5961
+ {
5962
+ "epoch": 0.9338820301783265,
5963
+ "grad_norm": 0.13705220818519592,
5964
+ "learning_rate": 1.4796547472256475e-06,
5965
+ "loss": 1.1105,
5966
+ "step": 851
5967
+ },
5968
+ {
5969
+ "epoch": 0.9349794238683128,
5970
+ "grad_norm": 0.13792921602725983,
5971
+ "learning_rate": 1.4549938347718866e-06,
5972
+ "loss": 1.0987,
5973
+ "step": 852
5974
+ },
5975
+ {
5976
+ "epoch": 0.9360768175582991,
5977
+ "grad_norm": 0.12909933924674988,
5978
+ "learning_rate": 1.430332922318126e-06,
5979
+ "loss": 1.0932,
5980
+ "step": 853
5981
+ },
5982
+ {
5983
+ "epoch": 0.9371742112482854,
5984
+ "grad_norm": 0.13667872548103333,
5985
+ "learning_rate": 1.405672009864365e-06,
5986
+ "loss": 1.1542,
5987
+ "step": 854
5988
+ },
5989
+ {
5990
+ "epoch": 0.9382716049382716,
5991
+ "grad_norm": 0.13207869231700897,
5992
+ "learning_rate": 1.3810110974106042e-06,
5993
+ "loss": 1.1891,
5994
+ "step": 855
5995
+ },
5996
+ {
5997
+ "epoch": 0.9393689986282578,
5998
+ "grad_norm": 0.12875591218471527,
5999
+ "learning_rate": 1.3563501849568435e-06,
6000
+ "loss": 1.0372,
6001
+ "step": 856
6002
+ },
6003
+ {
6004
+ "epoch": 0.9404663923182441,
6005
+ "grad_norm": 0.12986066937446594,
6006
+ "learning_rate": 1.3316892725030829e-06,
6007
+ "loss": 1.1259,
6008
+ "step": 857
6009
+ },
6010
+ {
6011
+ "epoch": 0.9415637860082304,
6012
+ "grad_norm": 0.13095685839653015,
6013
+ "learning_rate": 1.307028360049322e-06,
6014
+ "loss": 1.0452,
6015
+ "step": 858
6016
+ },
6017
+ {
6018
+ "epoch": 0.9426611796982167,
6019
+ "grad_norm": 0.13577769696712494,
6020
+ "learning_rate": 1.2823674475955611e-06,
6021
+ "loss": 1.0942,
6022
+ "step": 859
6023
+ },
6024
+ {
6025
+ "epoch": 0.943758573388203,
6026
+ "grad_norm": 0.136579230427742,
6027
+ "learning_rate": 1.2577065351418002e-06,
6028
+ "loss": 1.0996,
6029
+ "step": 860
6030
+ },
6031
+ {
6032
+ "epoch": 0.9448559670781893,
6033
+ "grad_norm": 0.14068828523159027,
6034
+ "learning_rate": 1.2330456226880396e-06,
6035
+ "loss": 1.0527,
6036
+ "step": 861
6037
+ },
6038
+ {
6039
+ "epoch": 0.9459533607681756,
6040
+ "grad_norm": 0.14738546311855316,
6041
+ "learning_rate": 1.208384710234279e-06,
6042
+ "loss": 1.126,
6043
+ "step": 862
6044
+ },
6045
+ {
6046
+ "epoch": 0.9470507544581619,
6047
+ "grad_norm": 0.13700617849826813,
6048
+ "learning_rate": 1.183723797780518e-06,
6049
+ "loss": 1.1714,
6050
+ "step": 863
6051
+ },
6052
+ {
6053
+ "epoch": 0.9481481481481482,
6054
+ "grad_norm": 0.13408678770065308,
6055
+ "learning_rate": 1.1590628853267571e-06,
6056
+ "loss": 1.1135,
6057
+ "step": 864
6058
+ },
6059
+ {
6060
+ "epoch": 0.9492455418381345,
6061
+ "grad_norm": 0.1358562856912613,
6062
+ "learning_rate": 1.1344019728729965e-06,
6063
+ "loss": 1.0761,
6064
+ "step": 865
6065
+ },
6066
+ {
6067
+ "epoch": 0.9503429355281207,
6068
+ "grad_norm": 0.15928462147712708,
6069
+ "learning_rate": 1.1097410604192356e-06,
6070
+ "loss": 1.0841,
6071
+ "step": 866
6072
+ },
6073
+ {
6074
+ "epoch": 0.951440329218107,
6075
+ "grad_norm": 0.14678318798542023,
6076
+ "learning_rate": 1.0850801479654747e-06,
6077
+ "loss": 1.0772,
6078
+ "step": 867
6079
+ },
6080
+ {
6081
+ "epoch": 0.9525377229080932,
6082
+ "grad_norm": 0.12827463448047638,
6083
+ "learning_rate": 1.060419235511714e-06,
6084
+ "loss": 1.1324,
6085
+ "step": 868
6086
+ },
6087
+ {
6088
+ "epoch": 0.9536351165980795,
6089
+ "grad_norm": 0.14437751471996307,
6090
+ "learning_rate": 1.0357583230579532e-06,
6091
+ "loss": 1.2083,
6092
+ "step": 869
6093
+ },
6094
+ {
6095
+ "epoch": 0.9547325102880658,
6096
+ "grad_norm": 0.14573253691196442,
6097
+ "learning_rate": 1.0110974106041925e-06,
6098
+ "loss": 1.0288,
6099
+ "step": 870
6100
+ },
6101
+ {
6102
+ "epoch": 0.9558299039780521,
6103
+ "grad_norm": 0.148457869887352,
6104
+ "learning_rate": 9.864364981504316e-07,
6105
+ "loss": 1.1433,
6106
+ "step": 871
6107
+ },
6108
+ {
6109
+ "epoch": 0.9569272976680384,
6110
+ "grad_norm": 0.1432981789112091,
6111
+ "learning_rate": 9.617755856966707e-07,
6112
+ "loss": 1.1222,
6113
+ "step": 872
6114
+ },
6115
+ {
6116
+ "epoch": 0.9580246913580247,
6117
+ "grad_norm": 0.14053548872470856,
6118
+ "learning_rate": 9.371146732429101e-07,
6119
+ "loss": 1.1193,
6120
+ "step": 873
6121
+ },
6122
+ {
6123
+ "epoch": 0.959122085048011,
6124
+ "grad_norm": 0.13648538291454315,
6125
+ "learning_rate": 9.124537607891493e-07,
6126
+ "loss": 1.1411,
6127
+ "step": 874
6128
+ },
6129
+ {
6130
+ "epoch": 0.9602194787379973,
6131
+ "grad_norm": 0.15301236510276794,
6132
+ "learning_rate": 8.877928483353884e-07,
6133
+ "loss": 1.1395,
6134
+ "step": 875
6135
+ },
6136
+ {
6137
+ "epoch": 0.9613168724279836,
6138
+ "grad_norm": 0.1504426896572113,
6139
+ "learning_rate": 8.631319358816277e-07,
6140
+ "loss": 1.1447,
6141
+ "step": 876
6142
+ },
6143
+ {
6144
+ "epoch": 0.9624142661179699,
6145
+ "grad_norm": 0.15618982911109924,
6146
+ "learning_rate": 8.384710234278669e-07,
6147
+ "loss": 1.1235,
6148
+ "step": 877
6149
+ },
6150
+ {
6151
+ "epoch": 0.9635116598079561,
6152
+ "grad_norm": 0.1426519900560379,
6153
+ "learning_rate": 8.138101109741062e-07,
6154
+ "loss": 1.1242,
6155
+ "step": 878
6156
+ },
6157
+ {
6158
+ "epoch": 0.9646090534979423,
6159
+ "grad_norm": 0.1583835482597351,
6160
+ "learning_rate": 7.891491985203453e-07,
6161
+ "loss": 1.0598,
6162
+ "step": 879
6163
+ },
6164
+ {
6165
+ "epoch": 0.9657064471879286,
6166
+ "grad_norm": 0.14297567307949066,
6167
+ "learning_rate": 7.644882860665845e-07,
6168
+ "loss": 1.0291,
6169
+ "step": 880
6170
+ },
6171
+ {
6172
+ "epoch": 0.9668038408779149,
6173
+ "grad_norm": 0.14067769050598145,
6174
+ "learning_rate": 7.398273736128238e-07,
6175
+ "loss": 1.1746,
6176
+ "step": 881
6177
+ },
6178
+ {
6179
+ "epoch": 0.9679012345679012,
6180
+ "grad_norm": 0.1404830813407898,
6181
+ "learning_rate": 7.15166461159063e-07,
6182
+ "loss": 1.1294,
6183
+ "step": 882
6184
+ },
6185
+ {
6186
+ "epoch": 0.9689986282578875,
6187
+ "grad_norm": 0.1324174553155899,
6188
+ "learning_rate": 6.905055487053021e-07,
6189
+ "loss": 1.1089,
6190
+ "step": 883
6191
+ },
6192
+ {
6193
+ "epoch": 0.9700960219478738,
6194
+ "grad_norm": 0.13488321006298065,
6195
+ "learning_rate": 6.658446362515414e-07,
6196
+ "loss": 1.1228,
6197
+ "step": 884
6198
+ },
6199
+ {
6200
+ "epoch": 0.9711934156378601,
6201
+ "grad_norm": 0.13472045958042145,
6202
+ "learning_rate": 6.411837237977806e-07,
6203
+ "loss": 1.0933,
6204
+ "step": 885
6205
+ },
6206
+ {
6207
+ "epoch": 0.9722908093278464,
6208
+ "grad_norm": 0.14468832314014435,
6209
+ "learning_rate": 6.165228113440198e-07,
6210
+ "loss": 1.0767,
6211
+ "step": 886
6212
+ },
6213
+ {
6214
+ "epoch": 0.9733882030178327,
6215
+ "grad_norm": 0.13993267714977264,
6216
+ "learning_rate": 5.91861898890259e-07,
6217
+ "loss": 1.1123,
6218
+ "step": 887
6219
  }
6220
  ],
6221
  "logging_steps": 1,
 
6235
  "attributes": {}
6236
  }
6237
  },
6238
+ "total_flos": 9.202552775203185e+17,
6239
  "train_batch_size": 4,
6240
  "trial_name": null,
6241
  "trial_params": null