DuongTrongChi commited on
Commit
54798b2
1 Parent(s): a197ac0

Training in progress, step 361, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:042b5a0f639dd973e6c738774c646addbaf503d17918c491b47ad403e0b2a39c
3
  size 100198584
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8095535d287a5363ea56d6e1a990b793651e0842f91f0e62b2cde7ad796e3c97
3
  size 100198584
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:50d1debf1340029cef2e33428b5e5847c84e592717f751c91397f761ad1a0810
3
  size 50675604
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:165bc7411b625ca298d13e3c88f8745dc09872293291b602919d21265ad0ba3b
3
  size 50675604
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a4f4a65b0aac0f626b42dcb31648d8e84043a592009a3ff87291b198bc8baeca
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:84cd725a97db95f8de6db3eaffde1002a056efc831c1635a52e2a74854a937e4
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.42370559766231397,
5
  "eval_steps": 500,
6
- "global_step": 290,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2037,6 +2037,503 @@
2037
  "learning_rate": 1.3493150684931508e-05,
2038
  "loss": 1.1981,
2039
  "step": 290
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2040
  }
2041
  ],
2042
  "logging_steps": 1,
@@ -2056,7 +2553,7 @@
2056
  "attributes": {}
2057
  }
2058
  },
2059
- "total_flos": 3.2650544243205734e+17,
2060
  "train_batch_size": 4,
2061
  "trial_name": null,
2062
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.5274404164003287,
5
  "eval_steps": 500,
6
+ "global_step": 361,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2037
  "learning_rate": 1.3493150684931508e-05,
2038
  "loss": 1.1981,
2039
  "step": 290
2040
+ },
2041
+ {
2042
+ "epoch": 0.4251666514473564,
2043
+ "grad_norm": 0.09126268327236176,
2044
+ "learning_rate": 1.3458904109589042e-05,
2045
+ "loss": 1.2296,
2046
+ "step": 291
2047
+ },
2048
+ {
2049
+ "epoch": 0.42662770523239885,
2050
+ "grad_norm": 0.09404008835554123,
2051
+ "learning_rate": 1.3424657534246576e-05,
2052
+ "loss": 1.3013,
2053
+ "step": 292
2054
+ },
2055
+ {
2056
+ "epoch": 0.4280887590174413,
2057
+ "grad_norm": 0.09837393462657928,
2058
+ "learning_rate": 1.339041095890411e-05,
2059
+ "loss": 1.2102,
2060
+ "step": 293
2061
+ },
2062
+ {
2063
+ "epoch": 0.4295498128024838,
2064
+ "grad_norm": 0.0978068932890892,
2065
+ "learning_rate": 1.3356164383561646e-05,
2066
+ "loss": 1.1995,
2067
+ "step": 294
2068
+ },
2069
+ {
2070
+ "epoch": 0.43101086658752624,
2071
+ "grad_norm": 0.09333440661430359,
2072
+ "learning_rate": 1.332191780821918e-05,
2073
+ "loss": 1.2284,
2074
+ "step": 295
2075
+ },
2076
+ {
2077
+ "epoch": 0.4324719203725687,
2078
+ "grad_norm": 0.10575850307941437,
2079
+ "learning_rate": 1.3287671232876714e-05,
2080
+ "loss": 1.1442,
2081
+ "step": 296
2082
+ },
2083
+ {
2084
+ "epoch": 0.4339329741576112,
2085
+ "grad_norm": 0.10079637169837952,
2086
+ "learning_rate": 1.3253424657534248e-05,
2087
+ "loss": 1.2114,
2088
+ "step": 297
2089
+ },
2090
+ {
2091
+ "epoch": 0.43539402794265364,
2092
+ "grad_norm": 0.10534002631902695,
2093
+ "learning_rate": 1.3219178082191781e-05,
2094
+ "loss": 1.1894,
2095
+ "step": 298
2096
+ },
2097
+ {
2098
+ "epoch": 0.4368550817276961,
2099
+ "grad_norm": 0.09364209324121475,
2100
+ "learning_rate": 1.3184931506849316e-05,
2101
+ "loss": 1.1565,
2102
+ "step": 299
2103
+ },
2104
+ {
2105
+ "epoch": 0.43831613551273857,
2106
+ "grad_norm": 0.09970992058515549,
2107
+ "learning_rate": 1.3150684931506849e-05,
2108
+ "loss": 1.234,
2109
+ "step": 300
2110
+ },
2111
+ {
2112
+ "epoch": 0.43977718929778103,
2113
+ "grad_norm": 0.10115770250558853,
2114
+ "learning_rate": 1.3116438356164385e-05,
2115
+ "loss": 1.2113,
2116
+ "step": 301
2117
+ },
2118
+ {
2119
+ "epoch": 0.4412382430828235,
2120
+ "grad_norm": 0.10583057254552841,
2121
+ "learning_rate": 1.3082191780821919e-05,
2122
+ "loss": 1.1469,
2123
+ "step": 302
2124
+ },
2125
+ {
2126
+ "epoch": 0.44269929686786597,
2127
+ "grad_norm": 0.10508885979652405,
2128
+ "learning_rate": 1.3047945205479453e-05,
2129
+ "loss": 1.1648,
2130
+ "step": 303
2131
+ },
2132
+ {
2133
+ "epoch": 0.44416035065290843,
2134
+ "grad_norm": 0.09814278036355972,
2135
+ "learning_rate": 1.3013698630136988e-05,
2136
+ "loss": 1.1365,
2137
+ "step": 304
2138
+ },
2139
+ {
2140
+ "epoch": 0.4456214044379509,
2141
+ "grad_norm": 0.0985088050365448,
2142
+ "learning_rate": 1.2979452054794521e-05,
2143
+ "loss": 1.2589,
2144
+ "step": 305
2145
+ },
2146
+ {
2147
+ "epoch": 0.4470824582229933,
2148
+ "grad_norm": 0.10917991399765015,
2149
+ "learning_rate": 1.2945205479452056e-05,
2150
+ "loss": 1.2256,
2151
+ "step": 306
2152
+ },
2153
+ {
2154
+ "epoch": 0.44854351200803577,
2155
+ "grad_norm": 0.10406248271465302,
2156
+ "learning_rate": 1.2910958904109589e-05,
2157
+ "loss": 1.2597,
2158
+ "step": 307
2159
+ },
2160
+ {
2161
+ "epoch": 0.45000456579307824,
2162
+ "grad_norm": 0.09909600764513016,
2163
+ "learning_rate": 1.2876712328767125e-05,
2164
+ "loss": 1.2125,
2165
+ "step": 308
2166
+ },
2167
+ {
2168
+ "epoch": 0.4514656195781207,
2169
+ "grad_norm": 0.10518831014633179,
2170
+ "learning_rate": 1.2842465753424658e-05,
2171
+ "loss": 1.1912,
2172
+ "step": 309
2173
+ },
2174
+ {
2175
+ "epoch": 0.45292667336316317,
2176
+ "grad_norm": 0.09970947355031967,
2177
+ "learning_rate": 1.2808219178082193e-05,
2178
+ "loss": 1.207,
2179
+ "step": 310
2180
+ },
2181
+ {
2182
+ "epoch": 0.45438772714820563,
2183
+ "grad_norm": 0.10252334922552109,
2184
+ "learning_rate": 1.2773972602739728e-05,
2185
+ "loss": 1.2133,
2186
+ "step": 311
2187
+ },
2188
+ {
2189
+ "epoch": 0.4558487809332481,
2190
+ "grad_norm": 0.10719390958547592,
2191
+ "learning_rate": 1.273972602739726e-05,
2192
+ "loss": 1.146,
2193
+ "step": 312
2194
+ },
2195
+ {
2196
+ "epoch": 0.45730983471829056,
2197
+ "grad_norm": 0.11196637153625488,
2198
+ "learning_rate": 1.2705479452054796e-05,
2199
+ "loss": 1.2922,
2200
+ "step": 313
2201
+ },
2202
+ {
2203
+ "epoch": 0.45877088850333303,
2204
+ "grad_norm": 0.11517077684402466,
2205
+ "learning_rate": 1.2671232876712329e-05,
2206
+ "loss": 1.2577,
2207
+ "step": 314
2208
+ },
2209
+ {
2210
+ "epoch": 0.4602319422883755,
2211
+ "grad_norm": 0.09453711658716202,
2212
+ "learning_rate": 1.2636986301369865e-05,
2213
+ "loss": 1.3212,
2214
+ "step": 315
2215
+ },
2216
+ {
2217
+ "epoch": 0.46169299607341796,
2218
+ "grad_norm": 0.1068459153175354,
2219
+ "learning_rate": 1.2602739726027398e-05,
2220
+ "loss": 1.1981,
2221
+ "step": 316
2222
+ },
2223
+ {
2224
+ "epoch": 0.4631540498584604,
2225
+ "grad_norm": 0.0985800251364708,
2226
+ "learning_rate": 1.2568493150684933e-05,
2227
+ "loss": 1.189,
2228
+ "step": 317
2229
+ },
2230
+ {
2231
+ "epoch": 0.4646151036435029,
2232
+ "grad_norm": 0.10522795468568802,
2233
+ "learning_rate": 1.2534246575342466e-05,
2234
+ "loss": 1.2341,
2235
+ "step": 318
2236
+ },
2237
+ {
2238
+ "epoch": 0.46607615742854536,
2239
+ "grad_norm": 0.10663071274757385,
2240
+ "learning_rate": 1.25e-05,
2241
+ "loss": 1.1654,
2242
+ "step": 319
2243
+ },
2244
+ {
2245
+ "epoch": 0.4675372112135878,
2246
+ "grad_norm": 0.10541412234306335,
2247
+ "learning_rate": 1.2465753424657537e-05,
2248
+ "loss": 1.3409,
2249
+ "step": 320
2250
+ },
2251
+ {
2252
+ "epoch": 0.4689982649986303,
2253
+ "grad_norm": 0.10836822539567947,
2254
+ "learning_rate": 1.243150684931507e-05,
2255
+ "loss": 1.2551,
2256
+ "step": 321
2257
+ },
2258
+ {
2259
+ "epoch": 0.4704593187836727,
2260
+ "grad_norm": 0.09797906875610352,
2261
+ "learning_rate": 1.2397260273972605e-05,
2262
+ "loss": 1.1954,
2263
+ "step": 322
2264
+ },
2265
+ {
2266
+ "epoch": 0.47192037256871516,
2267
+ "grad_norm": 0.10791884362697601,
2268
+ "learning_rate": 1.2363013698630138e-05,
2269
+ "loss": 1.2677,
2270
+ "step": 323
2271
+ },
2272
+ {
2273
+ "epoch": 0.47338142635375763,
2274
+ "grad_norm": 0.10603371262550354,
2275
+ "learning_rate": 1.2328767123287673e-05,
2276
+ "loss": 1.1747,
2277
+ "step": 324
2278
+ },
2279
+ {
2280
+ "epoch": 0.4748424801388001,
2281
+ "grad_norm": 0.09947334975004196,
2282
+ "learning_rate": 1.2294520547945206e-05,
2283
+ "loss": 1.24,
2284
+ "step": 325
2285
+ },
2286
+ {
2287
+ "epoch": 0.47630353392384256,
2288
+ "grad_norm": 0.0948692336678505,
2289
+ "learning_rate": 1.226027397260274e-05,
2290
+ "loss": 1.3252,
2291
+ "step": 326
2292
+ },
2293
+ {
2294
+ "epoch": 0.477764587708885,
2295
+ "grad_norm": 0.11293943971395493,
2296
+ "learning_rate": 1.2226027397260273e-05,
2297
+ "loss": 1.2193,
2298
+ "step": 327
2299
+ },
2300
+ {
2301
+ "epoch": 0.4792256414939275,
2302
+ "grad_norm": 0.10320023447275162,
2303
+ "learning_rate": 1.219178082191781e-05,
2304
+ "loss": 1.2418,
2305
+ "step": 328
2306
+ },
2307
+ {
2308
+ "epoch": 0.48068669527896996,
2309
+ "grad_norm": 0.1106739267706871,
2310
+ "learning_rate": 1.2157534246575345e-05,
2311
+ "loss": 1.1499,
2312
+ "step": 329
2313
+ },
2314
+ {
2315
+ "epoch": 0.4821477490640124,
2316
+ "grad_norm": 0.1147918552160263,
2317
+ "learning_rate": 1.2123287671232878e-05,
2318
+ "loss": 1.1246,
2319
+ "step": 330
2320
+ },
2321
+ {
2322
+ "epoch": 0.4836088028490549,
2323
+ "grad_norm": 0.10941941291093826,
2324
+ "learning_rate": 1.2089041095890412e-05,
2325
+ "loss": 1.185,
2326
+ "step": 331
2327
+ },
2328
+ {
2329
+ "epoch": 0.48506985663409735,
2330
+ "grad_norm": 0.10806426405906677,
2331
+ "learning_rate": 1.2054794520547945e-05,
2332
+ "loss": 1.2699,
2333
+ "step": 332
2334
+ },
2335
+ {
2336
+ "epoch": 0.4865309104191398,
2337
+ "grad_norm": 0.09904070943593979,
2338
+ "learning_rate": 1.202054794520548e-05,
2339
+ "loss": 1.1772,
2340
+ "step": 333
2341
+ },
2342
+ {
2343
+ "epoch": 0.4879919642041823,
2344
+ "grad_norm": 0.097396120429039,
2345
+ "learning_rate": 1.1986301369863013e-05,
2346
+ "loss": 1.1753,
2347
+ "step": 334
2348
+ },
2349
+ {
2350
+ "epoch": 0.48945301798922475,
2351
+ "grad_norm": 0.10030350089073181,
2352
+ "learning_rate": 1.195205479452055e-05,
2353
+ "loss": 1.22,
2354
+ "step": 335
2355
+ },
2356
+ {
2357
+ "epoch": 0.4909140717742672,
2358
+ "grad_norm": 0.1039762943983078,
2359
+ "learning_rate": 1.1917808219178084e-05,
2360
+ "loss": 1.2396,
2361
+ "step": 336
2362
+ },
2363
+ {
2364
+ "epoch": 0.4923751255593097,
2365
+ "grad_norm": 0.10109396278858185,
2366
+ "learning_rate": 1.1883561643835617e-05,
2367
+ "loss": 1.185,
2368
+ "step": 337
2369
+ },
2370
+ {
2371
+ "epoch": 0.4938361793443521,
2372
+ "grad_norm": 0.1067412868142128,
2373
+ "learning_rate": 1.1849315068493152e-05,
2374
+ "loss": 1.1804,
2375
+ "step": 338
2376
+ },
2377
+ {
2378
+ "epoch": 0.49529723312939455,
2379
+ "grad_norm": 0.1046527549624443,
2380
+ "learning_rate": 1.1815068493150685e-05,
2381
+ "loss": 1.1996,
2382
+ "step": 339
2383
+ },
2384
+ {
2385
+ "epoch": 0.496758286914437,
2386
+ "grad_norm": 0.10973203927278519,
2387
+ "learning_rate": 1.178082191780822e-05,
2388
+ "loss": 1.1812,
2389
+ "step": 340
2390
+ },
2391
+ {
2392
+ "epoch": 0.4982193406994795,
2393
+ "grad_norm": 0.11020953208208084,
2394
+ "learning_rate": 1.1746575342465753e-05,
2395
+ "loss": 1.2603,
2396
+ "step": 341
2397
+ },
2398
+ {
2399
+ "epoch": 0.49968039448452195,
2400
+ "grad_norm": 0.10667795687913895,
2401
+ "learning_rate": 1.171232876712329e-05,
2402
+ "loss": 1.2421,
2403
+ "step": 342
2404
+ },
2405
+ {
2406
+ "epoch": 0.5011414482695644,
2407
+ "grad_norm": 0.0992070883512497,
2408
+ "learning_rate": 1.1678082191780822e-05,
2409
+ "loss": 1.1995,
2410
+ "step": 343
2411
+ },
2412
+ {
2413
+ "epoch": 0.5026025020546069,
2414
+ "grad_norm": 0.11278413236141205,
2415
+ "learning_rate": 1.1643835616438357e-05,
2416
+ "loss": 1.2166,
2417
+ "step": 344
2418
+ },
2419
+ {
2420
+ "epoch": 0.5040635558396493,
2421
+ "grad_norm": 0.11119436472654343,
2422
+ "learning_rate": 1.1609589041095892e-05,
2423
+ "loss": 1.2551,
2424
+ "step": 345
2425
+ },
2426
+ {
2427
+ "epoch": 0.5055246096246918,
2428
+ "grad_norm": 0.11275441944599152,
2429
+ "learning_rate": 1.1575342465753425e-05,
2430
+ "loss": 1.2082,
2431
+ "step": 346
2432
+ },
2433
+ {
2434
+ "epoch": 0.5069856634097343,
2435
+ "grad_norm": 0.10059484094381332,
2436
+ "learning_rate": 1.154109589041096e-05,
2437
+ "loss": 1.172,
2438
+ "step": 347
2439
+ },
2440
+ {
2441
+ "epoch": 0.5084467171947767,
2442
+ "grad_norm": 0.11156380921602249,
2443
+ "learning_rate": 1.1506849315068493e-05,
2444
+ "loss": 1.1818,
2445
+ "step": 348
2446
+ },
2447
+ {
2448
+ "epoch": 0.5099077709798192,
2449
+ "grad_norm": 0.09762994199991226,
2450
+ "learning_rate": 1.147260273972603e-05,
2451
+ "loss": 1.1674,
2452
+ "step": 349
2453
+ },
2454
+ {
2455
+ "epoch": 0.5113688247648617,
2456
+ "grad_norm": 0.10659226775169373,
2457
+ "learning_rate": 1.1438356164383562e-05,
2458
+ "loss": 1.1513,
2459
+ "step": 350
2460
+ },
2461
+ {
2462
+ "epoch": 0.5128298785499041,
2463
+ "grad_norm": 0.11233004927635193,
2464
+ "learning_rate": 1.1404109589041097e-05,
2465
+ "loss": 1.1637,
2466
+ "step": 351
2467
+ },
2468
+ {
2469
+ "epoch": 0.5142909323349466,
2470
+ "grad_norm": 0.10431814193725586,
2471
+ "learning_rate": 1.1369863013698632e-05,
2472
+ "loss": 1.2148,
2473
+ "step": 352
2474
+ },
2475
+ {
2476
+ "epoch": 0.5157519861199891,
2477
+ "grad_norm": 0.09940113872289658,
2478
+ "learning_rate": 1.1335616438356165e-05,
2479
+ "loss": 1.1836,
2480
+ "step": 353
2481
+ },
2482
+ {
2483
+ "epoch": 0.5172130399050315,
2484
+ "grad_norm": 0.09862768650054932,
2485
+ "learning_rate": 1.1301369863013701e-05,
2486
+ "loss": 1.2356,
2487
+ "step": 354
2488
+ },
2489
+ {
2490
+ "epoch": 0.518674093690074,
2491
+ "grad_norm": 0.10437644273042679,
2492
+ "learning_rate": 1.1267123287671232e-05,
2493
+ "loss": 1.1193,
2494
+ "step": 355
2495
+ },
2496
+ {
2497
+ "epoch": 0.5201351474751165,
2498
+ "grad_norm": 0.09749601781368256,
2499
+ "learning_rate": 1.1232876712328769e-05,
2500
+ "loss": 1.2704,
2501
+ "step": 356
2502
+ },
2503
+ {
2504
+ "epoch": 0.5215962012601589,
2505
+ "grad_norm": 0.1042131707072258,
2506
+ "learning_rate": 1.1198630136986302e-05,
2507
+ "loss": 1.156,
2508
+ "step": 357
2509
+ },
2510
+ {
2511
+ "epoch": 0.5230572550452014,
2512
+ "grad_norm": 0.10424741357564926,
2513
+ "learning_rate": 1.1164383561643837e-05,
2514
+ "loss": 1.2334,
2515
+ "step": 358
2516
+ },
2517
+ {
2518
+ "epoch": 0.5245183088302439,
2519
+ "grad_norm": 0.09913278371095657,
2520
+ "learning_rate": 1.113013698630137e-05,
2521
+ "loss": 1.1721,
2522
+ "step": 359
2523
+ },
2524
+ {
2525
+ "epoch": 0.5259793626152863,
2526
+ "grad_norm": 0.11436072736978531,
2527
+ "learning_rate": 1.1095890410958904e-05,
2528
+ "loss": 1.1675,
2529
+ "step": 360
2530
+ },
2531
+ {
2532
+ "epoch": 0.5274404164003287,
2533
+ "grad_norm": 0.1049785315990448,
2534
+ "learning_rate": 1.1061643835616441e-05,
2535
+ "loss": 1.1788,
2536
+ "step": 361
2537
  }
2538
  ],
2539
  "logging_steps": 1,
 
2553
  "attributes": {}
2554
  }
2555
  },
2556
+ "total_flos": 4.0655166024812544e+17,
2557
  "train_batch_size": 4,
2558
  "trial_name": null,
2559
  "trial_params": null