tattrongvu commited on 20 days ago

Commit

7e6afe8

verified ·

1 Parent(s): 6e77e2d

Upload 57 files

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

adapter_config.json +26 -0
adapter_model.safetensors +3 -0
added_tokens.json +16 -0
chat_template.json +3 -0
checkpoint-1137/adapter_config.json +26 -0
checkpoint-1137/adapter_model.safetensors +3 -0
checkpoint-1137/generation_config.json +14 -0
checkpoint-1137/optimizer.pt +3 -0
checkpoint-1137/rng_state_0.pth +3 -0
checkpoint-1137/rng_state_1.pth +3 -0
checkpoint-1137/rng_state_2.pth +3 -0
checkpoint-1137/rng_state_3.pth +3 -0
checkpoint-1137/rng_state_4.pth +3 -0
checkpoint-1137/rng_state_5.pth +3 -0
checkpoint-1137/rng_state_6.pth +3 -0
checkpoint-1137/rng_state_7.pth +3 -0
checkpoint-1137/scheduler.pt +3 -0
checkpoint-1137/trainer_state.json +609 -0
checkpoint-1137/training_args.bin +3 -0
checkpoint-1516/adapter_config.json +26 -0
checkpoint-1516/adapter_model.safetensors +3 -0
checkpoint-1516/generation_config.json +14 -0
checkpoint-1516/optimizer.pt +3 -0
checkpoint-1516/rng_state_0.pth +3 -0
checkpoint-1516/rng_state_1.pth +3 -0
checkpoint-1516/rng_state_2.pth +3 -0
checkpoint-1516/rng_state_3.pth +3 -0
checkpoint-1516/rng_state_4.pth +3 -0
checkpoint-1516/rng_state_5.pth +3 -0
checkpoint-1516/rng_state_6.pth +3 -0
checkpoint-1516/rng_state_7.pth +3 -0
checkpoint-1516/scheduler.pt +3 -0
checkpoint-1516/trainer_state.json +806 -0
checkpoint-1516/training_args.bin +3 -0
checkpoint-1895/adapter_config.json +26 -0
checkpoint-1895/adapter_model.safetensors +3 -0
checkpoint-1895/generation_config.json +14 -0
checkpoint-1895/optimizer.pt +3 -0
checkpoint-1895/rng_state_0.pth +3 -0
checkpoint-1895/rng_state_1.pth +3 -0
checkpoint-1895/rng_state_2.pth +3 -0
checkpoint-1895/rng_state_3.pth +3 -0
checkpoint-1895/rng_state_4.pth +3 -0
checkpoint-1895/rng_state_5.pth +3 -0
checkpoint-1895/rng_state_6.pth +3 -0
checkpoint-1895/rng_state_7.pth +3 -0
checkpoint-1895/scheduler.pt +3 -0
checkpoint-1895/trainer_state.json +995 -0
checkpoint-1895/training_args.bin +3 -0
generation_config.json +14 -0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "vidore/colqwen2-base",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": "gaussian",
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 128,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": "(.*(model).*(down_proj|gate_proj|up_proj|k_proj|q_proj|v_proj|o_proj).*$|.*(custom_text_proj).*$)",
+  "task_type": "FEATURE_EXTRACTION",
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c42115acdfbac77d6ad3cd0992cac6b57ceb4fc0caab3ac9aa65716d5c31e771
+size 295915936

added_tokens.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

chat_template.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "chat_template": "{% set image_count = namespace(value=0) %}{% set video_count = namespace(value=0) %}{% for message in messages %}{% if loop.first and message['role'] != 'system' %}<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n{% endif %}<|im_start|>{{ message['role'] }}\n{% if message['content'] is string %}{{ message['content'] }}<|im_end|>\n{% else %}{% for content in message['content'] %}{% if content['type'] == 'image' or 'image' in content or 'image_url' in content %}{% set image_count.value = image_count.value + 1 %}{% if add_vision_id %}Picture {{ image_count.value }}: {% endif %}<|vision_start|><|image_pad|><|vision_end|>{% elif content['type'] == 'video' or 'video' in content %}{% set video_count.value = video_count.value + 1 %}{% if add_vision_id %}Video {{ video_count.value }}: {% endif %}<|vision_start|><|video_pad|><|vision_end|>{% elif 'text' in content %}{{ content['text'] }}{% endif %}{% endfor %}<|im_end|>\n{% endif %}{% endfor %}{% if add_generation_prompt %}<|im_start|>assistant\n{% endif %}"
+}

checkpoint-1137/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/home/pv_rwm_models/models/colqwen2-base",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": "gaussian",
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 128,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": "(.*(model).*(down_proj|gate_proj|up_proj|k_proj|q_proj|v_proj|o_proj).*$|.*(custom_text_proj).*$)",
+  "task_type": "FEATURE_EXTRACTION",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoint-1137/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:641ec4216b7332961fd4c782686bea95a84d362f4673b0dd978b1717f1e835bf
+size 295915936

checkpoint-1137/generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "attn_implementation": "flash_attention_2",
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.01,
+  "top_k": 1,
+  "top_p": 0.001,
+  "transformers_version": "4.46.3"
+}

checkpoint-1137/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7203dd9efbb829e0d9fce93b4da2106a7cc7ca88b434a6d22532d2395a166141
+size 592056816

checkpoint-1137/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8dfe83380afd02e39e99a452ffa4d0e2ed6cf9dc67102f3b1f8d92f6e58b7b61
+size 15920

checkpoint-1137/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45e151cc59a71fe4be7f2c4af3813dc815440d9b69f665243ffdde6af209f47f
+size 15920

checkpoint-1137/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d9806843fadafe99ac79ed0f989905231a01f31b46537122656af6dca41a56f
+size 15920

checkpoint-1137/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a9388c726ec6adbd0a1e8f7c95c4c2ca6810f34dd6b1f4a5741d93c8875609ad
+size 15920

checkpoint-1137/rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:110bec9a33476e4807b85778f0b15ca30064f71eebac2d0c66eb7770a14fd256
+size 15920

checkpoint-1137/rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6bf4847286fca82e1e6a60e71b0e53660e16d33c4e3023fed8635447b49195b4
+size 15920

checkpoint-1137/rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4682b50c72ea5dd8bae1b4e43373e007756c1519b805597f29b23bfc84030729
+size 15920

checkpoint-1137/rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ecb6005cc8ddfe00d00c9e2c9f41bda27cc503e73bc78577188fbcda6beb384d
+size 15920

checkpoint-1137/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4091fdd205669b2e0406ab4e0ed89397fae90307c5f2a4d59f636f4a9012111
+size 1064

checkpoint-1137/trainer_state.json ADDED Viewed

	@@ -0,0 +1,609 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 50,
+  "global_step": 1137,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.002638522427440633,
+      "eval_loss": 0.3697243332862854,
+      "eval_runtime": 31.4109,
+      "eval_samples_per_second": 63.672,
+      "eval_steps_per_second": 0.255,
+      "step": 1
+    },
+    {
+      "epoch": 0.052770448548812667,
+      "grad_norm": 0.26953125,
+      "learning_rate": 0.00010526315789473685,
+      "loss": 0.3823,
+      "step": 20
+    },
+    {
+      "epoch": 0.10554089709762533,
+      "grad_norm": 0.201171875,
+      "learning_rate": 0.0001997845988152935,
+      "loss": 0.2239,
+      "step": 40
+    },
+    {
+      "epoch": 0.13192612137203166,
+      "eval_loss": 0.11808302253484726,
+      "eval_runtime": 29.4538,
+      "eval_samples_per_second": 67.903,
+      "eval_steps_per_second": 0.272,
+      "step": 50
+    },
+    {
+      "epoch": 0.158311345646438,
+      "grad_norm": 0.1962890625,
+      "learning_rate": 0.00019763058696822833,
+      "loss": 0.1799,
+      "step": 60
+    },
+    {
+      "epoch": 0.21108179419525067,
+      "grad_norm": 0.1943359375,
+      "learning_rate": 0.0001954765751211632,
+      "loss": 0.1651,
+      "step": 80
+    },
+    {
+      "epoch": 0.2638522427440633,
+      "grad_norm": 0.2255859375,
+      "learning_rate": 0.00019332256327409802,
+      "loss": 0.1571,
+      "step": 100
+    },
+    {
+      "epoch": 0.2638522427440633,
+      "eval_loss": 0.09250890463590622,
+      "eval_runtime": 28.2273,
+      "eval_samples_per_second": 70.853,
+      "eval_steps_per_second": 0.283,
+      "step": 100
+    },
+    {
+      "epoch": 0.316622691292876,
+      "grad_norm": 0.2333984375,
+      "learning_rate": 0.00019116855142703286,
+      "loss": 0.1535,
+      "step": 120
+    },
+    {
+      "epoch": 0.36939313984168864,
+      "grad_norm": 0.1611328125,
+      "learning_rate": 0.00018901453957996772,
+      "loss": 0.1456,
+      "step": 140
+    },
+    {
+      "epoch": 0.39577836411609496,
+      "eval_loss": 0.08707328885793686,
+      "eval_runtime": 27.6259,
+      "eval_samples_per_second": 72.396,
+      "eval_steps_per_second": 0.29,
+      "step": 150
+    },
+    {
+      "epoch": 0.42216358839050133,
+      "grad_norm": 0.1884765625,
+      "learning_rate": 0.00018686052773290255,
+      "loss": 0.1402,
+      "step": 160
+    },
+    {
+      "epoch": 0.47493403693931396,
+      "grad_norm": 0.2109375,
+      "learning_rate": 0.0001847065158858374,
+      "loss": 0.142,
+      "step": 180
+    },
+    {
+      "epoch": 0.5277044854881267,
+      "grad_norm": 0.1533203125,
+      "learning_rate": 0.00018255250403877222,
+      "loss": 0.1318,
+      "step": 200
+    },
+    {
+      "epoch": 0.5277044854881267,
+      "eval_loss": 0.080934077501297,
+      "eval_runtime": 27.3743,
+      "eval_samples_per_second": 73.061,
+      "eval_steps_per_second": 0.292,
+      "step": 200
+    },
+    {
+      "epoch": 0.5804749340369393,
+      "grad_norm": 0.216796875,
+      "learning_rate": 0.00018039849219170706,
+      "loss": 0.1301,
+      "step": 220
+    },
+    {
+      "epoch": 0.633245382585752,
+      "grad_norm": 0.162109375,
+      "learning_rate": 0.0001782444803446419,
+      "loss": 0.1317,
+      "step": 240
+    },
+    {
+      "epoch": 0.6596306068601583,
+      "eval_loss": 0.0750429555773735,
+      "eval_runtime": 27.7505,
+      "eval_samples_per_second": 72.071,
+      "eval_steps_per_second": 0.288,
+      "step": 250
+    },
+    {
+      "epoch": 0.6860158311345647,
+      "grad_norm": 0.185546875,
+      "learning_rate": 0.00017609046849757676,
+      "loss": 0.1269,
+      "step": 260
+    },
+    {
+      "epoch": 0.7387862796833773,
+      "grad_norm": 0.203125,
+      "learning_rate": 0.0001739364566505116,
+      "loss": 0.1267,
+      "step": 280
+    },
+    {
+      "epoch": 0.7915567282321899,
+      "grad_norm": 0.1455078125,
+      "learning_rate": 0.00017178244480344642,
+      "loss": 0.1226,
+      "step": 300
+    },
+    {
+      "epoch": 0.7915567282321899,
+      "eval_loss": 0.07792137563228607,
+      "eval_runtime": 27.3248,
+      "eval_samples_per_second": 73.194,
+      "eval_steps_per_second": 0.293,
+      "step": 300
+    },
+    {
+      "epoch": 0.8443271767810027,
+      "grad_norm": 0.1630859375,
+      "learning_rate": 0.00016962843295638126,
+      "loss": 0.1222,
+      "step": 320
+    },
+    {
+      "epoch": 0.8970976253298153,
+      "grad_norm": 0.173828125,
+      "learning_rate": 0.0001674744211093161,
+      "loss": 0.1254,
+      "step": 340
+    },
+    {
+      "epoch": 0.9234828496042217,
+      "eval_loss": 0.07484881579875946,
+      "eval_runtime": 27.8135,
+      "eval_samples_per_second": 71.907,
+      "eval_steps_per_second": 0.288,
+      "step": 350
+    },
+    {
+      "epoch": 0.9498680738786279,
+      "grad_norm": 0.1728515625,
+      "learning_rate": 0.00016532040926225093,
+      "loss": 0.1177,
+      "step": 360
+    },
+    {
+      "epoch": 1.0026385224274406,
+      "grad_norm": 0.1220703125,
+      "learning_rate": 0.0001631663974151858,
+      "loss": 0.1207,
+      "step": 380
+    },
+    {
+      "epoch": 1.0554089709762533,
+      "grad_norm": 0.1591796875,
+      "learning_rate": 0.00016101238556812063,
+      "loss": 0.1046,
+      "step": 400
+    },
+    {
+      "epoch": 1.0554089709762533,
+      "eval_loss": 0.0715707540512085,
+      "eval_runtime": 27.7758,
+      "eval_samples_per_second": 72.005,
+      "eval_steps_per_second": 0.288,
+      "step": 400
+    },
+    {
+      "epoch": 1.108179419525066,
+      "grad_norm": 0.1142578125,
+      "learning_rate": 0.0001588583737210555,
+      "loss": 0.1041,
+      "step": 420
+    },
+    {
+      "epoch": 1.1609498680738786,
+      "grad_norm": 0.177734375,
+      "learning_rate": 0.00015670436187399032,
+      "loss": 0.1034,
+      "step": 440
+    },
+    {
+      "epoch": 1.187335092348285,
+      "eval_loss": 0.0693235993385315,
+      "eval_runtime": 27.7658,
+      "eval_samples_per_second": 72.031,
+      "eval_steps_per_second": 0.288,
+      "step": 450
+    },
+    {
+      "epoch": 1.2137203166226913,
+      "grad_norm": 0.1630859375,
+      "learning_rate": 0.00015455035002692516,
+      "loss": 0.1042,
+      "step": 460
+    },
+    {
+      "epoch": 1.266490765171504,
+      "grad_norm": 0.1611328125,
+      "learning_rate": 0.00015239633817986,
+      "loss": 0.1032,
+      "step": 480
+    },
+    {
+      "epoch": 1.3192612137203166,
+      "grad_norm": 0.169921875,
+      "learning_rate": 0.00015024232633279485,
+      "loss": 0.1021,
+      "step": 500
+    },
+    {
+      "epoch": 1.3192612137203166,
+      "eval_loss": 0.06579812616109848,
+      "eval_runtime": 27.42,
+      "eval_samples_per_second": 72.939,
+      "eval_steps_per_second": 0.292,
+      "step": 500
+    },
+    {
+      "epoch": 1.3720316622691293,
+      "grad_norm": 0.1611328125,
+      "learning_rate": 0.0001480883144857297,
+      "loss": 0.1041,
+      "step": 520
+    },
+    {
+      "epoch": 1.424802110817942,
+      "grad_norm": 0.11474609375,
+      "learning_rate": 0.00014593430263866452,
+      "loss": 0.1006,
+      "step": 540
+    },
+    {
+      "epoch": 1.4511873350923483,
+      "eval_loss": 0.06417644023895264,
+      "eval_runtime": 27.5371,
+      "eval_samples_per_second": 72.629,
+      "eval_steps_per_second": 0.291,
+      "step": 550
+    },
+    {
+      "epoch": 1.4775725593667546,
+      "grad_norm": 0.1259765625,
+      "learning_rate": 0.00014378029079159936,
+      "loss": 0.1001,
+      "step": 560
+    },
+    {
+      "epoch": 1.5303430079155673,
+      "grad_norm": 0.146484375,
+      "learning_rate": 0.0001416262789445342,
+      "loss": 0.1013,
+      "step": 580
+    },
+    {
+      "epoch": 1.58311345646438,
+      "grad_norm": 0.1591796875,
+      "learning_rate": 0.00013947226709746903,
+      "loss": 0.1,
+      "step": 600
+    },
+    {
+      "epoch": 1.58311345646438,
+      "eval_loss": 0.06583409756422043,
+      "eval_runtime": 28.0223,
+      "eval_samples_per_second": 71.372,
+      "eval_steps_per_second": 0.285,
+      "step": 600
+    },
+    {
+      "epoch": 1.6358839050131926,
+      "grad_norm": 0.1611328125,
+      "learning_rate": 0.0001373182552504039,
+      "loss": 0.1021,
+      "step": 620
+    },
+    {
+      "epoch": 1.6886543535620053,
+      "grad_norm": 0.14453125,
+      "learning_rate": 0.00013516424340333873,
+      "loss": 0.1002,
+      "step": 640
+    },
+    {
+      "epoch": 1.7150395778364116,
+      "eval_loss": 0.06498919427394867,
+      "eval_runtime": 28.3581,
+      "eval_samples_per_second": 70.527,
+      "eval_steps_per_second": 0.282,
+      "step": 650
+    },
+    {
+      "epoch": 1.741424802110818,
+      "grad_norm": 0.111328125,
+      "learning_rate": 0.00013301023155627356,
+      "loss": 0.0967,
+      "step": 660
+    },
+    {
+      "epoch": 1.7941952506596306,
+      "grad_norm": 0.1884765625,
+      "learning_rate": 0.0001308562197092084,
+      "loss": 0.1004,
+      "step": 680
+    },
+    {
+      "epoch": 1.8469656992084431,
+      "grad_norm": 0.13671875,
+      "learning_rate": 0.00012870220786214323,
+      "loss": 0.0992,
+      "step": 700
+    },
+    {
+      "epoch": 1.8469656992084431,
+      "eval_loss": 0.06491042673587799,
+      "eval_runtime": 27.748,
+      "eval_samples_per_second": 72.077,
+      "eval_steps_per_second": 0.288,
+      "step": 700
+    },
+    {
+      "epoch": 1.899736147757256,
+      "grad_norm": 0.15234375,
+      "learning_rate": 0.0001265481960150781,
+      "loss": 0.0967,
+      "step": 720
+    },
+    {
+      "epoch": 1.9525065963060686,
+      "grad_norm": 0.12451171875,
+      "learning_rate": 0.00012439418416801293,
+      "loss": 0.0956,
+      "step": 740
+    },
+    {
+      "epoch": 1.978891820580475,
+      "eval_loss": 0.06425958126783371,
+      "eval_runtime": 27.654,
+      "eval_samples_per_second": 72.322,
+      "eval_steps_per_second": 0.289,
+      "step": 750
+    },
+    {
+      "epoch": 2.005277044854881,
+      "grad_norm": 0.12060546875,
+      "learning_rate": 0.0001222401723209478,
+      "loss": 0.0934,
+      "step": 760
+    },
+    {
+      "epoch": 2.058047493403694,
+      "grad_norm": 0.171875,
+      "learning_rate": 0.00012008616047388261,
+      "loss": 0.0907,
+      "step": 780
+    },
+    {
+      "epoch": 2.1108179419525066,
+      "grad_norm": 0.16796875,
+      "learning_rate": 0.00011793214862681745,
+      "loss": 0.0861,
+      "step": 800
+    },
+    {
+      "epoch": 2.1108179419525066,
+      "eval_loss": 0.06223862245678902,
+      "eval_runtime": 27.4046,
+      "eval_samples_per_second": 72.981,
+      "eval_steps_per_second": 0.292,
+      "step": 800
+    },
+    {
+      "epoch": 2.163588390501319,
+      "grad_norm": 0.134765625,
+      "learning_rate": 0.0001157781367797523,
+      "loss": 0.0864,
+      "step": 820
+    },
+    {
+      "epoch": 2.216358839050132,
+      "grad_norm": 0.123046875,
+      "learning_rate": 0.00011362412493268713,
+      "loss": 0.0842,
+      "step": 840
+    },
+    {
+      "epoch": 2.242744063324538,
+      "eval_loss": 0.060463495552539825,
+      "eval_runtime": 27.4597,
+      "eval_samples_per_second": 72.834,
+      "eval_steps_per_second": 0.291,
+      "step": 850
+    },
+    {
+      "epoch": 2.2691292875989446,
+      "grad_norm": 0.1435546875,
+      "learning_rate": 0.00011147011308562199,
+      "loss": 0.0863,
+      "step": 860
+    },
+    {
+      "epoch": 2.321899736147757,
+      "grad_norm": 0.1494140625,
+      "learning_rate": 0.00010931610123855683,
+      "loss": 0.0858,
+      "step": 880
+    },
+    {
+      "epoch": 2.37467018469657,
+      "grad_norm": 0.1259765625,
+      "learning_rate": 0.00010716208939149166,
+      "loss": 0.0866,
+      "step": 900
+    },
+    {
+      "epoch": 2.37467018469657,
+      "eval_loss": 0.06099672615528107,
+      "eval_runtime": 27.7635,
+      "eval_samples_per_second": 72.037,
+      "eval_steps_per_second": 0.288,
+      "step": 900
+    },
+    {
+      "epoch": 2.4274406332453826,
+      "grad_norm": 0.1376953125,
+      "learning_rate": 0.0001050080775444265,
+      "loss": 0.0873,
+      "step": 920
+    },
+    {
+      "epoch": 2.480211081794195,
+      "grad_norm": 0.158203125,
+      "learning_rate": 0.00010285406569736133,
+      "loss": 0.0853,
+      "step": 940
+    },
+    {
+      "epoch": 2.5065963060686016,
+      "eval_loss": 0.06115744262933731,
+      "eval_runtime": 27.8521,
+      "eval_samples_per_second": 71.808,
+      "eval_steps_per_second": 0.287,
+      "step": 950
+    },
+    {
+      "epoch": 2.532981530343008,
+      "grad_norm": 0.1259765625,
+      "learning_rate": 0.00010070005385029618,
+      "loss": 0.0849,
+      "step": 960
+    },
+    {
+      "epoch": 2.5857519788918206,
+      "grad_norm": 0.1318359375,
+      "learning_rate": 9.854604200323103e-05,
+      "loss": 0.0814,
+      "step": 980
+    },
+    {
+      "epoch": 2.638522427440633,
+      "grad_norm": 0.1376953125,
+      "learning_rate": 9.639203015616588e-05,
+      "loss": 0.0864,
+      "step": 1000
+    },
+    {
+      "epoch": 2.638522427440633,
+      "eval_loss": 0.05968466028571129,
+      "eval_runtime": 27.6897,
+      "eval_samples_per_second": 72.229,
+      "eval_steps_per_second": 0.289,
+      "step": 1000
+    },
+    {
+      "epoch": 2.691292875989446,
+      "grad_norm": 0.16015625,
+      "learning_rate": 9.423801830910071e-05,
+      "loss": 0.0869,
+      "step": 1020
+    },
+    {
+      "epoch": 2.7440633245382586,
+      "grad_norm": 0.12890625,
+      "learning_rate": 9.208400646203555e-05,
+      "loss": 0.0821,
+      "step": 1040
+    },
+    {
+      "epoch": 2.7704485488126647,
+      "eval_loss": 0.059157080948352814,
+      "eval_runtime": 27.7435,
+      "eval_samples_per_second": 72.089,
+      "eval_steps_per_second": 0.288,
+      "step": 1050
+    },
+    {
+      "epoch": 2.796833773087071,
+      "grad_norm": 0.1337890625,
+      "learning_rate": 8.99299946149704e-05,
+      "loss": 0.0842,
+      "step": 1060
+    },
+    {
+      "epoch": 2.849604221635884,
+      "grad_norm": 0.1513671875,
+      "learning_rate": 8.777598276790523e-05,
+      "loss": 0.0846,
+      "step": 1080
+    },
+    {
+      "epoch": 2.9023746701846966,
+      "grad_norm": 0.1328125,
+      "learning_rate": 8.562197092084006e-05,
+      "loss": 0.0841,
+      "step": 1100
+    },
+    {
+      "epoch": 2.9023746701846966,
+      "eval_loss": 0.05879725515842438,
+      "eval_runtime": 27.612,
+      "eval_samples_per_second": 72.432,
+      "eval_steps_per_second": 0.29,
+      "step": 1100
+    },
+    {
+      "epoch": 2.955145118733509,
+      "grad_norm": 0.1455078125,
+      "learning_rate": 8.346795907377491e-05,
+      "loss": 0.0809,
+      "step": 1120
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 1895,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.527787484038457e+19,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1137/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22bcb641e1380aac3e0a537740052e2d8d16eda981f3eee0acf549dc506b6fc5
+size 5496

checkpoint-1516/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/home/pv_rwm_models/models/colqwen2-base",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": "gaussian",
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 128,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": "(.*(model).*(down_proj|gate_proj|up_proj|k_proj|q_proj|v_proj|o_proj).*$|.*(custom_text_proj).*$)",
+  "task_type": "FEATURE_EXTRACTION",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoint-1516/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c580aa851cabe54fc22f26cdb740deeee6dee2943016300ccfdad72b26da592
+size 295915936

checkpoint-1516/generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "attn_implementation": "flash_attention_2",
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.01,
+  "top_k": 1,
+  "top_p": 0.001,
+  "transformers_version": "4.46.3"
+}

checkpoint-1516/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6583dba1a58705127a72e49b37d7e1542fdd6fb62d256acb1705b96f7e82f303
+size 592056816

checkpoint-1516/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b0ba13064fbf321a4eb0e1ed3fee40f0fd95acee64afbc00f47b596d37f1fe1
+size 15920

checkpoint-1516/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d57aa5e0bde1a888e7fff30fa063c46effd84d31bf93a0d16ad9cd6805c87946
+size 15920

checkpoint-1516/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:366a123cb93b9f156c870f60dd41696c26a829c68e4de7be456529ee7f0a56e4
+size 15920

checkpoint-1516/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c85a46817fed8889369af9ec74d0548eab259ec50c8ba9d0edfcbe41fd510b9
+size 15920

checkpoint-1516/rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4913a2578db3305d59ec94ed4b15383c18fba2f81b83503c62aa273015e74e39
+size 15920

checkpoint-1516/rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04cdf56e79b92c0efb8ba087f90b4de8850ec89166f10cef5840f7cbd41b8f75
+size 15920

checkpoint-1516/rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a0d9b6a689b60bbfc2cc7e2cfc0d9c50ae0087eeb6a40d9bc9af95a91502eb1
+size 15920

checkpoint-1516/rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15f91b072e1ad8a4e2cf1e6f3b9bed4795f17c286df4d6f0ef7a0afdd42c4b01
+size 15920

checkpoint-1516/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:20ba51cc4dc1b58a3f92ee2894c92ca4536c4332a2995e91b4af3a3831fa0d08
+size 1064

checkpoint-1516/trainer_state.json ADDED Viewed

	@@ -0,0 +1,806 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.0,
+  "eval_steps": 50,
+  "global_step": 1516,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.002638522427440633,
+      "eval_loss": 0.3697243332862854,
+      "eval_runtime": 31.4109,
+      "eval_samples_per_second": 63.672,
+      "eval_steps_per_second": 0.255,
+      "step": 1
+    },
+    {
+      "epoch": 0.052770448548812667,
+      "grad_norm": 0.26953125,
+      "learning_rate": 0.00010526315789473685,
+      "loss": 0.3823,
+      "step": 20
+    },
+    {
+      "epoch": 0.10554089709762533,
+      "grad_norm": 0.201171875,
+      "learning_rate": 0.0001997845988152935,
+      "loss": 0.2239,
+      "step": 40
+    },
+    {
+      "epoch": 0.13192612137203166,
+      "eval_loss": 0.11808302253484726,
+      "eval_runtime": 29.4538,
+      "eval_samples_per_second": 67.903,
+      "eval_steps_per_second": 0.272,
+      "step": 50
+    },
+    {
+      "epoch": 0.158311345646438,
+      "grad_norm": 0.1962890625,
+      "learning_rate": 0.00019763058696822833,
+      "loss": 0.1799,
+      "step": 60
+    },
+    {
+      "epoch": 0.21108179419525067,
+      "grad_norm": 0.1943359375,
+      "learning_rate": 0.0001954765751211632,
+      "loss": 0.1651,
+      "step": 80
+    },
+    {
+      "epoch": 0.2638522427440633,
+      "grad_norm": 0.2255859375,
+      "learning_rate": 0.00019332256327409802,
+      "loss": 0.1571,
+      "step": 100
+    },
+    {
+      "epoch": 0.2638522427440633,
+      "eval_loss": 0.09250890463590622,
+      "eval_runtime": 28.2273,
+      "eval_samples_per_second": 70.853,
+      "eval_steps_per_second": 0.283,
+      "step": 100
+    },
+    {
+      "epoch": 0.316622691292876,
+      "grad_norm": 0.2333984375,
+      "learning_rate": 0.00019116855142703286,
+      "loss": 0.1535,
+      "step": 120
+    },
+    {
+      "epoch": 0.36939313984168864,
+      "grad_norm": 0.1611328125,
+      "learning_rate": 0.00018901453957996772,
+      "loss": 0.1456,
+      "step": 140
+    },
+    {
+      "epoch": 0.39577836411609496,
+      "eval_loss": 0.08707328885793686,
+      "eval_runtime": 27.6259,
+      "eval_samples_per_second": 72.396,
+      "eval_steps_per_second": 0.29,
+      "step": 150
+    },
+    {
+      "epoch": 0.42216358839050133,
+      "grad_norm": 0.1884765625,
+      "learning_rate": 0.00018686052773290255,
+      "loss": 0.1402,
+      "step": 160
+    },
+    {
+      "epoch": 0.47493403693931396,
+      "grad_norm": 0.2109375,
+      "learning_rate": 0.0001847065158858374,
+      "loss": 0.142,
+      "step": 180
+    },
+    {
+      "epoch": 0.5277044854881267,
+      "grad_norm": 0.1533203125,
+      "learning_rate": 0.00018255250403877222,
+      "loss": 0.1318,
+      "step": 200
+    },
+    {
+      "epoch": 0.5277044854881267,
+      "eval_loss": 0.080934077501297,
+      "eval_runtime": 27.3743,
+      "eval_samples_per_second": 73.061,
+      "eval_steps_per_second": 0.292,
+      "step": 200
+    },
+    {
+      "epoch": 0.5804749340369393,
+      "grad_norm": 0.216796875,
+      "learning_rate": 0.00018039849219170706,
+      "loss": 0.1301,
+      "step": 220
+    },
+    {
+      "epoch": 0.633245382585752,
+      "grad_norm": 0.162109375,
+      "learning_rate": 0.0001782444803446419,
+      "loss": 0.1317,
+      "step": 240
+    },
+    {
+      "epoch": 0.6596306068601583,
+      "eval_loss": 0.0750429555773735,
+      "eval_runtime": 27.7505,
+      "eval_samples_per_second": 72.071,
+      "eval_steps_per_second": 0.288,
+      "step": 250
+    },
+    {
+      "epoch": 0.6860158311345647,
+      "grad_norm": 0.185546875,
+      "learning_rate": 0.00017609046849757676,
+      "loss": 0.1269,
+      "step": 260
+    },
+    {
+      "epoch": 0.7387862796833773,
+      "grad_norm": 0.203125,
+      "learning_rate": 0.0001739364566505116,
+      "loss": 0.1267,
+      "step": 280
+    },
+    {
+      "epoch": 0.7915567282321899,
+      "grad_norm": 0.1455078125,
+      "learning_rate": 0.00017178244480344642,
+      "loss": 0.1226,
+      "step": 300
+    },
+    {
+      "epoch": 0.7915567282321899,
+      "eval_loss": 0.07792137563228607,
+      "eval_runtime": 27.3248,
+      "eval_samples_per_second": 73.194,
+      "eval_steps_per_second": 0.293,
+      "step": 300
+    },
+    {
+      "epoch": 0.8443271767810027,
+      "grad_norm": 0.1630859375,
+      "learning_rate": 0.00016962843295638126,
+      "loss": 0.1222,
+      "step": 320
+    },
+    {
+      "epoch": 0.8970976253298153,
+      "grad_norm": 0.173828125,
+      "learning_rate": 0.0001674744211093161,
+      "loss": 0.1254,
+      "step": 340
+    },
+    {
+      "epoch": 0.9234828496042217,
+      "eval_loss": 0.07484881579875946,
+      "eval_runtime": 27.8135,
+      "eval_samples_per_second": 71.907,
+      "eval_steps_per_second": 0.288,
+      "step": 350
+    },
+    {
+      "epoch": 0.9498680738786279,
+      "grad_norm": 0.1728515625,
+      "learning_rate": 0.00016532040926225093,
+      "loss": 0.1177,
+      "step": 360
+    },
+    {
+      "epoch": 1.0026385224274406,
+      "grad_norm": 0.1220703125,
+      "learning_rate": 0.0001631663974151858,
+      "loss": 0.1207,
+      "step": 380
+    },
+    {
+      "epoch": 1.0554089709762533,
+      "grad_norm": 0.1591796875,
+      "learning_rate": 0.00016101238556812063,
+      "loss": 0.1046,
+      "step": 400
+    },
+    {
+      "epoch": 1.0554089709762533,
+      "eval_loss": 0.0715707540512085,
+      "eval_runtime": 27.7758,
+      "eval_samples_per_second": 72.005,
+      "eval_steps_per_second": 0.288,
+      "step": 400
+    },
+    {
+      "epoch": 1.108179419525066,
+      "grad_norm": 0.1142578125,
+      "learning_rate": 0.0001588583737210555,
+      "loss": 0.1041,
+      "step": 420
+    },
+    {
+      "epoch": 1.1609498680738786,
+      "grad_norm": 0.177734375,
+      "learning_rate": 0.00015670436187399032,
+      "loss": 0.1034,
+      "step": 440
+    },
+    {
+      "epoch": 1.187335092348285,
+      "eval_loss": 0.0693235993385315,
+      "eval_runtime": 27.7658,
+      "eval_samples_per_second": 72.031,
+      "eval_steps_per_second": 0.288,
+      "step": 450
+    },
+    {
+      "epoch": 1.2137203166226913,
+      "grad_norm": 0.1630859375,
+      "learning_rate": 0.00015455035002692516,
+      "loss": 0.1042,
+      "step": 460
+    },
+    {
+      "epoch": 1.266490765171504,
+      "grad_norm": 0.1611328125,
+      "learning_rate": 0.00015239633817986,
+      "loss": 0.1032,
+      "step": 480
+    },
+    {
+      "epoch": 1.3192612137203166,
+      "grad_norm": 0.169921875,
+      "learning_rate": 0.00015024232633279485,
+      "loss": 0.1021,
+      "step": 500
+    },
+    {
+      "epoch": 1.3192612137203166,
+      "eval_loss": 0.06579812616109848,
+      "eval_runtime": 27.42,
+      "eval_samples_per_second": 72.939,
+      "eval_steps_per_second": 0.292,
+      "step": 500
+    },
+    {
+      "epoch": 1.3720316622691293,
+      "grad_norm": 0.1611328125,
+      "learning_rate": 0.0001480883144857297,
+      "loss": 0.1041,
+      "step": 520
+    },
+    {
+      "epoch": 1.424802110817942,
+      "grad_norm": 0.11474609375,
+      "learning_rate": 0.00014593430263866452,
+      "loss": 0.1006,
+      "step": 540
+    },
+    {
+      "epoch": 1.4511873350923483,
+      "eval_loss": 0.06417644023895264,
+      "eval_runtime": 27.5371,
+      "eval_samples_per_second": 72.629,
+      "eval_steps_per_second": 0.291,
+      "step": 550
+    },
+    {
+      "epoch": 1.4775725593667546,
+      "grad_norm": 0.1259765625,
+      "learning_rate": 0.00014378029079159936,
+      "loss": 0.1001,
+      "step": 560
+    },
+    {
+      "epoch": 1.5303430079155673,
+      "grad_norm": 0.146484375,
+      "learning_rate": 0.0001416262789445342,
+      "loss": 0.1013,
+      "step": 580
+    },
+    {
+      "epoch": 1.58311345646438,
+      "grad_norm": 0.1591796875,
+      "learning_rate": 0.00013947226709746903,
+      "loss": 0.1,
+      "step": 600
+    },
+    {
+      "epoch": 1.58311345646438,
+      "eval_loss": 0.06583409756422043,
+      "eval_runtime": 28.0223,
+      "eval_samples_per_second": 71.372,
+      "eval_steps_per_second": 0.285,
+      "step": 600
+    },
+    {
+      "epoch": 1.6358839050131926,
+      "grad_norm": 0.1611328125,
+      "learning_rate": 0.0001373182552504039,
+      "loss": 0.1021,
+      "step": 620
+    },
+    {
+      "epoch": 1.6886543535620053,
+      "grad_norm": 0.14453125,
+      "learning_rate": 0.00013516424340333873,
+      "loss": 0.1002,
+      "step": 640
+    },
+    {
+      "epoch": 1.7150395778364116,
+      "eval_loss": 0.06498919427394867,
+      "eval_runtime": 28.3581,
+      "eval_samples_per_second": 70.527,
+      "eval_steps_per_second": 0.282,
+      "step": 650
+    },
+    {
+      "epoch": 1.741424802110818,
+      "grad_norm": 0.111328125,
+      "learning_rate": 0.00013301023155627356,
+      "loss": 0.0967,
+      "step": 660
+    },
+    {
+      "epoch": 1.7941952506596306,
+      "grad_norm": 0.1884765625,
+      "learning_rate": 0.0001308562197092084,
+      "loss": 0.1004,
+      "step": 680
+    },
+    {
+      "epoch": 1.8469656992084431,
+      "grad_norm": 0.13671875,
+      "learning_rate": 0.00012870220786214323,
+      "loss": 0.0992,
+      "step": 700
+    },
+    {
+      "epoch": 1.8469656992084431,
+      "eval_loss": 0.06491042673587799,
+      "eval_runtime": 27.748,
+      "eval_samples_per_second": 72.077,
+      "eval_steps_per_second": 0.288,
+      "step": 700
+    },
+    {
+      "epoch": 1.899736147757256,
+      "grad_norm": 0.15234375,
+      "learning_rate": 0.0001265481960150781,
+      "loss": 0.0967,
+      "step": 720
+    },
+    {
+      "epoch": 1.9525065963060686,
+      "grad_norm": 0.12451171875,
+      "learning_rate": 0.00012439418416801293,
+      "loss": 0.0956,
+      "step": 740
+    },
+    {
+      "epoch": 1.978891820580475,
+      "eval_loss": 0.06425958126783371,
+      "eval_runtime": 27.654,
+      "eval_samples_per_second": 72.322,
+      "eval_steps_per_second": 0.289,
+      "step": 750
+    },
+    {
+      "epoch": 2.005277044854881,
+      "grad_norm": 0.12060546875,
+      "learning_rate": 0.0001222401723209478,
+      "loss": 0.0934,
+      "step": 760
+    },
+    {
+      "epoch": 2.058047493403694,
+      "grad_norm": 0.171875,
+      "learning_rate": 0.00012008616047388261,
+      "loss": 0.0907,
+      "step": 780
+    },
+    {
+      "epoch": 2.1108179419525066,
+      "grad_norm": 0.16796875,
+      "learning_rate": 0.00011793214862681745,
+      "loss": 0.0861,
+      "step": 800
+    },
+    {
+      "epoch": 2.1108179419525066,
+      "eval_loss": 0.06223862245678902,
+      "eval_runtime": 27.4046,
+      "eval_samples_per_second": 72.981,
+      "eval_steps_per_second": 0.292,
+      "step": 800
+    },
+    {
+      "epoch": 2.163588390501319,
+      "grad_norm": 0.134765625,
+      "learning_rate": 0.0001157781367797523,
+      "loss": 0.0864,
+      "step": 820
+    },
+    {
+      "epoch": 2.216358839050132,
+      "grad_norm": 0.123046875,
+      "learning_rate": 0.00011362412493268713,
+      "loss": 0.0842,
+      "step": 840
+    },
+    {
+      "epoch": 2.242744063324538,
+      "eval_loss": 0.060463495552539825,
+      "eval_runtime": 27.4597,
+      "eval_samples_per_second": 72.834,
+      "eval_steps_per_second": 0.291,
+      "step": 850
+    },
+    {
+      "epoch": 2.2691292875989446,
+      "grad_norm": 0.1435546875,
+      "learning_rate": 0.00011147011308562199,
+      "loss": 0.0863,
+      "step": 860
+    },
+    {
+      "epoch": 2.321899736147757,
+      "grad_norm": 0.1494140625,
+      "learning_rate": 0.00010931610123855683,
+      "loss": 0.0858,
+      "step": 880
+    },
+    {
+      "epoch": 2.37467018469657,
+      "grad_norm": 0.1259765625,
+      "learning_rate": 0.00010716208939149166,
+      "loss": 0.0866,
+      "step": 900
+    },
+    {
+      "epoch": 2.37467018469657,
+      "eval_loss": 0.06099672615528107,
+      "eval_runtime": 27.7635,
+      "eval_samples_per_second": 72.037,
+      "eval_steps_per_second": 0.288,
+      "step": 900
+    },
+    {
+      "epoch": 2.4274406332453826,
+      "grad_norm": 0.1376953125,
+      "learning_rate": 0.0001050080775444265,
+      "loss": 0.0873,
+      "step": 920
+    },
+    {
+      "epoch": 2.480211081794195,
+      "grad_norm": 0.158203125,
+      "learning_rate": 0.00010285406569736133,
+      "loss": 0.0853,
+      "step": 940
+    },
+    {
+      "epoch": 2.5065963060686016,
+      "eval_loss": 0.06115744262933731,
+      "eval_runtime": 27.8521,
+      "eval_samples_per_second": 71.808,
+      "eval_steps_per_second": 0.287,
+      "step": 950
+    },
+    {
+      "epoch": 2.532981530343008,
+      "grad_norm": 0.1259765625,
+      "learning_rate": 0.00010070005385029618,
+      "loss": 0.0849,
+      "step": 960
+    },
+    {
+      "epoch": 2.5857519788918206,
+      "grad_norm": 0.1318359375,
+      "learning_rate": 9.854604200323103e-05,
+      "loss": 0.0814,
+      "step": 980
+    },
+    {
+      "epoch": 2.638522427440633,
+      "grad_norm": 0.1376953125,
+      "learning_rate": 9.639203015616588e-05,
+      "loss": 0.0864,
+      "step": 1000
+    },
+    {
+      "epoch": 2.638522427440633,
+      "eval_loss": 0.05968466028571129,
+      "eval_runtime": 27.6897,
+      "eval_samples_per_second": 72.229,
+      "eval_steps_per_second": 0.289,
+      "step": 1000
+    },
+    {
+      "epoch": 2.691292875989446,
+      "grad_norm": 0.16015625,
+      "learning_rate": 9.423801830910071e-05,
+      "loss": 0.0869,
+      "step": 1020
+    },
+    {
+      "epoch": 2.7440633245382586,
+      "grad_norm": 0.12890625,
+      "learning_rate": 9.208400646203555e-05,
+      "loss": 0.0821,
+      "step": 1040
+    },
+    {
+      "epoch": 2.7704485488126647,
+      "eval_loss": 0.059157080948352814,
+      "eval_runtime": 27.7435,
+      "eval_samples_per_second": 72.089,
+      "eval_steps_per_second": 0.288,
+      "step": 1050
+    },
+    {
+      "epoch": 2.796833773087071,
+      "grad_norm": 0.1337890625,
+      "learning_rate": 8.99299946149704e-05,
+      "loss": 0.0842,
+      "step": 1060
+    },
+    {
+      "epoch": 2.849604221635884,
+      "grad_norm": 0.1513671875,
+      "learning_rate": 8.777598276790523e-05,
+      "loss": 0.0846,
+      "step": 1080
+    },
+    {
+      "epoch": 2.9023746701846966,
+      "grad_norm": 0.1328125,
+      "learning_rate": 8.562197092084006e-05,
+      "loss": 0.0841,
+      "step": 1100
+    },
+    {
+      "epoch": 2.9023746701846966,
+      "eval_loss": 0.05879725515842438,
+      "eval_runtime": 27.612,
+      "eval_samples_per_second": 72.432,
+      "eval_steps_per_second": 0.29,
+      "step": 1100
+    },
+    {
+      "epoch": 2.955145118733509,
+      "grad_norm": 0.1455078125,
+      "learning_rate": 8.346795907377491e-05,
+      "loss": 0.0809,
+      "step": 1120
+    },
+    {
+      "epoch": 3.007915567282322,
+      "grad_norm": 0.1259765625,
+      "learning_rate": 8.131394722670975e-05,
+      "loss": 0.0815,
+      "step": 1140
+    },
+    {
+      "epoch": 3.034300791556728,
+      "eval_loss": 0.05831225588917732,
+      "eval_runtime": 27.6258,
+      "eval_samples_per_second": 72.396,
+      "eval_steps_per_second": 0.29,
+      "step": 1150
+    },
+    {
+      "epoch": 3.0606860158311346,
+      "grad_norm": 0.130859375,
+      "learning_rate": 7.91599353796446e-05,
+      "loss": 0.0793,
+      "step": 1160
+    },
+    {
+      "epoch": 3.113456464379947,
+      "grad_norm": 0.1435546875,
+      "learning_rate": 7.700592353257944e-05,
+      "loss": 0.0775,
+      "step": 1180
+    },
+    {
+      "epoch": 3.16622691292876,
+      "grad_norm": 0.1357421875,
+      "learning_rate": 7.485191168551428e-05,
+      "loss": 0.0795,
+      "step": 1200
+    },
+    {
+      "epoch": 3.16622691292876,
+      "eval_loss": 0.0580158606171608,
+      "eval_runtime": 27.9777,
+      "eval_samples_per_second": 71.485,
+      "eval_steps_per_second": 0.286,
+      "step": 1200
+    },
+    {
+      "epoch": 3.2189973614775726,
+      "grad_norm": 0.1220703125,
+      "learning_rate": 7.269789983844911e-05,
+      "loss": 0.0766,
+      "step": 1220
+    },
+    {
+      "epoch": 3.271767810026385,
+      "grad_norm": 0.1318359375,
+      "learning_rate": 7.054388799138396e-05,
+      "loss": 0.0732,
+      "step": 1240
+    },
+    {
+      "epoch": 3.2981530343007917,
+      "eval_loss": 0.057783834636211395,
+      "eval_runtime": 28.6683,
+      "eval_samples_per_second": 69.763,
+      "eval_steps_per_second": 0.279,
+      "step": 1250
+    },
+    {
+      "epoch": 3.324538258575198,
+      "grad_norm": 0.130859375,
+      "learning_rate": 6.83898761443188e-05,
+      "loss": 0.0754,
+      "step": 1260
+    },
+    {
+      "epoch": 3.3773087071240107,
+      "grad_norm": 0.1611328125,
+      "learning_rate": 6.623586429725363e-05,
+      "loss": 0.0793,
+      "step": 1280
+    },
+    {
+      "epoch": 3.430079155672823,
+      "grad_norm": 0.1181640625,
+      "learning_rate": 6.408185245018848e-05,
+      "loss": 0.076,
+      "step": 1300
+    },
+    {
+      "epoch": 3.430079155672823,
+      "eval_loss": 0.05801219865679741,
+      "eval_runtime": 28.2125,
+      "eval_samples_per_second": 70.891,
+      "eval_steps_per_second": 0.284,
+      "step": 1300
+    },
+    {
+      "epoch": 3.4828496042216357,
+      "grad_norm": 0.1611328125,
+      "learning_rate": 6.192784060312333e-05,
+      "loss": 0.0745,
+      "step": 1320
+    },
+    {
+      "epoch": 3.5356200527704487,
+      "grad_norm": 0.1142578125,
+      "learning_rate": 5.9773828756058156e-05,
+      "loss": 0.0766,
+      "step": 1340
+    },
+    {
+      "epoch": 3.5620052770448547,
+      "eval_loss": 0.05800151824951172,
+      "eval_runtime": 27.919,
+      "eval_samples_per_second": 71.636,
+      "eval_steps_per_second": 0.287,
+      "step": 1350
+    },
+    {
+      "epoch": 3.588390501319261,
+      "grad_norm": 0.140625,
+      "learning_rate": 5.7619816908993005e-05,
+      "loss": 0.0753,
+      "step": 1360
+    },
+    {
+      "epoch": 3.641160949868074,
+      "grad_norm": 0.1328125,
+      "learning_rate": 5.5465805061927846e-05,
+      "loss": 0.0772,
+      "step": 1380
+    },
+    {
+      "epoch": 3.6939313984168867,
+      "grad_norm": 0.1328125,
+      "learning_rate": 5.331179321486268e-05,
+      "loss": 0.0716,
+      "step": 1400
+    },
+    {
+      "epoch": 3.6939313984168867,
+      "eval_loss": 0.057653266936540604,
+      "eval_runtime": 28.2955,
+      "eval_samples_per_second": 70.683,
+      "eval_steps_per_second": 0.283,
+      "step": 1400
+    },
+    {
+      "epoch": 3.746701846965699,
+      "grad_norm": 0.1513671875,
+      "learning_rate": 5.115778136779753e-05,
+      "loss": 0.0744,
+      "step": 1420
+    },
+    {
+      "epoch": 3.7994722955145117,
+      "grad_norm": 0.1259765625,
+      "learning_rate": 4.9003769520732365e-05,
+      "loss": 0.0777,
+      "step": 1440
+    },
+    {
+      "epoch": 3.825857519788918,
+      "eval_loss": 0.05697743222117424,
+      "eval_runtime": 28.2563,
+      "eval_samples_per_second": 70.781,
+      "eval_steps_per_second": 0.283,
+      "step": 1450
+    },
+    {
+      "epoch": 3.8522427440633247,
+      "grad_norm": 0.1640625,
+      "learning_rate": 4.6849757673667206e-05,
+      "loss": 0.0736,
+      "step": 1460
+    },
+    {
+      "epoch": 3.905013192612137,
+      "grad_norm": 0.1318359375,
+      "learning_rate": 4.469574582660205e-05,
+      "loss": 0.0753,
+      "step": 1480
+    },
+    {
+      "epoch": 3.9577836411609497,
+      "grad_norm": 0.12255859375,
+      "learning_rate": 4.254173397953689e-05,
+      "loss": 0.0745,
+      "step": 1500
+    },
+    {
+      "epoch": 3.9577836411609497,
+      "eval_loss": 0.05676369369029999,
+      "eval_runtime": 27.6767,
+      "eval_samples_per_second": 72.263,
+      "eval_steps_per_second": 0.289,
+      "step": 1500
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 1895,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.03702605821971e+19,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1516/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22bcb641e1380aac3e0a537740052e2d8d16eda981f3eee0acf549dc506b6fc5
+size 5496

checkpoint-1895/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/home/pv_rwm_models/models/colqwen2-base",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": "gaussian",
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 128,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": "(.*(model).*(down_proj|gate_proj|up_proj|k_proj|q_proj|v_proj|o_proj).*$|.*(custom_text_proj).*$)",
+  "task_type": "FEATURE_EXTRACTION",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoint-1895/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c42115acdfbac77d6ad3cd0992cac6b57ceb4fc0caab3ac9aa65716d5c31e771
+size 295915936

checkpoint-1895/generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "attn_implementation": "flash_attention_2",
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.01,
+  "top_k": 1,
+  "top_p": 0.001,
+  "transformers_version": "4.46.3"
+}

checkpoint-1895/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:983778182711adce3793bc795c03e28a3eb7b8d45483b565126796e99edd23eb
+size 592056816

checkpoint-1895/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e99e86e0a0d7a88873391e9424a84a188388f63d1a548d088fde3b4084b52f27
+size 15920

checkpoint-1895/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8f66742b995c6c203ea5e3466df0c12dd79bc545cf32724da32e51fd7017594
+size 15920

checkpoint-1895/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d74adeb07389fe4a761c0f1acd55b81fd5d632da6a71dbea2b83be10059f25bb
+size 15920

checkpoint-1895/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e4d2fc43d54392f39410b3801732690887609174c1340233fdc1b8a66b9895a
+size 15920

checkpoint-1895/rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a733d4ac23672067544bddddc8cefba69cc71eb28ead0e731f1dfc8f81ce5b7e
+size 15920

checkpoint-1895/rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:42635529ea678ebe0e9e77b10e3247c8e2e56cbbab7fe1fd3eb25c0077bf57e4
+size 15920

checkpoint-1895/rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10021518b517df6aab8ff7711512fdf39a1b8b36eb3fe6ba6aa4255e5b8d9cfb
+size 15920

checkpoint-1895/rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f50e0a8b40bdf58ea057fffbb0cd5bfe8f50970c3e5bb0485103af498a65850
+size 15920

checkpoint-1895/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4dd0f4da151ff0a05e3ccf9e4fcb080a087bfbe15e9973146872df4755d8610f
+size 1064

checkpoint-1895/trainer_state.json ADDED Viewed

	@@ -0,0 +1,995 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 50,
+  "global_step": 1895,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.002638522427440633,
+      "eval_loss": 0.3697243332862854,
+      "eval_runtime": 31.4109,
+      "eval_samples_per_second": 63.672,
+      "eval_steps_per_second": 0.255,
+      "step": 1
+    },
+    {
+      "epoch": 0.052770448548812667,
+      "grad_norm": 0.26953125,
+      "learning_rate": 0.00010526315789473685,
+      "loss": 0.3823,
+      "step": 20
+    },
+    {
+      "epoch": 0.10554089709762533,
+      "grad_norm": 0.201171875,
+      "learning_rate": 0.0001997845988152935,
+      "loss": 0.2239,
+      "step": 40
+    },
+    {
+      "epoch": 0.13192612137203166,
+      "eval_loss": 0.11808302253484726,
+      "eval_runtime": 29.4538,
+      "eval_samples_per_second": 67.903,
+      "eval_steps_per_second": 0.272,
+      "step": 50
+    },
+    {
+      "epoch": 0.158311345646438,
+      "grad_norm": 0.1962890625,
+      "learning_rate": 0.00019763058696822833,
+      "loss": 0.1799,
+      "step": 60
+    },
+    {
+      "epoch": 0.21108179419525067,
+      "grad_norm": 0.1943359375,
+      "learning_rate": 0.0001954765751211632,
+      "loss": 0.1651,
+      "step": 80
+    },
+    {
+      "epoch": 0.2638522427440633,
+      "grad_norm": 0.2255859375,
+      "learning_rate": 0.00019332256327409802,
+      "loss": 0.1571,
+      "step": 100
+    },
+    {
+      "epoch": 0.2638522427440633,
+      "eval_loss": 0.09250890463590622,
+      "eval_runtime": 28.2273,
+      "eval_samples_per_second": 70.853,
+      "eval_steps_per_second": 0.283,
+      "step": 100
+    },
+    {
+      "epoch": 0.316622691292876,
+      "grad_norm": 0.2333984375,
+      "learning_rate": 0.00019116855142703286,
+      "loss": 0.1535,
+      "step": 120
+    },
+    {
+      "epoch": 0.36939313984168864,
+      "grad_norm": 0.1611328125,
+      "learning_rate": 0.00018901453957996772,
+      "loss": 0.1456,
+      "step": 140
+    },
+    {
+      "epoch": 0.39577836411609496,
+      "eval_loss": 0.08707328885793686,
+      "eval_runtime": 27.6259,
+      "eval_samples_per_second": 72.396,
+      "eval_steps_per_second": 0.29,
+      "step": 150
+    },
+    {
+      "epoch": 0.42216358839050133,
+      "grad_norm": 0.1884765625,
+      "learning_rate": 0.00018686052773290255,
+      "loss": 0.1402,
+      "step": 160
+    },
+    {
+      "epoch": 0.47493403693931396,
+      "grad_norm": 0.2109375,
+      "learning_rate": 0.0001847065158858374,
+      "loss": 0.142,
+      "step": 180
+    },
+    {
+      "epoch": 0.5277044854881267,
+      "grad_norm": 0.1533203125,
+      "learning_rate": 0.00018255250403877222,
+      "loss": 0.1318,
+      "step": 200
+    },
+    {
+      "epoch": 0.5277044854881267,
+      "eval_loss": 0.080934077501297,
+      "eval_runtime": 27.3743,
+      "eval_samples_per_second": 73.061,
+      "eval_steps_per_second": 0.292,
+      "step": 200
+    },
+    {
+      "epoch": 0.5804749340369393,
+      "grad_norm": 0.216796875,
+      "learning_rate": 0.00018039849219170706,
+      "loss": 0.1301,
+      "step": 220
+    },
+    {
+      "epoch": 0.633245382585752,
+      "grad_norm": 0.162109375,
+      "learning_rate": 0.0001782444803446419,
+      "loss": 0.1317,
+      "step": 240
+    },
+    {
+      "epoch": 0.6596306068601583,
+      "eval_loss": 0.0750429555773735,
+      "eval_runtime": 27.7505,
+      "eval_samples_per_second": 72.071,
+      "eval_steps_per_second": 0.288,
+      "step": 250
+    },
+    {
+      "epoch": 0.6860158311345647,
+      "grad_norm": 0.185546875,
+      "learning_rate": 0.00017609046849757676,
+      "loss": 0.1269,
+      "step": 260
+    },
+    {
+      "epoch": 0.7387862796833773,
+      "grad_norm": 0.203125,
+      "learning_rate": 0.0001739364566505116,
+      "loss": 0.1267,
+      "step": 280
+    },
+    {
+      "epoch": 0.7915567282321899,
+      "grad_norm": 0.1455078125,
+      "learning_rate": 0.00017178244480344642,
+      "loss": 0.1226,
+      "step": 300
+    },
+    {
+      "epoch": 0.7915567282321899,
+      "eval_loss": 0.07792137563228607,
+      "eval_runtime": 27.3248,
+      "eval_samples_per_second": 73.194,
+      "eval_steps_per_second": 0.293,
+      "step": 300
+    },
+    {
+      "epoch": 0.8443271767810027,
+      "grad_norm": 0.1630859375,
+      "learning_rate": 0.00016962843295638126,
+      "loss": 0.1222,
+      "step": 320
+    },
+    {
+      "epoch": 0.8970976253298153,
+      "grad_norm": 0.173828125,
+      "learning_rate": 0.0001674744211093161,
+      "loss": 0.1254,
+      "step": 340
+    },
+    {
+      "epoch": 0.9234828496042217,
+      "eval_loss": 0.07484881579875946,
+      "eval_runtime": 27.8135,
+      "eval_samples_per_second": 71.907,
+      "eval_steps_per_second": 0.288,
+      "step": 350
+    },
+    {
+      "epoch": 0.9498680738786279,
+      "grad_norm": 0.1728515625,
+      "learning_rate": 0.00016532040926225093,
+      "loss": 0.1177,
+      "step": 360
+    },
+    {
+      "epoch": 1.0026385224274406,
+      "grad_norm": 0.1220703125,
+      "learning_rate": 0.0001631663974151858,
+      "loss": 0.1207,
+      "step": 380
+    },
+    {
+      "epoch": 1.0554089709762533,
+      "grad_norm": 0.1591796875,
+      "learning_rate": 0.00016101238556812063,
+      "loss": 0.1046,
+      "step": 400
+    },
+    {
+      "epoch": 1.0554089709762533,
+      "eval_loss": 0.0715707540512085,
+      "eval_runtime": 27.7758,
+      "eval_samples_per_second": 72.005,
+      "eval_steps_per_second": 0.288,
+      "step": 400
+    },
+    {
+      "epoch": 1.108179419525066,
+      "grad_norm": 0.1142578125,
+      "learning_rate": 0.0001588583737210555,
+      "loss": 0.1041,
+      "step": 420
+    },
+    {
+      "epoch": 1.1609498680738786,
+      "grad_norm": 0.177734375,
+      "learning_rate": 0.00015670436187399032,
+      "loss": 0.1034,
+      "step": 440
+    },
+    {
+      "epoch": 1.187335092348285,
+      "eval_loss": 0.0693235993385315,
+      "eval_runtime": 27.7658,
+      "eval_samples_per_second": 72.031,
+      "eval_steps_per_second": 0.288,
+      "step": 450
+    },
+    {
+      "epoch": 1.2137203166226913,
+      "grad_norm": 0.1630859375,
+      "learning_rate": 0.00015455035002692516,
+      "loss": 0.1042,
+      "step": 460
+    },
+    {
+      "epoch": 1.266490765171504,
+      "grad_norm": 0.1611328125,
+      "learning_rate": 0.00015239633817986,
+      "loss": 0.1032,
+      "step": 480
+    },
+    {
+      "epoch": 1.3192612137203166,
+      "grad_norm": 0.169921875,
+      "learning_rate": 0.00015024232633279485,
+      "loss": 0.1021,
+      "step": 500
+    },
+    {
+      "epoch": 1.3192612137203166,
+      "eval_loss": 0.06579812616109848,
+      "eval_runtime": 27.42,
+      "eval_samples_per_second": 72.939,
+      "eval_steps_per_second": 0.292,
+      "step": 500
+    },
+    {
+      "epoch": 1.3720316622691293,
+      "grad_norm": 0.1611328125,
+      "learning_rate": 0.0001480883144857297,
+      "loss": 0.1041,
+      "step": 520
+    },
+    {
+      "epoch": 1.424802110817942,
+      "grad_norm": 0.11474609375,
+      "learning_rate": 0.00014593430263866452,
+      "loss": 0.1006,
+      "step": 540
+    },
+    {
+      "epoch": 1.4511873350923483,
+      "eval_loss": 0.06417644023895264,
+      "eval_runtime": 27.5371,
+      "eval_samples_per_second": 72.629,
+      "eval_steps_per_second": 0.291,
+      "step": 550
+    },
+    {
+      "epoch": 1.4775725593667546,
+      "grad_norm": 0.1259765625,
+      "learning_rate": 0.00014378029079159936,
+      "loss": 0.1001,
+      "step": 560
+    },
+    {
+      "epoch": 1.5303430079155673,
+      "grad_norm": 0.146484375,
+      "learning_rate": 0.0001416262789445342,
+      "loss": 0.1013,
+      "step": 580
+    },
+    {
+      "epoch": 1.58311345646438,
+      "grad_norm": 0.1591796875,
+      "learning_rate": 0.00013947226709746903,
+      "loss": 0.1,
+      "step": 600
+    },
+    {
+      "epoch": 1.58311345646438,
+      "eval_loss": 0.06583409756422043,
+      "eval_runtime": 28.0223,
+      "eval_samples_per_second": 71.372,
+      "eval_steps_per_second": 0.285,
+      "step": 600
+    },
+    {
+      "epoch": 1.6358839050131926,
+      "grad_norm": 0.1611328125,
+      "learning_rate": 0.0001373182552504039,
+      "loss": 0.1021,
+      "step": 620
+    },
+    {
+      "epoch": 1.6886543535620053,
+      "grad_norm": 0.14453125,
+      "learning_rate": 0.00013516424340333873,
+      "loss": 0.1002,
+      "step": 640
+    },
+    {
+      "epoch": 1.7150395778364116,
+      "eval_loss": 0.06498919427394867,
+      "eval_runtime": 28.3581,
+      "eval_samples_per_second": 70.527,
+      "eval_steps_per_second": 0.282,
+      "step": 650
+    },
+    {
+      "epoch": 1.741424802110818,
+      "grad_norm": 0.111328125,
+      "learning_rate": 0.00013301023155627356,
+      "loss": 0.0967,
+      "step": 660
+    },
+    {
+      "epoch": 1.7941952506596306,
+      "grad_norm": 0.1884765625,
+      "learning_rate": 0.0001308562197092084,
+      "loss": 0.1004,
+      "step": 680
+    },
+    {
+      "epoch": 1.8469656992084431,
+      "grad_norm": 0.13671875,
+      "learning_rate": 0.00012870220786214323,
+      "loss": 0.0992,
+      "step": 700
+    },
+    {
+      "epoch": 1.8469656992084431,
+      "eval_loss": 0.06491042673587799,
+      "eval_runtime": 27.748,
+      "eval_samples_per_second": 72.077,
+      "eval_steps_per_second": 0.288,
+      "step": 700
+    },
+    {
+      "epoch": 1.899736147757256,
+      "grad_norm": 0.15234375,
+      "learning_rate": 0.0001265481960150781,
+      "loss": 0.0967,
+      "step": 720
+    },
+    {
+      "epoch": 1.9525065963060686,
+      "grad_norm": 0.12451171875,
+      "learning_rate": 0.00012439418416801293,
+      "loss": 0.0956,
+      "step": 740
+    },
+    {
+      "epoch": 1.978891820580475,
+      "eval_loss": 0.06425958126783371,
+      "eval_runtime": 27.654,
+      "eval_samples_per_second": 72.322,
+      "eval_steps_per_second": 0.289,
+      "step": 750
+    },
+    {
+      "epoch": 2.005277044854881,
+      "grad_norm": 0.12060546875,
+      "learning_rate": 0.0001222401723209478,
+      "loss": 0.0934,
+      "step": 760
+    },
+    {
+      "epoch": 2.058047493403694,
+      "grad_norm": 0.171875,
+      "learning_rate": 0.00012008616047388261,
+      "loss": 0.0907,
+      "step": 780
+    },
+    {
+      "epoch": 2.1108179419525066,
+      "grad_norm": 0.16796875,
+      "learning_rate": 0.00011793214862681745,
+      "loss": 0.0861,
+      "step": 800
+    },
+    {
+      "epoch": 2.1108179419525066,
+      "eval_loss": 0.06223862245678902,
+      "eval_runtime": 27.4046,
+      "eval_samples_per_second": 72.981,
+      "eval_steps_per_second": 0.292,
+      "step": 800
+    },
+    {
+      "epoch": 2.163588390501319,
+      "grad_norm": 0.134765625,
+      "learning_rate": 0.0001157781367797523,
+      "loss": 0.0864,
+      "step": 820
+    },
+    {
+      "epoch": 2.216358839050132,
+      "grad_norm": 0.123046875,
+      "learning_rate": 0.00011362412493268713,
+      "loss": 0.0842,
+      "step": 840
+    },
+    {
+      "epoch": 2.242744063324538,
+      "eval_loss": 0.060463495552539825,
+      "eval_runtime": 27.4597,
+      "eval_samples_per_second": 72.834,
+      "eval_steps_per_second": 0.291,
+      "step": 850
+    },
+    {
+      "epoch": 2.2691292875989446,
+      "grad_norm": 0.1435546875,
+      "learning_rate": 0.00011147011308562199,
+      "loss": 0.0863,
+      "step": 860
+    },
+    {
+      "epoch": 2.321899736147757,
+      "grad_norm": 0.1494140625,
+      "learning_rate": 0.00010931610123855683,
+      "loss": 0.0858,
+      "step": 880
+    },
+    {
+      "epoch": 2.37467018469657,
+      "grad_norm": 0.1259765625,
+      "learning_rate": 0.00010716208939149166,
+      "loss": 0.0866,
+      "step": 900
+    },
+    {
+      "epoch": 2.37467018469657,
+      "eval_loss": 0.06099672615528107,
+      "eval_runtime": 27.7635,
+      "eval_samples_per_second": 72.037,
+      "eval_steps_per_second": 0.288,
+      "step": 900
+    },
+    {
+      "epoch": 2.4274406332453826,
+      "grad_norm": 0.1376953125,
+      "learning_rate": 0.0001050080775444265,
+      "loss": 0.0873,
+      "step": 920
+    },
+    {
+      "epoch": 2.480211081794195,
+      "grad_norm": 0.158203125,
+      "learning_rate": 0.00010285406569736133,
+      "loss": 0.0853,
+      "step": 940
+    },
+    {
+      "epoch": 2.5065963060686016,
+      "eval_loss": 0.06115744262933731,
+      "eval_runtime": 27.8521,
+      "eval_samples_per_second": 71.808,
+      "eval_steps_per_second": 0.287,
+      "step": 950
+    },
+    {
+      "epoch": 2.532981530343008,
+      "grad_norm": 0.1259765625,
+      "learning_rate": 0.00010070005385029618,
+      "loss": 0.0849,
+      "step": 960
+    },
+    {
+      "epoch": 2.5857519788918206,
+      "grad_norm": 0.1318359375,
+      "learning_rate": 9.854604200323103e-05,
+      "loss": 0.0814,
+      "step": 980
+    },
+    {
+      "epoch": 2.638522427440633,
+      "grad_norm": 0.1376953125,
+      "learning_rate": 9.639203015616588e-05,
+      "loss": 0.0864,
+      "step": 1000
+    },
+    {
+      "epoch": 2.638522427440633,
+      "eval_loss": 0.05968466028571129,
+      "eval_runtime": 27.6897,
+      "eval_samples_per_second": 72.229,
+      "eval_steps_per_second": 0.289,
+      "step": 1000
+    },
+    {
+      "epoch": 2.691292875989446,
+      "grad_norm": 0.16015625,
+      "learning_rate": 9.423801830910071e-05,
+      "loss": 0.0869,
+      "step": 1020
+    },
+    {
+      "epoch": 2.7440633245382586,
+      "grad_norm": 0.12890625,
+      "learning_rate": 9.208400646203555e-05,
+      "loss": 0.0821,
+      "step": 1040
+    },
+    {
+      "epoch": 2.7704485488126647,
+      "eval_loss": 0.059157080948352814,
+      "eval_runtime": 27.7435,
+      "eval_samples_per_second": 72.089,
+      "eval_steps_per_second": 0.288,
+      "step": 1050
+    },
+    {
+      "epoch": 2.796833773087071,
+      "grad_norm": 0.1337890625,
+      "learning_rate": 8.99299946149704e-05,
+      "loss": 0.0842,
+      "step": 1060
+    },
+    {
+      "epoch": 2.849604221635884,
+      "grad_norm": 0.1513671875,
+      "learning_rate": 8.777598276790523e-05,
+      "loss": 0.0846,
+      "step": 1080
+    },
+    {
+      "epoch": 2.9023746701846966,
+      "grad_norm": 0.1328125,
+      "learning_rate": 8.562197092084006e-05,
+      "loss": 0.0841,
+      "step": 1100
+    },
+    {
+      "epoch": 2.9023746701846966,
+      "eval_loss": 0.05879725515842438,
+      "eval_runtime": 27.612,
+      "eval_samples_per_second": 72.432,
+      "eval_steps_per_second": 0.29,
+      "step": 1100
+    },
+    {
+      "epoch": 2.955145118733509,
+      "grad_norm": 0.1455078125,
+      "learning_rate": 8.346795907377491e-05,
+      "loss": 0.0809,
+      "step": 1120
+    },
+    {
+      "epoch": 3.007915567282322,
+      "grad_norm": 0.1259765625,
+      "learning_rate": 8.131394722670975e-05,
+      "loss": 0.0815,
+      "step": 1140
+    },
+    {
+      "epoch": 3.034300791556728,
+      "eval_loss": 0.05831225588917732,
+      "eval_runtime": 27.6258,
+      "eval_samples_per_second": 72.396,
+      "eval_steps_per_second": 0.29,
+      "step": 1150
+    },
+    {
+      "epoch": 3.0606860158311346,
+      "grad_norm": 0.130859375,
+      "learning_rate": 7.91599353796446e-05,
+      "loss": 0.0793,
+      "step": 1160
+    },
+    {
+      "epoch": 3.113456464379947,
+      "grad_norm": 0.1435546875,
+      "learning_rate": 7.700592353257944e-05,
+      "loss": 0.0775,
+      "step": 1180
+    },
+    {
+      "epoch": 3.16622691292876,
+      "grad_norm": 0.1357421875,
+      "learning_rate": 7.485191168551428e-05,
+      "loss": 0.0795,
+      "step": 1200
+    },
+    {
+      "epoch": 3.16622691292876,
+      "eval_loss": 0.0580158606171608,
+      "eval_runtime": 27.9777,
+      "eval_samples_per_second": 71.485,
+      "eval_steps_per_second": 0.286,
+      "step": 1200
+    },
+    {
+      "epoch": 3.2189973614775726,
+      "grad_norm": 0.1220703125,
+      "learning_rate": 7.269789983844911e-05,
+      "loss": 0.0766,
+      "step": 1220
+    },
+    {
+      "epoch": 3.271767810026385,
+      "grad_norm": 0.1318359375,
+      "learning_rate": 7.054388799138396e-05,
+      "loss": 0.0732,
+      "step": 1240
+    },
+    {
+      "epoch": 3.2981530343007917,
+      "eval_loss": 0.057783834636211395,
+      "eval_runtime": 28.6683,
+      "eval_samples_per_second": 69.763,
+      "eval_steps_per_second": 0.279,
+      "step": 1250
+    },
+    {
+      "epoch": 3.324538258575198,
+      "grad_norm": 0.130859375,
+      "learning_rate": 6.83898761443188e-05,
+      "loss": 0.0754,
+      "step": 1260
+    },
+    {
+      "epoch": 3.3773087071240107,
+      "grad_norm": 0.1611328125,
+      "learning_rate": 6.623586429725363e-05,
+      "loss": 0.0793,
+      "step": 1280
+    },
+    {
+      "epoch": 3.430079155672823,
+      "grad_norm": 0.1181640625,
+      "learning_rate": 6.408185245018848e-05,
+      "loss": 0.076,
+      "step": 1300
+    },
+    {
+      "epoch": 3.430079155672823,
+      "eval_loss": 0.05801219865679741,
+      "eval_runtime": 28.2125,
+      "eval_samples_per_second": 70.891,
+      "eval_steps_per_second": 0.284,
+      "step": 1300
+    },
+    {
+      "epoch": 3.4828496042216357,
+      "grad_norm": 0.1611328125,
+      "learning_rate": 6.192784060312333e-05,
+      "loss": 0.0745,
+      "step": 1320
+    },
+    {
+      "epoch": 3.5356200527704487,
+      "grad_norm": 0.1142578125,
+      "learning_rate": 5.9773828756058156e-05,
+      "loss": 0.0766,
+      "step": 1340
+    },
+    {
+      "epoch": 3.5620052770448547,
+      "eval_loss": 0.05800151824951172,
+      "eval_runtime": 27.919,
+      "eval_samples_per_second": 71.636,
+      "eval_steps_per_second": 0.287,
+      "step": 1350
+    },
+    {
+      "epoch": 3.588390501319261,
+      "grad_norm": 0.140625,
+      "learning_rate": 5.7619816908993005e-05,
+      "loss": 0.0753,
+      "step": 1360
+    },
+    {
+      "epoch": 3.641160949868074,
+      "grad_norm": 0.1328125,
+      "learning_rate": 5.5465805061927846e-05,
+      "loss": 0.0772,
+      "step": 1380
+    },
+    {
+      "epoch": 3.6939313984168867,
+      "grad_norm": 0.1328125,
+      "learning_rate": 5.331179321486268e-05,
+      "loss": 0.0716,
+      "step": 1400
+    },
+    {
+      "epoch": 3.6939313984168867,
+      "eval_loss": 0.057653266936540604,
+      "eval_runtime": 28.2955,
+      "eval_samples_per_second": 70.683,
+      "eval_steps_per_second": 0.283,
+      "step": 1400
+    },
+    {
+      "epoch": 3.746701846965699,
+      "grad_norm": 0.1513671875,
+      "learning_rate": 5.115778136779753e-05,
+      "loss": 0.0744,
+      "step": 1420
+    },
+    {
+      "epoch": 3.7994722955145117,
+      "grad_norm": 0.1259765625,
+      "learning_rate": 4.9003769520732365e-05,
+      "loss": 0.0777,
+      "step": 1440
+    },
+    {
+      "epoch": 3.825857519788918,
+      "eval_loss": 0.05697743222117424,
+      "eval_runtime": 28.2563,
+      "eval_samples_per_second": 70.781,
+      "eval_steps_per_second": 0.283,
+      "step": 1450
+    },
+    {
+      "epoch": 3.8522427440633247,
+      "grad_norm": 0.1640625,
+      "learning_rate": 4.6849757673667206e-05,
+      "loss": 0.0736,
+      "step": 1460
+    },
+    {
+      "epoch": 3.905013192612137,
+      "grad_norm": 0.1318359375,
+      "learning_rate": 4.469574582660205e-05,
+      "loss": 0.0753,
+      "step": 1480
+    },
+    {
+      "epoch": 3.9577836411609497,
+      "grad_norm": 0.12255859375,
+      "learning_rate": 4.254173397953689e-05,
+      "loss": 0.0745,
+      "step": 1500
+    },
+    {
+      "epoch": 3.9577836411609497,
+      "eval_loss": 0.05676369369029999,
+      "eval_runtime": 27.6767,
+      "eval_samples_per_second": 72.263,
+      "eval_steps_per_second": 0.289,
+      "step": 1500
+    },
+    {
+      "epoch": 4.010554089709762,
+      "grad_norm": 0.1376953125,
+      "learning_rate": 4.038772213247173e-05,
+      "loss": 0.0753,
+      "step": 1520
+    },
+    {
+      "epoch": 4.063324538258575,
+      "grad_norm": 0.1005859375,
+      "learning_rate": 3.823371028540657e-05,
+      "loss": 0.0742,
+      "step": 1540
+    },
+    {
+      "epoch": 4.089709762532982,
+      "eval_loss": 0.056621015071868896,
+      "eval_runtime": 27.6095,
+      "eval_samples_per_second": 72.439,
+      "eval_steps_per_second": 0.29,
+      "step": 1550
+    },
+    {
+      "epoch": 4.116094986807388,
+      "grad_norm": 0.1298828125,
+      "learning_rate": 3.6079698438341414e-05,
+      "loss": 0.0704,
+      "step": 1560
+    },
+    {
+      "epoch": 4.1688654353562,
+      "grad_norm": 0.1083984375,
+      "learning_rate": 3.392568659127625e-05,
+      "loss": 0.0719,
+      "step": 1580
+    },
+    {
+      "epoch": 4.221635883905013,
+      "grad_norm": 0.1337890625,
+      "learning_rate": 3.177167474421109e-05,
+      "loss": 0.075,
+      "step": 1600
+    },
+    {
+      "epoch": 4.221635883905013,
+      "eval_loss": 0.05666119232773781,
+      "eval_runtime": 28.0948,
+      "eval_samples_per_second": 71.188,
+      "eval_steps_per_second": 0.285,
+      "step": 1600
+    },
+    {
+      "epoch": 4.274406332453826,
+      "grad_norm": 0.1142578125,
+      "learning_rate": 2.9617662897145936e-05,
+      "loss": 0.0709,
+      "step": 1620
+    },
+    {
+      "epoch": 4.327176781002638,
+      "grad_norm": 0.134765625,
+      "learning_rate": 2.7463651050080774e-05,
+      "loss": 0.0752,
+      "step": 1640
+    },
+    {
+      "epoch": 4.353562005277045,
+      "eval_loss": 0.05666811391711235,
+      "eval_runtime": 28.2473,
+      "eval_samples_per_second": 70.803,
+      "eval_steps_per_second": 0.283,
+      "step": 1650
+    },
+    {
+      "epoch": 4.379947229551451,
+      "grad_norm": 0.1591796875,
+      "learning_rate": 2.5309639203015616e-05,
+      "loss": 0.0719,
+      "step": 1660
+    },
+    {
+      "epoch": 4.432717678100264,
+      "grad_norm": 0.138671875,
+      "learning_rate": 2.315562735595046e-05,
+      "loss": 0.0723,
+      "step": 1680
+    },
+    {
+      "epoch": 4.485488126649076,
+      "grad_norm": 0.095703125,
+      "learning_rate": 2.10016155088853e-05,
+      "loss": 0.0712,
+      "step": 1700
+    },
+    {
+      "epoch": 4.485488126649076,
+      "eval_loss": 0.05663124471902847,
+      "eval_runtime": 27.7726,
+      "eval_samples_per_second": 72.013,
+      "eval_steps_per_second": 0.288,
+      "step": 1700
+    },
+    {
+      "epoch": 4.538258575197889,
+      "grad_norm": 0.10205078125,
+      "learning_rate": 1.884760366182014e-05,
+      "loss": 0.072,
+      "step": 1720
+    },
+    {
+      "epoch": 4.591029023746702,
+      "grad_norm": 0.140625,
+      "learning_rate": 1.6693591814754982e-05,
+      "loss": 0.0723,
+      "step": 1740
+    },
+    {
+      "epoch": 4.617414248021108,
+      "eval_loss": 0.056529395282268524,
+      "eval_runtime": 27.9804,
+      "eval_samples_per_second": 71.479,
+      "eval_steps_per_second": 0.286,
+      "step": 1750
+    },
+    {
+      "epoch": 4.643799472295514,
+      "grad_norm": 0.1484375,
+      "learning_rate": 1.4539579967689822e-05,
+      "loss": 0.072,
+      "step": 1760
+    },
+    {
+      "epoch": 4.696569920844327,
+      "grad_norm": 0.1650390625,
+      "learning_rate": 1.2385568120624664e-05,
+      "loss": 0.074,
+      "step": 1780
+    },
+    {
+      "epoch": 4.74934036939314,
+      "grad_norm": 0.0986328125,
+      "learning_rate": 1.0231556273559504e-05,
+      "loss": 0.0722,
+      "step": 1800
+    },
+    {
+      "epoch": 4.74934036939314,
+      "eval_loss": 0.056551240384578705,
+      "eval_runtime": 28.2737,
+      "eval_samples_per_second": 70.737,
+      "eval_steps_per_second": 0.283,
+      "step": 1800
+    },
+    {
+      "epoch": 4.802110817941952,
+      "grad_norm": 0.10693359375,
+      "learning_rate": 8.077544426494346e-06,
+      "loss": 0.0693,
+      "step": 1820
+    },
+    {
+      "epoch": 4.854881266490765,
+      "grad_norm": 0.1416015625,
+      "learning_rate": 5.923532579429187e-06,
+      "loss": 0.0711,
+      "step": 1840
+    },
+    {
+      "epoch": 4.881266490765172,
+      "eval_loss": 0.05647709220647812,
+      "eval_runtime": 28.1268,
+      "eval_samples_per_second": 71.106,
+      "eval_steps_per_second": 0.284,
+      "step": 1850
+    },
+    {
+      "epoch": 4.907651715039578,
+      "grad_norm": 0.0849609375,
+      "learning_rate": 3.7695207323640284e-06,
+      "loss": 0.0714,
+      "step": 1860
+    },
+    {
+      "epoch": 4.96042216358839,
+      "grad_norm": 0.1396484375,
+      "learning_rate": 1.6155088852988692e-06,
+      "loss": 0.0727,
+      "step": 1880
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 1895,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.546294970331955e+19,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1895/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22bcb641e1380aac3e0a537740052e2d8d16eda981f3eee0acf549dc506b6fc5
+size 5496

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "attn_implementation": "flash_attention_2",
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.01,
+  "top_k": 1,
+  "top_p": 0.001,
+  "transformers_version": "4.46.3"
+}