Chat-Error
/

Kimiko_7B

Model card Files Files and versions Community

Phương commited on Jul 26, 2023

Commit

fa86854

•

1 Parent(s): 6bd95a9

Upload folder using huggingface_hub

Browse files

Files changed (36) hide show

README.md +44 -0
adapter_config.json +26 -0
adapter_model.bin +3 -0
checkpoint-100/README.md +20 -0
checkpoint-100/adapter_config.json +26 -0
checkpoint-100/adapter_model.bin +3 -0
checkpoint-100/adapter_model/README.md +20 -0
checkpoint-100/adapter_model/adapter_config.json +26 -0
checkpoint-100/adapter_model/adapter_model.bin +3 -0
checkpoint-100/optimizer.pt +3 -0
checkpoint-100/rng_state.pth +3 -0
checkpoint-100/scheduler.pt +3 -0
checkpoint-100/trainer_state.json +776 -0
checkpoint-100/training_args.bin +3 -0
checkpoint-120/README.md +20 -0
checkpoint-120/adapter_config.json +26 -0
checkpoint-120/adapter_model.bin +3 -0
checkpoint-120/adapter_model/README.md +20 -0
checkpoint-120/adapter_model/adapter_config.json +26 -0
checkpoint-120/adapter_model/adapter_model.bin +3 -0
checkpoint-120/optimizer.pt +3 -0
checkpoint-120/rng_state.pth +3 -0
checkpoint-120/scheduler.pt +3 -0
checkpoint-120/trainer_state.json +928 -0
checkpoint-120/training_args.bin +3 -0
checkpoint-140/README.md +20 -0
checkpoint-140/adapter_config.json +26 -0
checkpoint-140/adapter_model.bin +3 -0
checkpoint-140/adapter_model/README.md +20 -0
checkpoint-140/adapter_model/adapter_config.json +26 -0
checkpoint-140/adapter_model/adapter_model.bin +3 -0
checkpoint-140/optimizer.pt +3 -0
checkpoint-140/rng_state.pth +3 -0
checkpoint-140/scheduler.pt +3 -0
checkpoint-140/trainer_state.json +1080 -0
checkpoint-140/training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,44 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.4.0
+- PEFT 0.4.0
+- PEFT 0.4.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+ "auto_mapping": null,
+ "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+ "bias": "none",
+ "fan_in_fan_out": null,
+ "inference_mode": true,
+ "init_lora_weights": true,
+ "layers_pattern": null,
+ "layers_to_transform": null,
+ "lora_alpha": 8,
+ "lora_dropout": 0.0,
+ "modules_to_save": null,
+ "peft_type": "LORA",
+ "r": 4,
+ "revision": null,
+ "target_modules": [
+ "gate_proj",
+ "down_proj",
+ "up_proj",
+ "q_proj",
+ "v_proj",
+ "k_proj",
+ "o_proj"
+ ],
+ "task_type": "CAUSAL_LM"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16aded0165ccdf34618552c9774428822fab7840e9b07e0108bd61eb8e7c0510
+size 40137613

checkpoint-100/README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.4.0

checkpoint-100/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+ "auto_mapping": null,
+ "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+ "bias": "none",
+ "fan_in_fan_out": null,
+ "inference_mode": true,
+ "init_lora_weights": true,
+ "layers_pattern": null,
+ "layers_to_transform": null,
+ "lora_alpha": 8,
+ "lora_dropout": 0.0,
+ "modules_to_save": null,
+ "peft_type": "LORA",
+ "r": 4,
+ "revision": null,
+ "target_modules": [
+ "gate_proj",
+ "down_proj",
+ "up_proj",
+ "q_proj",
+ "v_proj",
+ "k_proj",
+ "o_proj"
+ ],
+ "task_type": "CAUSAL_LM"
+}

checkpoint-100/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be06210c83a582aa636921654ed1b7db1366f254673140e110ee471c1e119727
+size 40137613

checkpoint-100/adapter_model/README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.4.0

checkpoint-100/adapter_model/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+ "auto_mapping": null,
+ "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+ "bias": "none",
+ "fan_in_fan_out": null,
+ "inference_mode": true,
+ "init_lora_weights": true,
+ "layers_pattern": null,
+ "layers_to_transform": null,
+ "lora_alpha": 8,
+ "lora_dropout": 0.0,
+ "modules_to_save": null,
+ "peft_type": "LORA",
+ "r": 4,
+ "revision": null,
+ "target_modules": [
+ "gate_proj",
+ "down_proj",
+ "up_proj",
+ "q_proj",
+ "v_proj",
+ "k_proj",
+ "o_proj"
+ ],
+ "task_type": "CAUSAL_LM"
+}

checkpoint-100/adapter_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be06210c83a582aa636921654ed1b7db1366f254673140e110ee471c1e119727
+size 40137613

checkpoint-100/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e04e6f433ccc01787e935d43bcd1fddd2e75d58dc1a2d75d5041ba25a502d3c
+size 10264773

checkpoint-100/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6fbc44877a85dc9e31508ab5cdcb4b09e15e4ccd881628820393d3ed5e0b4726
+size 14575

checkpoint-100/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4773e854daa1644290049115865b392563071f7ab7ace9dc2513bd5d4e5afa65
+size 627

checkpoint-100/trainer_state.json ADDED Viewed

	@@ -0,0 +1,776 @@

+{
+ "best_metric": null,
+ "best_model_checkpoint": null,
+ "epoch": 2.0,
+ "global_step": 100,
+ "is_hyper_param_search": false,
+ "is_local_process_zero": true,
+ "is_world_process_zero": true,
+ "log_history": [
+ {
+ "epoch": 0.02,
+ "learning_rate": 2e-05,
+ "loss": 1.8562,
+ "step": 1
+ },
+ {
+ "epoch": 0.04,
+ "learning_rate": 4e-05,
+ "loss": 1.8114,
+ "step": 2
+ },
+ {
+ "epoch": 0.06,
+ "learning_rate": 6e-05,
+ "loss": 1.816,
+ "step": 3
+ },
+ {
+ "epoch": 0.08,
+ "learning_rate": 8e-05,
+ "loss": 1.7654,
+ "step": 4
+ },
+ {
+ "epoch": 0.1,
+ "learning_rate": 0.0001,
+ "loss": 1.7975,
+ "step": 5
+ },
+ {
+ "epoch": 0.1,
+ "eval_loss": 1.751416563987732,
+ "eval_runtime": 6.1216,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.163,
+ "step": 5
+ },
+ {
+ "epoch": 0.12,
+ "learning_rate": 0.00012,
+ "loss": 1.88,
+ "step": 6
+ },
+ {
+ "epoch": 0.14,
+ "learning_rate": 0.00014,
+ "loss": 1.7946,
+ "step": 7
+ },
+ {
+ "epoch": 0.16,
+ "learning_rate": 0.00016,
+ "loss": 1.9499,
+ "step": 8
+ },
+ {
+ "epoch": 0.18,
+ "learning_rate": 0.00018,
+ "loss": 1.988,
+ "step": 9
+ },
+ {
+ "epoch": 0.2,
+ "learning_rate": 0.0002,
+ "loss": 1.6376,
+ "step": 10
+ },
+ {
+ "epoch": 0.2,
+ "eval_loss": 1.722676396369934,
+ "eval_runtime": 6.1182,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.163,
+ "step": 10
+ },
+ {
+ "epoch": 0.22,
+ "learning_rate": 0.00019997482349425066,
+ "loss": 1.2851,
+ "step": 11
+ },
+ {
+ "epoch": 0.24,
+ "learning_rate": 0.00019989930665413147,
+ "loss": 1.3604,
+ "step": 12
+ },
+ {
+ "epoch": 0.26,
+ "learning_rate": 0.0001997734875046456,
+ "loss": 1.7414,
+ "step": 13
+ },
+ {
+ "epoch": 0.28,
+ "learning_rate": 0.00019959742939952392,
+ "loss": 1.7797,
+ "step": 14
+ },
+ {
+ "epoch": 0.3,
+ "learning_rate": 0.00019937122098932428,
+ "loss": 1.7487,
+ "step": 15
+ },
+ {
+ "epoch": 0.3,
+ "eval_loss": 1.7023706436157227,
+ "eval_runtime": 6.1068,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 15
+ },
+ {
+ "epoch": 0.32,
+ "learning_rate": 0.00019909497617679348,
+ "loss": 1.8197,
+ "step": 16
+ },
+ {
+ "epoch": 0.34,
+ "learning_rate": 0.00019876883405951377,
+ "loss": 1.7928,
+ "step": 17
+ },
+ {
+ "epoch": 0.36,
+ "learning_rate": 0.00019839295885986296,
+ "loss": 1.7864,
+ "step": 18
+ },
+ {
+ "epoch": 0.38,
+ "learning_rate": 0.00019796753984232358,
+ "loss": 1.8278,
+ "step": 19
+ },
+ {
+ "epoch": 0.4,
+ "learning_rate": 0.00019749279121818235,
+ "loss": 1.7084,
+ "step": 20
+ },
+ {
+ "epoch": 0.4,
+ "eval_loss": 1.6931452751159668,
+ "eval_runtime": 6.1126,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 20
+ },
+ {
+ "epoch": 0.42,
+ "learning_rate": 0.0001969689520376687,
+ "loss": 1.8612,
+ "step": 21
+ },
+ {
+ "epoch": 0.44,
+ "learning_rate": 0.00019639628606958533,
+ "loss": 1.8796,
+ "step": 22
+ },
+ {
+ "epoch": 0.46,
+ "learning_rate": 0.00019577508166849304,
+ "loss": 1.4313,
+ "step": 23
+ },
+ {
+ "epoch": 0.48,
+ "learning_rate": 0.00019510565162951537,
+ "loss": 1.3394,
+ "step": 24
+ },
+ {
+ "epoch": 0.5,
+ "learning_rate": 0.00019438833303083678,
+ "loss": 1.8286,
+ "step": 25
+ },
+ {
+ "epoch": 0.5,
+ "eval_loss": 1.6889530420303345,
+ "eval_runtime": 6.1117,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 25
+ },
+ {
+ "epoch": 0.52,
+ "learning_rate": 0.00019362348706397373,
+ "loss": 1.6983,
+ "step": 26
+ },
+ {
+ "epoch": 0.54,
+ "learning_rate": 0.0001928114988519039,
+ "loss": 1.8419,
+ "step": 27
+ },
+ {
+ "epoch": 0.56,
+ "learning_rate": 0.0001919527772551451,
+ "loss": 1.7634,
+ "step": 28
+ },
+ {
+ "epoch": 0.58,
+ "learning_rate": 0.00019104775466588161,
+ "loss": 1.6784,
+ "step": 29
+ },
+ {
+ "epoch": 0.6,
+ "learning_rate": 0.0001900968867902419,
+ "loss": 1.8443,
+ "step": 30
+ },
+ {
+ "epoch": 0.6,
+ "eval_loss": 1.6835517883300781,
+ "eval_runtime": 6.113,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 30
+ },
+ {
+ "epoch": 0.62,
+ "learning_rate": 0.0001891006524188368,
+ "loss": 1.7155,
+ "step": 31
+ },
+ {
+ "epoch": 0.64,
+ "learning_rate": 0.0001880595531856738,
+ "loss": 1.8511,
+ "step": 32
+ },
+ {
+ "epoch": 0.66,
+ "learning_rate": 0.00018697411331556956,
+ "loss": 1.9756,
+ "step": 33
+ },
+ {
+ "epoch": 0.68,
+ "learning_rate": 0.00018584487936018661,
+ "loss": 1.7614,
+ "step": 34
+ },
+ {
+ "epoch": 0.7,
+ "learning_rate": 0.00018467241992282843,
+ "loss": 1.3127,
+ "step": 35
+ },
+ {
+ "epoch": 0.7,
+ "eval_loss": 1.6799031496047974,
+ "eval_runtime": 6.1132,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 35
+ },
+ {
+ "epoch": 0.72,
+ "learning_rate": 0.00018345732537213027,
+ "loss": 0.8749,
+ "step": 36
+ },
+ {
+ "epoch": 0.74,
+ "learning_rate": 0.00018220020754479102,
+ "loss": 1.7892,
+ "step": 37
+ },
+ {
+ "epoch": 0.76,
+ "learning_rate": 0.00018090169943749476,
+ "loss": 1.8039,
+ "step": 38
+ },
+ {
+ "epoch": 0.78,
+ "learning_rate": 0.00017956245488817812,
+ "loss": 1.673,
+ "step": 39
+ },
+ {
+ "epoch": 0.8,
+ "learning_rate": 0.000178183148246803,
+ "loss": 1.786,
+ "step": 40
+ },
+ {
+ "epoch": 0.8,
+ "eval_loss": 1.6771162748336792,
+ "eval_runtime": 6.1006,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 40
+ },
+ {
+ "epoch": 0.82,
+ "learning_rate": 0.0001767644740358011,
+ "loss": 1.7318,
+ "step": 41
+ },
+ {
+ "epoch": 0.84,
+ "learning_rate": 0.00017530714660036112,
+ "loss": 1.8771,
+ "step": 42
+ },
+ {
+ "epoch": 0.86,
+ "learning_rate": 0.00017381189974873407,
+ "loss": 1.8525,
+ "step": 43
+ },
+ {
+ "epoch": 0.88,
+ "learning_rate": 0.00017227948638273916,
+ "loss": 1.8761,
+ "step": 44
+ },
+ {
+ "epoch": 0.9,
+ "learning_rate": 0.00017071067811865476,
+ "loss": 1.8343,
+ "step": 45
+ },
+ {
+ "epoch": 0.9,
+ "eval_loss": 1.6742032766342163,
+ "eval_runtime": 6.1111,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 45
+ },
+ {
+ "epoch": 0.92,
+ "learning_rate": 0.00016910626489868649,
+ "loss": 1.6979,
+ "step": 46
+ },
+ {
+ "epoch": 0.94,
+ "learning_rate": 0.00016746705459320745,
+ "loss": 1.2549,
+ "step": 47
+ },
+ {
+ "epoch": 0.96,
+ "learning_rate": 0.00016579387259397127,
+ "loss": 1.0941,
+ "step": 48
+ },
+ {
+ "epoch": 0.98,
+ "learning_rate": 0.0001640875613985024,
+ "loss": 1.7805,
+ "step": 49
+ },
+ {
+ "epoch": 1.0,
+ "learning_rate": 0.00016234898018587337,
+ "loss": 1.5179,
+ "step": 50
+ },
+ {
+ "epoch": 1.0,
+ "eval_loss": 1.672481656074524,
+ "eval_runtime": 6.1089,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 50
+ },
+ {
+ "epoch": 1.02,
+ "learning_rate": 0.000160579004384082,
+ "loss": 1.7744,
+ "step": 51
+ },
+ {
+ "epoch": 1.04,
+ "learning_rate": 0.00015877852522924732,
+ "loss": 1.7504,
+ "step": 52
+ },
+ {
+ "epoch": 1.06,
+ "learning_rate": 0.0001569484493168452,
+ "loss": 1.7334,
+ "step": 53
+ },
+ {
+ "epoch": 1.08,
+ "learning_rate": 0.00015508969814521025,
+ "loss": 1.7141,
+ "step": 54
+ },
+ {
+ "epoch": 1.1,
+ "learning_rate": 0.00015320320765153367,
+ "loss": 1.8183,
+ "step": 55
+ },
+ {
+ "epoch": 1.1,
+ "eval_loss": 1.6722060441970825,
+ "eval_runtime": 6.1182,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.163,
+ "step": 55
+ },
+ {
+ "epoch": 1.12,
+ "learning_rate": 0.00015128992774059063,
+ "loss": 1.8504,
+ "step": 56
+ },
+ {
+ "epoch": 1.14,
+ "learning_rate": 0.0001493508218064347,
+ "loss": 1.7066,
+ "step": 57
+ },
+ {
+ "epoch": 1.16,
+ "learning_rate": 0.00014738686624729986,
+ "loss": 1.7424,
+ "step": 58
+ },
+ {
+ "epoch": 1.18,
+ "learning_rate": 0.00014539904997395468,
+ "loss": 1.8836,
+ "step": 59
+ },
+ {
+ "epoch": 1.2,
+ "learning_rate": 0.00014338837391175582,
+ "loss": 1.5515,
+ "step": 60
+ },
+ {
+ "epoch": 1.2,
+ "eval_loss": 1.667909860610962,
+ "eval_runtime": 6.1058,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 60
+ },
+ {
+ "epoch": 1.22,
+ "learning_rate": 0.00014135585049665207,
+ "loss": 1.069,
+ "step": 61
+ },
+ {
+ "epoch": 1.24,
+ "learning_rate": 0.00013930250316539238,
+ "loss": 1.2383,
+ "step": 62
+ },
+ {
+ "epoch": 1.26,
+ "learning_rate": 0.00013722936584019453,
+ "loss": 1.7975,
+ "step": 63
+ },
+ {
+ "epoch": 1.28,
+ "learning_rate": 0.0001351374824081343,
+ "loss": 1.7685,
+ "step": 64
+ },
+ {
+ "epoch": 1.3,
+ "learning_rate": 0.00013302790619551674,
+ "loss": 1.831,
+ "step": 65
+ },
+ {
+ "epoch": 1.3,
+ "eval_loss": 1.6692527532577515,
+ "eval_runtime": 6.1077,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 65
+ },
+ {
+ "epoch": 1.32,
+ "learning_rate": 0.00013090169943749476,
+ "loss": 1.6875,
+ "step": 66
+ },
+ {
+ "epoch": 1.34,
+ "learning_rate": 0.00012875993274320173,
+ "loss": 1.7344,
+ "step": 67
+ },
+ {
+ "epoch": 1.36,
+ "learning_rate": 0.00012660368455666752,
+ "loss": 1.6883,
+ "step": 68
+ },
+ {
+ "epoch": 1.38,
+ "learning_rate": 0.0001244340406137894,
+ "loss": 1.7168,
+ "step": 69
+ },
+ {
+ "epoch": 1.4,
+ "learning_rate": 0.00012225209339563145,
+ "loss": 1.7975,
+ "step": 70
+ },
+ {
+ "epoch": 1.4,
+ "eval_loss": 1.6680976152420044,
+ "eval_runtime": 6.1243,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.163,
+ "step": 70
+ },
+ {
+ "epoch": 1.42,
+ "learning_rate": 0.00012005894157832729,
+ "loss": 1.869,
+ "step": 71
+ },
+ {
+ "epoch": 1.44,
+ "learning_rate": 0.00011785568947986367,
+ "loss": 1.6853,
+ "step": 72
+ },
+ {
+ "epoch": 1.46,
+ "learning_rate": 0.0001156434465040231,
+ "loss": 1.2465,
+ "step": 73
+ },
+ {
+ "epoch": 1.48,
+ "learning_rate": 0.00011342332658176555,
+ "loss": 0.8489,
+ "step": 74
+ },
+ {
+ "epoch": 1.5,
+ "learning_rate": 0.00011119644761033078,
+ "loss": 1.7818,
+ "step": 75
+ },
+ {
+ "epoch": 1.5,
+ "eval_loss": 1.669010043144226,
+ "eval_runtime": 6.1095,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 75
+ },
+ {
+ "epoch": 1.52,
+ "learning_rate": 0.00010896393089034336,
+ "loss": 1.7696,
+ "step": 76
+ },
+ {
+ "epoch": 1.54,
+ "learning_rate": 0.00010672690056120399,
+ "loss": 1.7764,
+ "step": 77
+ },
+ {
+ "epoch": 1.56,
+ "learning_rate": 0.00010448648303505151,
+ "loss": 1.7498,
+ "step": 78
+ },
+ {
+ "epoch": 1.58,
+ "learning_rate": 0.00010224380642958052,
+ "loss": 1.8195,
+ "step": 79
+ },
+ {
+ "epoch": 1.6,
+ "learning_rate": 0.0001,
+ "loss": 1.7768,
+ "step": 80
+ },
+ {
+ "epoch": 1.6,
+ "eval_loss": 1.667705774307251,
+ "eval_runtime": 6.1125,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 80
+ },
+ {
+ "epoch": 1.62,
+ "learning_rate": 9.775619357041952e-05,
+ "loss": 1.9044,
+ "step": 81
+ },
+ {
+ "epoch": 1.64,
+ "learning_rate": 9.551351696494854e-05,
+ "loss": 1.8899,
+ "step": 82
+ },
+ {
+ "epoch": 1.66,
+ "learning_rate": 9.327309943879604e-05,
+ "loss": 1.9218,
+ "step": 83
+ },
+ {
+ "epoch": 1.68,
+ "learning_rate": 9.103606910965666e-05,
+ "loss": 1.7831,
+ "step": 84
+ },
+ {
+ "epoch": 1.7,
+ "learning_rate": 8.880355238966923e-05,
+ "loss": 1.3084,
+ "step": 85
+ },
+ {
+ "epoch": 1.7,
+ "eval_loss": 1.667492389678955,
+ "eval_runtime": 6.107,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 85
+ },
+ {
+ "epoch": 1.72,
+ "learning_rate": 8.657667341823448e-05,
+ "loss": 0.9686,
+ "step": 86
+ },
+ {
+ "epoch": 1.74,
+ "learning_rate": 8.435655349597689e-05,
+ "loss": 1.788,
+ "step": 87
+ },
+ {
+ "epoch": 1.76,
+ "learning_rate": 8.214431052013634e-05,
+ "loss": 1.6448,
+ "step": 88
+ },
+ {
+ "epoch": 1.78,
+ "learning_rate": 7.994105842167273e-05,
+ "loss": 1.6639,
+ "step": 89
+ },
+ {
+ "epoch": 1.8,
+ "learning_rate": 7.774790660436858e-05,
+ "loss": 1.7402,
+ "step": 90
+ },
+ {
+ "epoch": 1.8,
+ "eval_loss": 1.6677496433258057,
+ "eval_runtime": 6.0974,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 90
+ },
+ {
+ "epoch": 1.82,
+ "learning_rate": 7.556595938621058e-05,
+ "loss": 1.7281,
+ "step": 91
+ },
+ {
+ "epoch": 1.84,
+ "learning_rate": 7.339631544333249e-05,
+ "loss": 1.7017,
+ "step": 92
+ },
+ {
+ "epoch": 1.86,
+ "learning_rate": 7.124006725679828e-05,
+ "loss": 1.758,
+ "step": 93
+ },
+ {
+ "epoch": 1.88,
+ "learning_rate": 6.909830056250527e-05,
+ "loss": 1.7958,
+ "step": 94
+ },
+ {
+ "epoch": 1.9,
+ "learning_rate": 6.697209380448333e-05,
+ "loss": 1.8462,
+ "step": 95
+ },
+ {
+ "epoch": 1.9,
+ "eval_loss": 1.6652313470840454,
+ "eval_runtime": 6.1048,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 95
+ },
+ {
+ "epoch": 1.92,
+ "learning_rate": 6.486251759186572e-05,
+ "loss": 1.8275,
+ "step": 96
+ },
+ {
+ "epoch": 1.94,
+ "learning_rate": 6.277063415980549e-05,
+ "loss": 1.4802,
+ "step": 97
+ },
+ {
+ "epoch": 1.96,
+ "learning_rate": 6.069749683460765e-05,
+ "loss": 1.1441,
+ "step": 98
+ },
+ {
+ "epoch": 1.98,
+ "learning_rate": 5.864414950334796e-05,
+ "loss": 1.7344,
+ "step": 99
+ },
+ {
+ "epoch": 2.0,
+ "learning_rate": 5.6611626088244194e-05,
+ "loss": 1.6543,
+ "step": 100
+ },
+ {
+ "epoch": 2.0,
+ "eval_loss": 1.6656206846237183,
+ "eval_runtime": 6.1082,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 100
+ }
+ ],
+ "max_steps": 150,
+ "num_train_epochs": 3,
+ "total_flos": 2.8763598340286054e+17,
+ "trial_name": null,
+ "trial_params": null
+}

checkpoint-100/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd8d23f042a338ad3600f5059478d68d7fca1548633272a68cc6bebfb23ad3ee
+size 3899

checkpoint-120/README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.4.0

checkpoint-120/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+ "auto_mapping": null,
+ "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+ "bias": "none",
+ "fan_in_fan_out": null,
+ "inference_mode": true,
+ "init_lora_weights": true,
+ "layers_pattern": null,
+ "layers_to_transform": null,
+ "lora_alpha": 8,
+ "lora_dropout": 0.0,
+ "modules_to_save": null,
+ "peft_type": "LORA",
+ "r": 4,
+ "revision": null,
+ "target_modules": [
+ "gate_proj",
+ "down_proj",
+ "up_proj",
+ "q_proj",
+ "v_proj",
+ "k_proj",
+ "o_proj"
+ ],
+ "task_type": "CAUSAL_LM"
+}

checkpoint-120/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7390877ef5f362ceb01922c4a999718346af346ba9096ef521fbff5e1593bfa8
+size 40137613

checkpoint-120/adapter_model/README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.4.0

checkpoint-120/adapter_model/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+ "auto_mapping": null,
+ "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+ "bias": "none",
+ "fan_in_fan_out": null,
+ "inference_mode": true,
+ "init_lora_weights": true,
+ "layers_pattern": null,
+ "layers_to_transform": null,
+ "lora_alpha": 8,
+ "lora_dropout": 0.0,
+ "modules_to_save": null,
+ "peft_type": "LORA",
+ "r": 4,
+ "revision": null,
+ "target_modules": [
+ "gate_proj",
+ "down_proj",
+ "up_proj",
+ "q_proj",
+ "v_proj",
+ "k_proj",
+ "o_proj"
+ ],
+ "task_type": "CAUSAL_LM"
+}

checkpoint-120/adapter_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7390877ef5f362ceb01922c4a999718346af346ba9096ef521fbff5e1593bfa8
+size 40137613

checkpoint-120/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b53fa9d8c92560599043bb1e77b432d1a86dba073e6b826701cbeb07668c5e6b
+size 10264773

checkpoint-120/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:830e818e6899ff30b431c470cff0e4bafb5e8c7e429469a6fb9dfb5272323c44
+size 14575

checkpoint-120/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87c65de0f3d90fa8477a7f6d5dce812df67139fc573ed544a861f1535557a37e
+size 627

checkpoint-120/trainer_state.json ADDED Viewed

	@@ -0,0 +1,928 @@

+{
+ "best_metric": null,
+ "best_model_checkpoint": null,
+ "epoch": 2.4,
+ "global_step": 120,
+ "is_hyper_param_search": false,
+ "is_local_process_zero": true,
+ "is_world_process_zero": true,
+ "log_history": [
+ {
+ "epoch": 0.02,
+ "learning_rate": 2e-05,
+ "loss": 1.8562,
+ "step": 1
+ },
+ {
+ "epoch": 0.04,
+ "learning_rate": 4e-05,
+ "loss": 1.8114,
+ "step": 2
+ },
+ {
+ "epoch": 0.06,
+ "learning_rate": 6e-05,
+ "loss": 1.816,
+ "step": 3
+ },
+ {
+ "epoch": 0.08,
+ "learning_rate": 8e-05,
+ "loss": 1.7654,
+ "step": 4
+ },
+ {
+ "epoch": 0.1,
+ "learning_rate": 0.0001,
+ "loss": 1.7975,
+ "step": 5
+ },
+ {
+ "epoch": 0.1,
+ "eval_loss": 1.751416563987732,
+ "eval_runtime": 6.1216,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.163,
+ "step": 5
+ },
+ {
+ "epoch": 0.12,
+ "learning_rate": 0.00012,
+ "loss": 1.88,
+ "step": 6
+ },
+ {
+ "epoch": 0.14,
+ "learning_rate": 0.00014,
+ "loss": 1.7946,
+ "step": 7
+ },
+ {
+ "epoch": 0.16,
+ "learning_rate": 0.00016,
+ "loss": 1.9499,
+ "step": 8
+ },
+ {
+ "epoch": 0.18,
+ "learning_rate": 0.00018,
+ "loss": 1.988,
+ "step": 9
+ },
+ {
+ "epoch": 0.2,
+ "learning_rate": 0.0002,
+ "loss": 1.6376,
+ "step": 10
+ },
+ {
+ "epoch": 0.2,
+ "eval_loss": 1.722676396369934,
+ "eval_runtime": 6.1182,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.163,
+ "step": 10
+ },
+ {
+ "epoch": 0.22,
+ "learning_rate": 0.00019997482349425066,
+ "loss": 1.2851,
+ "step": 11
+ },
+ {
+ "epoch": 0.24,
+ "learning_rate": 0.00019989930665413147,
+ "loss": 1.3604,
+ "step": 12
+ },
+ {
+ "epoch": 0.26,
+ "learning_rate": 0.0001997734875046456,
+ "loss": 1.7414,
+ "step": 13
+ },
+ {
+ "epoch": 0.28,
+ "learning_rate": 0.00019959742939952392,
+ "loss": 1.7797,
+ "step": 14
+ },
+ {
+ "epoch": 0.3,
+ "learning_rate": 0.00019937122098932428,
+ "loss": 1.7487,
+ "step": 15
+ },
+ {
+ "epoch": 0.3,
+ "eval_loss": 1.7023706436157227,
+ "eval_runtime": 6.1068,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 15
+ },
+ {
+ "epoch": 0.32,
+ "learning_rate": 0.00019909497617679348,
+ "loss": 1.8197,
+ "step": 16
+ },
+ {
+ "epoch": 0.34,
+ "learning_rate": 0.00019876883405951377,
+ "loss": 1.7928,
+ "step": 17
+ },
+ {
+ "epoch": 0.36,
+ "learning_rate": 0.00019839295885986296,
+ "loss": 1.7864,
+ "step": 18
+ },
+ {
+ "epoch": 0.38,
+ "learning_rate": 0.00019796753984232358,
+ "loss": 1.8278,
+ "step": 19
+ },
+ {
+ "epoch": 0.4,
+ "learning_rate": 0.00019749279121818235,
+ "loss": 1.7084,
+ "step": 20
+ },
+ {
+ "epoch": 0.4,
+ "eval_loss": 1.6931452751159668,
+ "eval_runtime": 6.1126,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 20
+ },
+ {
+ "epoch": 0.42,
+ "learning_rate": 0.0001969689520376687,
+ "loss": 1.8612,
+ "step": 21
+ },
+ {
+ "epoch": 0.44,
+ "learning_rate": 0.00019639628606958533,
+ "loss": 1.8796,
+ "step": 22
+ },
+ {
+ "epoch": 0.46,
+ "learning_rate": 0.00019577508166849304,
+ "loss": 1.4313,
+ "step": 23
+ },
+ {
+ "epoch": 0.48,
+ "learning_rate": 0.00019510565162951537,
+ "loss": 1.3394,
+ "step": 24
+ },
+ {
+ "epoch": 0.5,
+ "learning_rate": 0.00019438833303083678,
+ "loss": 1.8286,
+ "step": 25
+ },
+ {
+ "epoch": 0.5,
+ "eval_loss": 1.6889530420303345,
+ "eval_runtime": 6.1117,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 25
+ },
+ {
+ "epoch": 0.52,
+ "learning_rate": 0.00019362348706397373,
+ "loss": 1.6983,
+ "step": 26
+ },
+ {
+ "epoch": 0.54,
+ "learning_rate": 0.0001928114988519039,
+ "loss": 1.8419,
+ "step": 27
+ },
+ {
+ "epoch": 0.56,
+ "learning_rate": 0.0001919527772551451,
+ "loss": 1.7634,
+ "step": 28
+ },
+ {
+ "epoch": 0.58,
+ "learning_rate": 0.00019104775466588161,
+ "loss": 1.6784,
+ "step": 29
+ },
+ {
+ "epoch": 0.6,
+ "learning_rate": 0.0001900968867902419,
+ "loss": 1.8443,
+ "step": 30
+ },
+ {
+ "epoch": 0.6,
+ "eval_loss": 1.6835517883300781,
+ "eval_runtime": 6.113,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 30
+ },
+ {
+ "epoch": 0.62,
+ "learning_rate": 0.0001891006524188368,
+ "loss": 1.7155,
+ "step": 31
+ },
+ {
+ "epoch": 0.64,
+ "learning_rate": 0.0001880595531856738,
+ "loss": 1.8511,
+ "step": 32
+ },
+ {
+ "epoch": 0.66,
+ "learning_rate": 0.00018697411331556956,
+ "loss": 1.9756,
+ "step": 33
+ },
+ {
+ "epoch": 0.68,
+ "learning_rate": 0.00018584487936018661,
+ "loss": 1.7614,
+ "step": 34
+ },
+ {
+ "epoch": 0.7,
+ "learning_rate": 0.00018467241992282843,
+ "loss": 1.3127,
+ "step": 35
+ },
+ {
+ "epoch": 0.7,
+ "eval_loss": 1.6799031496047974,
+ "eval_runtime": 6.1132,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 35
+ },
+ {
+ "epoch": 0.72,
+ "learning_rate": 0.00018345732537213027,
+ "loss": 0.8749,
+ "step": 36
+ },
+ {
+ "epoch": 0.74,
+ "learning_rate": 0.00018220020754479102,
+ "loss": 1.7892,
+ "step": 37
+ },
+ {
+ "epoch": 0.76,
+ "learning_rate": 0.00018090169943749476,
+ "loss": 1.8039,
+ "step": 38
+ },
+ {
+ "epoch": 0.78,
+ "learning_rate": 0.00017956245488817812,
+ "loss": 1.673,
+ "step": 39
+ },
+ {
+ "epoch": 0.8,
+ "learning_rate": 0.000178183148246803,
+ "loss": 1.786,
+ "step": 40
+ },
+ {
+ "epoch": 0.8,
+ "eval_loss": 1.6771162748336792,
+ "eval_runtime": 6.1006,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 40
+ },
+ {
+ "epoch": 0.82,
+ "learning_rate": 0.0001767644740358011,
+ "loss": 1.7318,
+ "step": 41
+ },
+ {
+ "epoch": 0.84,
+ "learning_rate": 0.00017530714660036112,
+ "loss": 1.8771,
+ "step": 42
+ },
+ {
+ "epoch": 0.86,
+ "learning_rate": 0.00017381189974873407,
+ "loss": 1.8525,
+ "step": 43
+ },
+ {
+ "epoch": 0.88,
+ "learning_rate": 0.00017227948638273916,
+ "loss": 1.8761,
+ "step": 44
+ },
+ {
+ "epoch": 0.9,
+ "learning_rate": 0.00017071067811865476,
+ "loss": 1.8343,
+ "step": 45
+ },
+ {
+ "epoch": 0.9,
+ "eval_loss": 1.6742032766342163,
+ "eval_runtime": 6.1111,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 45
+ },
+ {
+ "epoch": 0.92,
+ "learning_rate": 0.00016910626489868649,
+ "loss": 1.6979,
+ "step": 46
+ },
+ {
+ "epoch": 0.94,
+ "learning_rate": 0.00016746705459320745,
+ "loss": 1.2549,
+ "step": 47
+ },
+ {
+ "epoch": 0.96,
+ "learning_rate": 0.00016579387259397127,
+ "loss": 1.0941,
+ "step": 48
+ },
+ {
+ "epoch": 0.98,
+ "learning_rate": 0.0001640875613985024,
+ "loss": 1.7805,
+ "step": 49
+ },
+ {
+ "epoch": 1.0,
+ "learning_rate": 0.00016234898018587337,
+ "loss": 1.5179,
+ "step": 50
+ },
+ {
+ "epoch": 1.0,
+ "eval_loss": 1.672481656074524,
+ "eval_runtime": 6.1089,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 50
+ },
+ {
+ "epoch": 1.02,
+ "learning_rate": 0.000160579004384082,
+ "loss": 1.7744,
+ "step": 51
+ },
+ {
+ "epoch": 1.04,
+ "learning_rate": 0.00015877852522924732,
+ "loss": 1.7504,
+ "step": 52
+ },
+ {
+ "epoch": 1.06,
+ "learning_rate": 0.0001569484493168452,
+ "loss": 1.7334,
+ "step": 53
+ },
+ {
+ "epoch": 1.08,
+ "learning_rate": 0.00015508969814521025,
+ "loss": 1.7141,
+ "step": 54
+ },
+ {
+ "epoch": 1.1,
+ "learning_rate": 0.00015320320765153367,
+ "loss": 1.8183,
+ "step": 55
+ },
+ {
+ "epoch": 1.1,
+ "eval_loss": 1.6722060441970825,
+ "eval_runtime": 6.1182,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.163,
+ "step": 55
+ },
+ {
+ "epoch": 1.12,
+ "learning_rate": 0.00015128992774059063,
+ "loss": 1.8504,
+ "step": 56
+ },
+ {
+ "epoch": 1.14,
+ "learning_rate": 0.0001493508218064347,
+ "loss": 1.7066,
+ "step": 57
+ },
+ {
+ "epoch": 1.16,
+ "learning_rate": 0.00014738686624729986,
+ "loss": 1.7424,
+ "step": 58
+ },
+ {
+ "epoch": 1.18,
+ "learning_rate": 0.00014539904997395468,
+ "loss": 1.8836,
+ "step": 59
+ },
+ {
+ "epoch": 1.2,
+ "learning_rate": 0.00014338837391175582,
+ "loss": 1.5515,
+ "step": 60
+ },
+ {
+ "epoch": 1.2,
+ "eval_loss": 1.667909860610962,
+ "eval_runtime": 6.1058,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 60
+ },
+ {
+ "epoch": 1.22,
+ "learning_rate": 0.00014135585049665207,
+ "loss": 1.069,
+ "step": 61
+ },
+ {
+ "epoch": 1.24,
+ "learning_rate": 0.00013930250316539238,
+ "loss": 1.2383,
+ "step": 62
+ },
+ {
+ "epoch": 1.26,
+ "learning_rate": 0.00013722936584019453,
+ "loss": 1.7975,
+ "step": 63
+ },
+ {
+ "epoch": 1.28,
+ "learning_rate": 0.0001351374824081343,
+ "loss": 1.7685,
+ "step": 64
+ },
+ {
+ "epoch": 1.3,
+ "learning_rate": 0.00013302790619551674,
+ "loss": 1.831,
+ "step": 65
+ },
+ {
+ "epoch": 1.3,
+ "eval_loss": 1.6692527532577515,
+ "eval_runtime": 6.1077,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 65
+ },
+ {
+ "epoch": 1.32,
+ "learning_rate": 0.00013090169943749476,
+ "loss": 1.6875,
+ "step": 66
+ },
+ {
+ "epoch": 1.34,
+ "learning_rate": 0.00012875993274320173,
+ "loss": 1.7344,
+ "step": 67
+ },
+ {
+ "epoch": 1.36,
+ "learning_rate": 0.00012660368455666752,
+ "loss": 1.6883,
+ "step": 68
+ },
+ {
+ "epoch": 1.38,
+ "learning_rate": 0.0001244340406137894,
+ "loss": 1.7168,
+ "step": 69
+ },
+ {
+ "epoch": 1.4,
+ "learning_rate": 0.00012225209339563145,
+ "loss": 1.7975,
+ "step": 70
+ },
+ {
+ "epoch": 1.4,
+ "eval_loss": 1.6680976152420044,
+ "eval_runtime": 6.1243,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.163,
+ "step": 70
+ },
+ {
+ "epoch": 1.42,
+ "learning_rate": 0.00012005894157832729,
+ "loss": 1.869,
+ "step": 71
+ },
+ {
+ "epoch": 1.44,
+ "learning_rate": 0.00011785568947986367,
+ "loss": 1.6853,
+ "step": 72
+ },
+ {
+ "epoch": 1.46,
+ "learning_rate": 0.0001156434465040231,
+ "loss": 1.2465,
+ "step": 73
+ },
+ {
+ "epoch": 1.48,
+ "learning_rate": 0.00011342332658176555,
+ "loss": 0.8489,
+ "step": 74
+ },
+ {
+ "epoch": 1.5,
+ "learning_rate": 0.00011119644761033078,
+ "loss": 1.7818,
+ "step": 75
+ },
+ {
+ "epoch": 1.5,
+ "eval_loss": 1.669010043144226,
+ "eval_runtime": 6.1095,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 75
+ },
+ {
+ "epoch": 1.52,
+ "learning_rate": 0.00010896393089034336,
+ "loss": 1.7696,
+ "step": 76
+ },
+ {
+ "epoch": 1.54,
+ "learning_rate": 0.00010672690056120399,
+ "loss": 1.7764,
+ "step": 77
+ },
+ {
+ "epoch": 1.56,
+ "learning_rate": 0.00010448648303505151,
+ "loss": 1.7498,
+ "step": 78
+ },
+ {
+ "epoch": 1.58,
+ "learning_rate": 0.00010224380642958052,
+ "loss": 1.8195,
+ "step": 79
+ },
+ {
+ "epoch": 1.6,
+ "learning_rate": 0.0001,
+ "loss": 1.7768,
+ "step": 80
+ },
+ {
+ "epoch": 1.6,
+ "eval_loss": 1.667705774307251,
+ "eval_runtime": 6.1125,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 80
+ },
+ {
+ "epoch": 1.62,
+ "learning_rate": 9.775619357041952e-05,
+ "loss": 1.9044,
+ "step": 81
+ },
+ {
+ "epoch": 1.64,
+ "learning_rate": 9.551351696494854e-05,
+ "loss": 1.8899,
+ "step": 82
+ },
+ {
+ "epoch": 1.66,
+ "learning_rate": 9.327309943879604e-05,
+ "loss": 1.9218,
+ "step": 83
+ },
+ {
+ "epoch": 1.68,
+ "learning_rate": 9.103606910965666e-05,
+ "loss": 1.7831,
+ "step": 84
+ },
+ {
+ "epoch": 1.7,
+ "learning_rate": 8.880355238966923e-05,
+ "loss": 1.3084,
+ "step": 85
+ },
+ {
+ "epoch": 1.7,
+ "eval_loss": 1.667492389678955,
+ "eval_runtime": 6.107,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 85
+ },
+ {
+ "epoch": 1.72,
+ "learning_rate": 8.657667341823448e-05,
+ "loss": 0.9686,
+ "step": 86
+ },
+ {
+ "epoch": 1.74,
+ "learning_rate": 8.435655349597689e-05,
+ "loss": 1.788,
+ "step": 87
+ },
+ {
+ "epoch": 1.76,
+ "learning_rate": 8.214431052013634e-05,
+ "loss": 1.6448,
+ "step": 88
+ },
+ {
+ "epoch": 1.78,
+ "learning_rate": 7.994105842167273e-05,
+ "loss": 1.6639,
+ "step": 89
+ },
+ {
+ "epoch": 1.8,
+ "learning_rate": 7.774790660436858e-05,
+ "loss": 1.7402,
+ "step": 90
+ },
+ {
+ "epoch": 1.8,
+ "eval_loss": 1.6677496433258057,
+ "eval_runtime": 6.0974,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 90
+ },
+ {
+ "epoch": 1.82,
+ "learning_rate": 7.556595938621058e-05,
+ "loss": 1.7281,
+ "step": 91
+ },
+ {
+ "epoch": 1.84,
+ "learning_rate": 7.339631544333249e-05,
+ "loss": 1.7017,
+ "step": 92
+ },
+ {
+ "epoch": 1.86,
+ "learning_rate": 7.124006725679828e-05,
+ "loss": 1.758,
+ "step": 93
+ },
+ {
+ "epoch": 1.88,
+ "learning_rate": 6.909830056250527e-05,
+ "loss": 1.7958,
+ "step": 94
+ },
+ {
+ "epoch": 1.9,
+ "learning_rate": 6.697209380448333e-05,
+ "loss": 1.8462,
+ "step": 95
+ },
+ {
+ "epoch": 1.9,
+ "eval_loss": 1.6652313470840454,
+ "eval_runtime": 6.1048,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 95
+ },
+ {
+ "epoch": 1.92,
+ "learning_rate": 6.486251759186572e-05,
+ "loss": 1.8275,
+ "step": 96
+ },
+ {
+ "epoch": 1.94,
+ "learning_rate": 6.277063415980549e-05,
+ "loss": 1.4802,
+ "step": 97
+ },
+ {
+ "epoch": 1.96,
+ "learning_rate": 6.069749683460765e-05,
+ "loss": 1.1441,
+ "step": 98
+ },
+ {
+ "epoch": 1.98,
+ "learning_rate": 5.864414950334796e-05,
+ "loss": 1.7344,
+ "step": 99
+ },
+ {
+ "epoch": 2.0,
+ "learning_rate": 5.6611626088244194e-05,
+ "loss": 1.6543,
+ "step": 100
+ },
+ {
+ "epoch": 2.0,
+ "eval_loss": 1.6656206846237183,
+ "eval_runtime": 6.1082,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 100
+ },
+ {
+ "epoch": 2.02,
+ "learning_rate": 5.4600950026045326e-05,
+ "loss": 1.7825,
+ "step": 101
+ },
+ {
+ "epoch": 2.04,
+ "learning_rate": 5.261313375270014e-05,
+ "loss": 1.7521,
+ "step": 102
+ },
+ {
+ "epoch": 2.06,
+ "learning_rate": 5.0649178193565314e-05,
+ "loss": 1.8365,
+ "step": 103
+ },
+ {
+ "epoch": 2.08,
+ "learning_rate": 4.87100722594094e-05,
+ "loss": 1.738,
+ "step": 104
+ },
+ {
+ "epoch": 2.1,
+ "learning_rate": 4.6796792348466356e-05,
+ "loss": 1.6954,
+ "step": 105
+ },
+ {
+ "epoch": 2.1,
+ "eval_loss": 1.6637686491012573,
+ "eval_runtime": 6.1031,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 105
+ },
+ {
+ "epoch": 2.12,
+ "learning_rate": 4.491030185478976e-05,
+ "loss": 1.7503,
+ "step": 106
+ },
+ {
+ "epoch": 2.14,
+ "learning_rate": 4.305155068315481e-05,
+ "loss": 1.7676,
+ "step": 107
+ },
+ {
+ "epoch": 2.16,
+ "learning_rate": 4.12214747707527e-05,
+ "loss": 1.8407,
+ "step": 108
+ },
+ {
+ "epoch": 2.18,
+ "learning_rate": 3.942099561591802e-05,
+ "loss": 1.7692,
+ "step": 109
+ },
+ {
+ "epoch": 2.2,
+ "learning_rate": 3.7651019814126654e-05,
+ "loss": 1.8048,
+ "step": 110
+ },
+ {
+ "epoch": 2.2,
+ "eval_loss": 1.663559913635254,
+ "eval_runtime": 6.1093,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 110
+ },
+ {
+ "epoch": 2.22,
+ "learning_rate": 3.591243860149759e-05,
+ "loss": 1.3587,
+ "step": 111
+ },
+ {
+ "epoch": 2.24,
+ "learning_rate": 3.4206127406028745e-05,
+ "loss": 1.2887,
+ "step": 112
+ },
+ {
+ "epoch": 2.26,
+ "learning_rate": 3.253294540679257e-05,
+ "loss": 1.7741,
+ "step": 113
+ },
+ {
+ "epoch": 2.28,
+ "learning_rate": 3.089373510131354e-05,
+ "loss": 1.609,
+ "step": 114
+ },
+ {
+ "epoch": 2.3,
+ "learning_rate": 2.9289321881345254e-05,
+ "loss": 1.8432,
+ "step": 115
+ },
+ {
+ "epoch": 2.3,
+ "eval_loss": 1.664933443069458,
+ "eval_runtime": 6.1066,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 115
+ },
+ {
+ "epoch": 2.32,
+ "learning_rate": 2.7720513617260856e-05,
+ "loss": 1.6705,
+ "step": 116
+ },
+ {
+ "epoch": 2.34,
+ "learning_rate": 2.6188100251265945e-05,
+ "loss": 1.8165,
+ "step": 117
+ },
+ {
+ "epoch": 2.36,
+ "learning_rate": 2.4692853399638917e-05,
+ "loss": 1.806,
+ "step": 118
+ },
+ {
+ "epoch": 2.38,
+ "learning_rate": 2.323552596419889e-05,
+ "loss": 1.8827,
+ "step": 119
+ },
+ {
+ "epoch": 2.4,
+ "learning_rate": 2.181685175319702e-05,
+ "loss": 1.833,
+ "step": 120
+ },
+ {
+ "epoch": 2.4,
+ "eval_loss": 1.665120005607605,
+ "eval_runtime": 6.1061,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 120
+ }
+ ],
+ "max_steps": 150,
+ "num_train_epochs": 3,
+ "total_flos": 3.4890977913687245e+17,
+ "trial_name": null,
+ "trial_params": null
+}

checkpoint-120/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd8d23f042a338ad3600f5059478d68d7fca1548633272a68cc6bebfb23ad3ee
+size 3899

checkpoint-140/README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.4.0

checkpoint-140/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+ "auto_mapping": null,
+ "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+ "bias": "none",
+ "fan_in_fan_out": null,
+ "inference_mode": true,
+ "init_lora_weights": true,
+ "layers_pattern": null,
+ "layers_to_transform": null,
+ "lora_alpha": 8,
+ "lora_dropout": 0.0,
+ "modules_to_save": null,
+ "peft_type": "LORA",
+ "r": 4,
+ "revision": null,
+ "target_modules": [
+ "gate_proj",
+ "down_proj",
+ "up_proj",
+ "q_proj",
+ "v_proj",
+ "k_proj",
+ "o_proj"
+ ],
+ "task_type": "CAUSAL_LM"
+}

checkpoint-140/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66e47731578763be5a30885b9433fca267c5a009659ab58b385f5ebabdf23ddb
+size 40137613

checkpoint-140/adapter_model/README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.4.0

checkpoint-140/adapter_model/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+ "auto_mapping": null,
+ "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+ "bias": "none",
+ "fan_in_fan_out": null,
+ "inference_mode": true,
+ "init_lora_weights": true,
+ "layers_pattern": null,
+ "layers_to_transform": null,
+ "lora_alpha": 8,
+ "lora_dropout": 0.0,
+ "modules_to_save": null,
+ "peft_type": "LORA",
+ "r": 4,
+ "revision": null,
+ "target_modules": [
+ "gate_proj",
+ "down_proj",
+ "up_proj",
+ "q_proj",
+ "v_proj",
+ "k_proj",
+ "o_proj"
+ ],
+ "task_type": "CAUSAL_LM"
+}

checkpoint-140/adapter_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66e47731578763be5a30885b9433fca267c5a009659ab58b385f5ebabdf23ddb
+size 40137613

checkpoint-140/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0a168336e9a5699ed5a530876fdf4ac993ac8c0f67ce70c747459c18d8f6b065
+size 10264773

checkpoint-140/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51f3c17c1e7ce128318be2166e96b6dda4d1ff79c8b44e6fb06488bf0bbfcf8d
+size 14575

checkpoint-140/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0900a6fba1d6009e7b51215cdc66f0d705cb3e1d22579b7333dd467a9a360671
+size 627

checkpoint-140/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1080 @@

+{
+ "best_metric": null,
+ "best_model_checkpoint": null,
+ "epoch": 2.8,
+ "global_step": 140,
+ "is_hyper_param_search": false,
+ "is_local_process_zero": true,
+ "is_world_process_zero": true,
+ "log_history": [
+ {
+ "epoch": 0.02,
+ "learning_rate": 2e-05,
+ "loss": 1.8562,
+ "step": 1
+ },
+ {
+ "epoch": 0.04,
+ "learning_rate": 4e-05,
+ "loss": 1.8114,
+ "step": 2
+ },
+ {
+ "epoch": 0.06,
+ "learning_rate": 6e-05,
+ "loss": 1.816,
+ "step": 3
+ },
+ {
+ "epoch": 0.08,
+ "learning_rate": 8e-05,
+ "loss": 1.7654,
+ "step": 4
+ },
+ {
+ "epoch": 0.1,
+ "learning_rate": 0.0001,
+ "loss": 1.7975,
+ "step": 5
+ },
+ {
+ "epoch": 0.1,
+ "eval_loss": 1.751416563987732,
+ "eval_runtime": 6.1216,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.163,
+ "step": 5
+ },
+ {
+ "epoch": 0.12,
+ "learning_rate": 0.00012,
+ "loss": 1.88,
+ "step": 6
+ },
+ {
+ "epoch": 0.14,
+ "learning_rate": 0.00014,
+ "loss": 1.7946,
+ "step": 7
+ },
+ {
+ "epoch": 0.16,
+ "learning_rate": 0.00016,
+ "loss": 1.9499,
+ "step": 8
+ },
+ {
+ "epoch": 0.18,
+ "learning_rate": 0.00018,
+ "loss": 1.988,
+ "step": 9
+ },
+ {
+ "epoch": 0.2,
+ "learning_rate": 0.0002,
+ "loss": 1.6376,
+ "step": 10
+ },
+ {
+ "epoch": 0.2,
+ "eval_loss": 1.722676396369934,
+ "eval_runtime": 6.1182,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.163,
+ "step": 10
+ },
+ {
+ "epoch": 0.22,
+ "learning_rate": 0.00019997482349425066,
+ "loss": 1.2851,
+ "step": 11
+ },
+ {
+ "epoch": 0.24,
+ "learning_rate": 0.00019989930665413147,
+ "loss": 1.3604,
+ "step": 12
+ },
+ {
+ "epoch": 0.26,
+ "learning_rate": 0.0001997734875046456,
+ "loss": 1.7414,
+ "step": 13
+ },
+ {
+ "epoch": 0.28,
+ "learning_rate": 0.00019959742939952392,
+ "loss": 1.7797,
+ "step": 14
+ },
+ {
+ "epoch": 0.3,
+ "learning_rate": 0.00019937122098932428,
+ "loss": 1.7487,
+ "step": 15
+ },
+ {
+ "epoch": 0.3,
+ "eval_loss": 1.7023706436157227,
+ "eval_runtime": 6.1068,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 15
+ },
+ {
+ "epoch": 0.32,
+ "learning_rate": 0.00019909497617679348,
+ "loss": 1.8197,
+ "step": 16
+ },
+ {
+ "epoch": 0.34,
+ "learning_rate": 0.00019876883405951377,
+ "loss": 1.7928,
+ "step": 17
+ },
+ {
+ "epoch": 0.36,
+ "learning_rate": 0.00019839295885986296,
+ "loss": 1.7864,
+ "step": 18
+ },
+ {
+ "epoch": 0.38,
+ "learning_rate": 0.00019796753984232358,
+ "loss": 1.8278,
+ "step": 19
+ },
+ {
+ "epoch": 0.4,
+ "learning_rate": 0.00019749279121818235,
+ "loss": 1.7084,
+ "step": 20
+ },
+ {
+ "epoch": 0.4,
+ "eval_loss": 1.6931452751159668,
+ "eval_runtime": 6.1126,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 20
+ },
+ {
+ "epoch": 0.42,
+ "learning_rate": 0.0001969689520376687,
+ "loss": 1.8612,
+ "step": 21
+ },
+ {
+ "epoch": 0.44,
+ "learning_rate": 0.00019639628606958533,
+ "loss": 1.8796,
+ "step": 22
+ },
+ {
+ "epoch": 0.46,
+ "learning_rate": 0.00019577508166849304,
+ "loss": 1.4313,
+ "step": 23
+ },
+ {
+ "epoch": 0.48,
+ "learning_rate": 0.00019510565162951537,
+ "loss": 1.3394,
+ "step": 24
+ },
+ {
+ "epoch": 0.5,
+ "learning_rate": 0.00019438833303083678,
+ "loss": 1.8286,
+ "step": 25
+ },
+ {
+ "epoch": 0.5,
+ "eval_loss": 1.6889530420303345,
+ "eval_runtime": 6.1117,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 25
+ },
+ {
+ "epoch": 0.52,
+ "learning_rate": 0.00019362348706397373,
+ "loss": 1.6983,
+ "step": 26
+ },
+ {
+ "epoch": 0.54,
+ "learning_rate": 0.0001928114988519039,
+ "loss": 1.8419,
+ "step": 27
+ },
+ {
+ "epoch": 0.56,
+ "learning_rate": 0.0001919527772551451,
+ "loss": 1.7634,
+ "step": 28
+ },
+ {
+ "epoch": 0.58,
+ "learning_rate": 0.00019104775466588161,
+ "loss": 1.6784,
+ "step": 29
+ },
+ {
+ "epoch": 0.6,
+ "learning_rate": 0.0001900968867902419,
+ "loss": 1.8443,
+ "step": 30
+ },
+ {
+ "epoch": 0.6,
+ "eval_loss": 1.6835517883300781,
+ "eval_runtime": 6.113,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 30
+ },
+ {
+ "epoch": 0.62,
+ "learning_rate": 0.0001891006524188368,
+ "loss": 1.7155,
+ "step": 31
+ },
+ {
+ "epoch": 0.64,
+ "learning_rate": 0.0001880595531856738,
+ "loss": 1.8511,
+ "step": 32
+ },
+ {
+ "epoch": 0.66,
+ "learning_rate": 0.00018697411331556956,
+ "loss": 1.9756,
+ "step": 33
+ },
+ {
+ "epoch": 0.68,
+ "learning_rate": 0.00018584487936018661,
+ "loss": 1.7614,
+ "step": 34
+ },
+ {
+ "epoch": 0.7,
+ "learning_rate": 0.00018467241992282843,
+ "loss": 1.3127,
+ "step": 35
+ },
+ {
+ "epoch": 0.7,
+ "eval_loss": 1.6799031496047974,
+ "eval_runtime": 6.1132,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 35
+ },
+ {
+ "epoch": 0.72,
+ "learning_rate": 0.00018345732537213027,
+ "loss": 0.8749,
+ "step": 36
+ },
+ {
+ "epoch": 0.74,
+ "learning_rate": 0.00018220020754479102,
+ "loss": 1.7892,
+ "step": 37
+ },
+ {
+ "epoch": 0.76,
+ "learning_rate": 0.00018090169943749476,
+ "loss": 1.8039,
+ "step": 38
+ },
+ {
+ "epoch": 0.78,
+ "learning_rate": 0.00017956245488817812,
+ "loss": 1.673,
+ "step": 39
+ },
+ {
+ "epoch": 0.8,
+ "learning_rate": 0.000178183148246803,
+ "loss": 1.786,
+ "step": 40
+ },
+ {
+ "epoch": 0.8,
+ "eval_loss": 1.6771162748336792,
+ "eval_runtime": 6.1006,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 40
+ },
+ {
+ "epoch": 0.82,
+ "learning_rate": 0.0001767644740358011,
+ "loss": 1.7318,
+ "step": 41
+ },
+ {
+ "epoch": 0.84,
+ "learning_rate": 0.00017530714660036112,
+ "loss": 1.8771,
+ "step": 42
+ },
+ {
+ "epoch": 0.86,
+ "learning_rate": 0.00017381189974873407,
+ "loss": 1.8525,
+ "step": 43
+ },
+ {
+ "epoch": 0.88,
+ "learning_rate": 0.00017227948638273916,
+ "loss": 1.8761,
+ "step": 44
+ },
+ {
+ "epoch": 0.9,
+ "learning_rate": 0.00017071067811865476,
+ "loss": 1.8343,
+ "step": 45
+ },
+ {
+ "epoch": 0.9,
+ "eval_loss": 1.6742032766342163,
+ "eval_runtime": 6.1111,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 45
+ },
+ {
+ "epoch": 0.92,
+ "learning_rate": 0.00016910626489868649,
+ "loss": 1.6979,
+ "step": 46
+ },
+ {
+ "epoch": 0.94,
+ "learning_rate": 0.00016746705459320745,
+ "loss": 1.2549,
+ "step": 47
+ },
+ {
+ "epoch": 0.96,
+ "learning_rate": 0.00016579387259397127,
+ "loss": 1.0941,
+ "step": 48
+ },
+ {
+ "epoch": 0.98,
+ "learning_rate": 0.0001640875613985024,
+ "loss": 1.7805,
+ "step": 49
+ },
+ {
+ "epoch": 1.0,
+ "learning_rate": 0.00016234898018587337,
+ "loss": 1.5179,
+ "step": 50
+ },
+ {
+ "epoch": 1.0,
+ "eval_loss": 1.672481656074524,
+ "eval_runtime": 6.1089,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 50
+ },
+ {
+ "epoch": 1.02,
+ "learning_rate": 0.000160579004384082,
+ "loss": 1.7744,
+ "step": 51
+ },
+ {
+ "epoch": 1.04,
+ "learning_rate": 0.00015877852522924732,
+ "loss": 1.7504,
+ "step": 52
+ },
+ {
+ "epoch": 1.06,
+ "learning_rate": 0.0001569484493168452,
+ "loss": 1.7334,
+ "step": 53
+ },
+ {
+ "epoch": 1.08,
+ "learning_rate": 0.00015508969814521025,
+ "loss": 1.7141,
+ "step": 54
+ },
+ {
+ "epoch": 1.1,
+ "learning_rate": 0.00015320320765153367,
+ "loss": 1.8183,
+ "step": 55
+ },
+ {
+ "epoch": 1.1,
+ "eval_loss": 1.6722060441970825,
+ "eval_runtime": 6.1182,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.163,
+ "step": 55
+ },
+ {
+ "epoch": 1.12,
+ "learning_rate": 0.00015128992774059063,
+ "loss": 1.8504,
+ "step": 56
+ },
+ {
+ "epoch": 1.14,
+ "learning_rate": 0.0001493508218064347,
+ "loss": 1.7066,
+ "step": 57
+ },
+ {
+ "epoch": 1.16,
+ "learning_rate": 0.00014738686624729986,
+ "loss": 1.7424,
+ "step": 58
+ },
+ {
+ "epoch": 1.18,
+ "learning_rate": 0.00014539904997395468,
+ "loss": 1.8836,
+ "step": 59
+ },
+ {
+ "epoch": 1.2,
+ "learning_rate": 0.00014338837391175582,
+ "loss": 1.5515,
+ "step": 60
+ },
+ {
+ "epoch": 1.2,
+ "eval_loss": 1.667909860610962,
+ "eval_runtime": 6.1058,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 60
+ },
+ {
+ "epoch": 1.22,
+ "learning_rate": 0.00014135585049665207,
+ "loss": 1.069,
+ "step": 61
+ },
+ {
+ "epoch": 1.24,
+ "learning_rate": 0.00013930250316539238,
+ "loss": 1.2383,
+ "step": 62
+ },
+ {
+ "epoch": 1.26,
+ "learning_rate": 0.00013722936584019453,
+ "loss": 1.7975,
+ "step": 63
+ },
+ {
+ "epoch": 1.28,
+ "learning_rate": 0.0001351374824081343,
+ "loss": 1.7685,
+ "step": 64
+ },
+ {
+ "epoch": 1.3,
+ "learning_rate": 0.00013302790619551674,
+ "loss": 1.831,
+ "step": 65
+ },
+ {
+ "epoch": 1.3,
+ "eval_loss": 1.6692527532577515,
+ "eval_runtime": 6.1077,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 65
+ },
+ {
+ "epoch": 1.32,
+ "learning_rate": 0.00013090169943749476,
+ "loss": 1.6875,
+ "step": 66
+ },
+ {
+ "epoch": 1.34,
+ "learning_rate": 0.00012875993274320173,
+ "loss": 1.7344,
+ "step": 67
+ },
+ {
+ "epoch": 1.36,
+ "learning_rate": 0.00012660368455666752,
+ "loss": 1.6883,
+ "step": 68
+ },
+ {
+ "epoch": 1.38,
+ "learning_rate": 0.0001244340406137894,
+ "loss": 1.7168,
+ "step": 69
+ },
+ {
+ "epoch": 1.4,
+ "learning_rate": 0.00012225209339563145,
+ "loss": 1.7975,
+ "step": 70
+ },
+ {
+ "epoch": 1.4,
+ "eval_loss": 1.6680976152420044,
+ "eval_runtime": 6.1243,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.163,
+ "step": 70
+ },
+ {
+ "epoch": 1.42,
+ "learning_rate": 0.00012005894157832729,
+ "loss": 1.869,
+ "step": 71
+ },
+ {
+ "epoch": 1.44,
+ "learning_rate": 0.00011785568947986367,
+ "loss": 1.6853,
+ "step": 72
+ },
+ {
+ "epoch": 1.46,
+ "learning_rate": 0.0001156434465040231,
+ "loss": 1.2465,
+ "step": 73
+ },
+ {
+ "epoch": 1.48,
+ "learning_rate": 0.00011342332658176555,
+ "loss": 0.8489,
+ "step": 74
+ },
+ {
+ "epoch": 1.5,
+ "learning_rate": 0.00011119644761033078,
+ "loss": 1.7818,
+ "step": 75
+ },
+ {
+ "epoch": 1.5,
+ "eval_loss": 1.669010043144226,
+ "eval_runtime": 6.1095,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 75
+ },
+ {
+ "epoch": 1.52,
+ "learning_rate": 0.00010896393089034336,
+ "loss": 1.7696,
+ "step": 76
+ },
+ {
+ "epoch": 1.54,
+ "learning_rate": 0.00010672690056120399,
+ "loss": 1.7764,
+ "step": 77
+ },
+ {
+ "epoch": 1.56,
+ "learning_rate": 0.00010448648303505151,
+ "loss": 1.7498,
+ "step": 78
+ },
+ {
+ "epoch": 1.58,
+ "learning_rate": 0.00010224380642958052,
+ "loss": 1.8195,
+ "step": 79
+ },
+ {
+ "epoch": 1.6,
+ "learning_rate": 0.0001,
+ "loss": 1.7768,
+ "step": 80
+ },
+ {
+ "epoch": 1.6,
+ "eval_loss": 1.667705774307251,
+ "eval_runtime": 6.1125,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 80
+ },
+ {
+ "epoch": 1.62,
+ "learning_rate": 9.775619357041952e-05,
+ "loss": 1.9044,
+ "step": 81
+ },
+ {
+ "epoch": 1.64,
+ "learning_rate": 9.551351696494854e-05,
+ "loss": 1.8899,
+ "step": 82
+ },
+ {
+ "epoch": 1.66,
+ "learning_rate": 9.327309943879604e-05,
+ "loss": 1.9218,
+ "step": 83
+ },
+ {
+ "epoch": 1.68,
+ "learning_rate": 9.103606910965666e-05,
+ "loss": 1.7831,
+ "step": 84
+ },
+ {
+ "epoch": 1.7,
+ "learning_rate": 8.880355238966923e-05,
+ "loss": 1.3084,
+ "step": 85
+ },
+ {
+ "epoch": 1.7,
+ "eval_loss": 1.667492389678955,
+ "eval_runtime": 6.107,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 85
+ },
+ {
+ "epoch": 1.72,
+ "learning_rate": 8.657667341823448e-05,
+ "loss": 0.9686,
+ "step": 86
+ },
+ {
+ "epoch": 1.74,
+ "learning_rate": 8.435655349597689e-05,
+ "loss": 1.788,
+ "step": 87
+ },
+ {
+ "epoch": 1.76,
+ "learning_rate": 8.214431052013634e-05,
+ "loss": 1.6448,
+ "step": 88
+ },
+ {
+ "epoch": 1.78,
+ "learning_rate": 7.994105842167273e-05,
+ "loss": 1.6639,
+ "step": 89
+ },
+ {
+ "epoch": 1.8,
+ "learning_rate": 7.774790660436858e-05,
+ "loss": 1.7402,
+ "step": 90
+ },
+ {
+ "epoch": 1.8,
+ "eval_loss": 1.6677496433258057,
+ "eval_runtime": 6.0974,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 90
+ },
+ {
+ "epoch": 1.82,
+ "learning_rate": 7.556595938621058e-05,
+ "loss": 1.7281,
+ "step": 91
+ },
+ {
+ "epoch": 1.84,
+ "learning_rate": 7.339631544333249e-05,
+ "loss": 1.7017,
+ "step": 92
+ },
+ {
+ "epoch": 1.86,
+ "learning_rate": 7.124006725679828e-05,
+ "loss": 1.758,
+ "step": 93
+ },
+ {
+ "epoch": 1.88,
+ "learning_rate": 6.909830056250527e-05,
+ "loss": 1.7958,
+ "step": 94
+ },
+ {
+ "epoch": 1.9,
+ "learning_rate": 6.697209380448333e-05,
+ "loss": 1.8462,
+ "step": 95
+ },
+ {
+ "epoch": 1.9,
+ "eval_loss": 1.6652313470840454,
+ "eval_runtime": 6.1048,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 95
+ },
+ {
+ "epoch": 1.92,
+ "learning_rate": 6.486251759186572e-05,
+ "loss": 1.8275,
+ "step": 96
+ },
+ {
+ "epoch": 1.94,
+ "learning_rate": 6.277063415980549e-05,
+ "loss": 1.4802,
+ "step": 97
+ },
+ {
+ "epoch": 1.96,
+ "learning_rate": 6.069749683460765e-05,
+ "loss": 1.1441,
+ "step": 98
+ },
+ {
+ "epoch": 1.98,
+ "learning_rate": 5.864414950334796e-05,
+ "loss": 1.7344,
+ "step": 99
+ },
+ {
+ "epoch": 2.0,
+ "learning_rate": 5.6611626088244194e-05,
+ "loss": 1.6543,
+ "step": 100
+ },
+ {
+ "epoch": 2.0,
+ "eval_loss": 1.6656206846237183,
+ "eval_runtime": 6.1082,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 100
+ },
+ {
+ "epoch": 2.02,
+ "learning_rate": 5.4600950026045326e-05,
+ "loss": 1.7825,
+ "step": 101
+ },
+ {
+ "epoch": 2.04,
+ "learning_rate": 5.261313375270014e-05,
+ "loss": 1.7521,
+ "step": 102
+ },
+ {
+ "epoch": 2.06,
+ "learning_rate": 5.0649178193565314e-05,
+ "loss": 1.8365,
+ "step": 103
+ },
+ {
+ "epoch": 2.08,
+ "learning_rate": 4.87100722594094e-05,
+ "loss": 1.738,
+ "step": 104
+ },
+ {
+ "epoch": 2.1,
+ "learning_rate": 4.6796792348466356e-05,
+ "loss": 1.6954,
+ "step": 105
+ },
+ {
+ "epoch": 2.1,
+ "eval_loss": 1.6637686491012573,
+ "eval_runtime": 6.1031,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 105
+ },
+ {
+ "epoch": 2.12,
+ "learning_rate": 4.491030185478976e-05,
+ "loss": 1.7503,
+ "step": 106
+ },
+ {
+ "epoch": 2.14,
+ "learning_rate": 4.305155068315481e-05,
+ "loss": 1.7676,
+ "step": 107
+ },
+ {
+ "epoch": 2.16,
+ "learning_rate": 4.12214747707527e-05,
+ "loss": 1.8407,
+ "step": 108
+ },
+ {
+ "epoch": 2.18,
+ "learning_rate": 3.942099561591802e-05,
+ "loss": 1.7692,
+ "step": 109
+ },
+ {
+ "epoch": 2.2,
+ "learning_rate": 3.7651019814126654e-05,
+ "loss": 1.8048,
+ "step": 110
+ },
+ {
+ "epoch": 2.2,
+ "eval_loss": 1.663559913635254,
+ "eval_runtime": 6.1093,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 110
+ },
+ {
+ "epoch": 2.22,
+ "learning_rate": 3.591243860149759e-05,
+ "loss": 1.3587,
+ "step": 111
+ },
+ {
+ "epoch": 2.24,
+ "learning_rate": 3.4206127406028745e-05,
+ "loss": 1.2887,
+ "step": 112
+ },
+ {
+ "epoch": 2.26,
+ "learning_rate": 3.253294540679257e-05,
+ "loss": 1.7741,
+ "step": 113
+ },
+ {
+ "epoch": 2.28,
+ "learning_rate": 3.089373510131354e-05,
+ "loss": 1.609,
+ "step": 114
+ },
+ {
+ "epoch": 2.3,
+ "learning_rate": 2.9289321881345254e-05,
+ "loss": 1.8432,
+ "step": 115
+ },
+ {
+ "epoch": 2.3,
+ "eval_loss": 1.664933443069458,
+ "eval_runtime": 6.1066,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 115
+ },
+ {
+ "epoch": 2.32,
+ "learning_rate": 2.7720513617260856e-05,
+ "loss": 1.6705,
+ "step": 116
+ },
+ {
+ "epoch": 2.34,
+ "learning_rate": 2.6188100251265945e-05,
+ "loss": 1.8165,
+ "step": 117
+ },
+ {
+ "epoch": 2.36,
+ "learning_rate": 2.4692853399638917e-05,
+ "loss": 1.806,
+ "step": 118
+ },
+ {
+ "epoch": 2.38,
+ "learning_rate": 2.323552596419889e-05,
+ "loss": 1.8827,
+ "step": 119
+ },
+ {
+ "epoch": 2.4,
+ "learning_rate": 2.181685175319702e-05,
+ "loss": 1.833,
+ "step": 120
+ },
+ {
+ "epoch": 2.4,
+ "eval_loss": 1.665120005607605,
+ "eval_runtime": 6.1061,
+ "eval_samples_per_second": 0.328,
+ "eval_steps_per_second": 0.164,
+ "step": 120
+ },
+ {
+ "epoch": 2.42,
+ "learning_rate": 2.043754511182191e-05,
+ "loss": 1.8779,
+ "step": 121
+ },
+ {
+ "epoch": 2.44,
+ "learning_rate": 1.9098300562505266e-05,
+ "loss": 1.7553,
+ "step": 122
+ },
+ {
+ "epoch": 2.46,
+ "learning_rate": 1.7799792455209018e-05,
+ "loss": 1.3448,
+ "step": 123
+ },
+ {
+ "epoch": 2.48,
+ "learning_rate": 1.6542674627869737e-05,
+ "loss": 0.967,
+ "step": 124
+ },
+ {
+ "epoch": 2.5,
+ "learning_rate": 1.5327580077171587e-05,
+ "loss": 1.7033,
+ "step": 125
+ },
+ {
+ "epoch": 2.5,
+ "eval_loss": 1.662558674812317,
+ "eval_runtime": 6.1105,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 125
+ },
+ {
+ "epoch": 2.52,
+ "learning_rate": 1.415512063981339e-05,
+ "loss": 1.7094,
+ "step": 126
+ },
+ {
+ "epoch": 2.54,
+ "learning_rate": 1.3025886684430467e-05,
+ "loss": 1.6874,
+ "step": 127
+ },
+ {
+ "epoch": 2.56,
+ "learning_rate": 1.19404468143262e-05,
+ "loss": 1.6772,
+ "step": 128
+ },
+ {
+ "epoch": 2.58,
+ "learning_rate": 1.0899347581163221e-05,
+ "loss": 1.6462,
+ "step": 129
+ },
+ {
+ "epoch": 2.6,
+ "learning_rate": 9.903113209758096e-06,
+ "loss": 1.8013,
+ "step": 130
+ },
+ {
+ "epoch": 2.6,
+ "eval_loss": 1.6647861003875732,
+ "eval_runtime": 6.1104,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 130
+ },
+ {
+ "epoch": 2.62,
+ "learning_rate": 8.952245334118414e-06,
+ "loss": 1.7317,
+ "step": 131
+ },
+ {
+ "epoch": 2.64,
+ "learning_rate": 8.047222744854943e-06,
+ "loss": 1.7714,
+ "step": 132
+ },
+ {
+ "epoch": 2.66,
+ "learning_rate": 7.1885011480961164e-06,
+ "loss": 1.8637,
+ "step": 133
+ },
+ {
+ "epoch": 2.68,
+ "learning_rate": 6.37651293602628e-06,
+ "loss": 1.5169,
+ "step": 134
+ },
+ {
+ "epoch": 2.7,
+ "learning_rate": 5.611666969163243e-06,
+ "loss": 1.2576,
+ "step": 135
+ },
+ {
+ "epoch": 2.7,
+ "eval_loss": 1.6650197505950928,
+ "eval_runtime": 6.1138,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 135
+ },
+ {
+ "epoch": 2.72,
+ "learning_rate": 4.8943483704846475e-06,
+ "loss": 0.8812,
+ "step": 136
+ },
+ {
+ "epoch": 2.74,
+ "learning_rate": 4.224918331506955e-06,
+ "loss": 1.7942,
+ "step": 137
+ },
+ {
+ "epoch": 2.76,
+ "learning_rate": 3.6037139304146762e-06,
+ "loss": 1.6483,
+ "step": 138
+ },
+ {
+ "epoch": 2.78,
+ "learning_rate": 3.0310479623313127e-06,
+ "loss": 1.7521,
+ "step": 139
+ },
+ {
+ "epoch": 2.8,
+ "learning_rate": 2.5072087818176382e-06,
+ "loss": 1.8145,
+ "step": 140
+ },
+ {
+ "epoch": 2.8,
+ "eval_loss": 1.6641619205474854,
+ "eval_runtime": 6.1153,
+ "eval_samples_per_second": 0.327,
+ "eval_steps_per_second": 0.164,
+ "step": 140
+ }
+ ],
+ "max_steps": 150,
+ "num_train_epochs": 3,
+ "total_flos": 4.058841051803812e+17,
+ "trial_name": null,
+ "trial_params": null
+}

checkpoint-140/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd8d23f042a338ad3600f5059478d68d7fca1548633272a68cc6bebfb23ad3ee
+size 3899