Model save

Browse files

Files changed (16) hide show

README.md +54 -0
adapter_config.json +27 -0
adapter_model.safetensors +3 -0
config.json +32 -0
emissions.csv +3 -0
generation_config.json +4 -0
model-00001-of-00003.safetensors +3 -0
model-00002-of-00003.safetensors +3 -0
model-00003-of-00003.safetensors +3 -0
model.safetensors.index.json +332 -0
runs/Dec19_03-38-03_myBox/events.out.tfevents.1702942689.myBox.50636.0 +3 -0
runs/Dec19_19-40-40_myBox/events.out.tfevents.1703000451.myBox.589599.0 +3 -0
runs/Dec19_19-45-13_myBox/events.out.tfevents.1703000720.myBox.593336.0 +3 -0
runs/Dec19_19-49-03_myBox/events.out.tfevents.1703000950.myBox.593903.0 +3 -0
runs/Dec19_19-54-55_myBox/events.out.tfevents.1703001301.myBox.594542.0 +3 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,54 @@

+---
+license: other
+library_name: peft
+tags:
+- generated_from_trainer
+base_model: microsoft/phi-2
+model-index:
+- name: phi-2-finetuned-ultrachat200k
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# phi-2-finetuned-ultrachat200k
+This model is a fine-tuned version of [microsoft/phi-2](https://huggingface.co/microsoft/phi-2) on the None dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 4
+- eval_batch_size: 8
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- training_steps: 52000
+### Training results
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.36.2
+- Pytorch 2.1.1+cu121
+- Datasets 2.15.0
+- Tokenizers 0.15.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "microsoft/phi-2",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 4,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 4,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "fc1",
+    "Wqkv",
+    "out_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f31f1b1a67c48b279cedfa93d0ece9db3f909e214851be6870b470dcdf1abfdf
+size 14442464

config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "microsoft/phi-2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "PhiForCausalLM"
+  ],
+  "attn_pdrop": 0.0,
+  "auto_map": {
+    "AutoConfig": "microsoft/phi-2--configuration_phi.PhiConfig",
+    "AutoModelForCausalLM": "microsoft/phi-2--modeling_phi.PhiForCausalLM"
+  },
+  "embd_pdrop": 0.0,
+  "flash_attn": false,
+  "flash_rotary": false,
+  "fused_dense": false,
+  "img_processor": null,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "phi-msft",
+  "n_embd": 2560,
+  "n_head": 32,
+  "n_head_kv": null,
+  "n_inner": null,
+  "n_layer": 32,
+  "n_positions": 2048,
+  "resid_pdrop": 0.1,
+  "rotary_dim": 32,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.36.2",
+  "vocab_size": 51200
+}

emissions.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+timestamp,project_name,run_id,duration,emissions,emissions_rate,cpu_power,gpu_power,ram_power,cpu_energy,gpu_energy,ram_energy,energy_consumed,country_name,country_iso_code,region,cloud_provider,cloud_region,os,python_version,codecarbon_version,cpu_count,cpu_model,gpu_count,gpu_model,longitude,latitude,ram_total_size,tracking_mode,on_cloud,pue
+2023-12-19T09:22:40,codecarbon,950efb74-59b8-4d02-808b-72195144b633,20665.384630203247,0.0061876094147581,2.994190297196178e-07,42.5,361.692,47.09887504577637,0.2439568500247265,2.0886109984547043,0.2703098589854891,2.6028777074649185,Canada,CAN,quebec,,,Linux-6.2.0-39-generic-x86_64-with-glibc2.35,3.10.13,2.2.3,32,13th Gen Intel(R) Core(TM) i9-13900KF,1,1 x NVIDIA GeForce RTX 4090,-71.2,46.8,125.59700012207033,machine,N,1.0
+2023-12-20T02:10:51,codecarbon,dac2bc4c-6490-4cb0-b5d3-50ca63fdeb5f,22543.693781137466,0.006677585184024573,2.962063470544377e-07,42.5,358.6380000000001,47.09887504577637,0.26612999930845355,2.247980258461615,0.2948804929615596,2.8089907507316245,Canada,CAN,quebec,,,Linux-6.2.0-39-generic-x86_64-with-glibc2.35,3.10.13,2.2.3,32,13th Gen Intel(R) Core(TM) i9-13900KF,1,1 x NVIDIA GeForce RTX 4090,-71.2,46.8,125.59700012207031,machine,N,1.0

generation_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "_from_model_config": true,
+  "transformers_version": "4.36.2"
+}

model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e45f13ae891b189b2036f4ceae7da8ce8a836f0fd0c8420e2badb3288dd2336c
+size 4929919720

model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1042144c221352514d53313218e3c03aa5eaff5dd6f1dcdc6a0ca66aade21b89
+size 4930095280

model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a881eb3f09705c24ff0afb413d490308349efbc3cf0da744e51dcc5b2dce0f0b
+size 1258754696

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,332 @@

+{
+  "metadata": {
+    "total_size": 11118735360
+  },
+  "weight_map": {
+    "lm_head.linear.bias": "model-00003-of-00003.safetensors",
+    "lm_head.linear.weight": "model-00003-of-00003.safetensors",
+    "lm_head.ln.bias": "model-00003-of-00003.safetensors",
+    "lm_head.ln.weight": "model-00003-of-00003.safetensors",
+    "transformer.embd.wte.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.0.ln.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.0.ln.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.0.mixer.Wqkv.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.0.mixer.Wqkv.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.0.mixer.out_proj.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.0.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.0.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.0.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.0.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.0.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.1.ln.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.1.ln.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.1.mixer.Wqkv.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.1.mixer.Wqkv.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.1.mixer.out_proj.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.1.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.1.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.1.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.1.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.1.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.10.ln.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.10.ln.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.10.mixer.Wqkv.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.10.mixer.Wqkv.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.10.mixer.out_proj.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.10.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.10.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.10.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.10.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.10.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.11.ln.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.11.ln.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.11.mixer.Wqkv.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.11.mixer.Wqkv.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.11.mixer.out_proj.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.11.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.11.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.11.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.11.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.11.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.12.ln.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.12.ln.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.12.mixer.Wqkv.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.12.mixer.Wqkv.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.12.mixer.out_proj.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.12.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.12.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.12.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.12.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.12.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.13.ln.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.13.ln.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.13.mixer.Wqkv.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.13.mixer.Wqkv.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.13.mixer.out_proj.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.13.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.13.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.13.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.13.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.13.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.14.ln.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.14.ln.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.14.mixer.Wqkv.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.14.mixer.Wqkv.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.14.mixer.out_proj.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.14.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.14.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.14.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.14.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.14.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.15.ln.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.15.ln.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.15.mixer.Wqkv.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.15.mixer.Wqkv.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.15.mixer.out_proj.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.15.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.15.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.15.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.15.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.15.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.16.ln.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.16.ln.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.16.mixer.Wqkv.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.16.mixer.Wqkv.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.16.mixer.out_proj.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.16.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.16.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.16.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.16.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.16.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.17.ln.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.17.ln.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.17.mixer.Wqkv.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.17.mixer.Wqkv.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.17.mixer.out_proj.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.17.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.17.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.17.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.17.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.17.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.18.ln.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.18.ln.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.18.mixer.Wqkv.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.18.mixer.Wqkv.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.18.mixer.out_proj.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.18.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.18.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.18.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.18.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.18.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.19.ln.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.19.ln.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.19.mixer.Wqkv.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.19.mixer.Wqkv.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.19.mixer.out_proj.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.19.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.19.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.19.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.19.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.19.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.2.ln.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.2.ln.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.2.mixer.Wqkv.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.2.mixer.Wqkv.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.2.mixer.out_proj.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.2.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.2.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.2.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.2.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.2.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.20.ln.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.20.ln.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.20.mixer.Wqkv.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.20.mixer.Wqkv.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.20.mixer.out_proj.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.20.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.20.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.20.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.20.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.20.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.21.ln.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.21.ln.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.21.mixer.Wqkv.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.21.mixer.Wqkv.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.21.mixer.out_proj.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.21.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.21.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.21.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.21.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.21.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.22.ln.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.22.ln.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.22.mixer.Wqkv.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.22.mixer.Wqkv.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.22.mixer.out_proj.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.22.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.22.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.22.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.22.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.22.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.23.ln.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.23.ln.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.23.mixer.Wqkv.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.23.mixer.Wqkv.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.23.mixer.out_proj.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.23.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.23.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.23.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.23.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.23.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.24.ln.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.24.ln.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.24.mixer.Wqkv.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.24.mixer.Wqkv.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.24.mixer.out_proj.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.24.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.24.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.24.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.24.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.24.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.25.ln.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.25.ln.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.25.mixer.Wqkv.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.25.mixer.Wqkv.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.25.mixer.out_proj.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.25.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.25.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.25.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.25.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.25.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.26.ln.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.26.ln.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.26.mixer.Wqkv.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.26.mixer.Wqkv.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.26.mixer.out_proj.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.26.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.26.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.26.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.26.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.26.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.27.ln.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.27.ln.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.27.mixer.Wqkv.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.27.mixer.Wqkv.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.27.mixer.out_proj.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.27.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.27.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.27.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.27.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.27.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.28.ln.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.28.ln.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.28.mixer.Wqkv.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.28.mixer.Wqkv.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.28.mixer.out_proj.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.28.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.28.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.28.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.28.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.28.mlp.fc2.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.29.ln.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.29.ln.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.29.mixer.Wqkv.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.29.mixer.Wqkv.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.29.mixer.out_proj.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.29.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.29.mlp.fc1.bias": "model-00002-of-00003.safetensors",
+    "transformer.h.29.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "transformer.h.29.mlp.fc2.bias": "model-00003-of-00003.safetensors",
+    "transformer.h.29.mlp.fc2.weight": "model-00003-of-00003.safetensors",
+    "transformer.h.3.ln.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.3.ln.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.3.mixer.Wqkv.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.3.mixer.Wqkv.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.3.mixer.out_proj.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.3.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.3.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.3.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.3.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.3.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.30.ln.bias": "model-00003-of-00003.safetensors",
+    "transformer.h.30.ln.weight": "model-00003-of-00003.safetensors",
+    "transformer.h.30.mixer.Wqkv.bias": "model-00003-of-00003.safetensors",
+    "transformer.h.30.mixer.Wqkv.weight": "model-00003-of-00003.safetensors",
+    "transformer.h.30.mixer.out_proj.bias": "model-00003-of-00003.safetensors",
+    "transformer.h.30.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "transformer.h.30.mlp.fc1.bias": "model-00003-of-00003.safetensors",
+    "transformer.h.30.mlp.fc1.weight": "model-00003-of-00003.safetensors",
+    "transformer.h.30.mlp.fc2.bias": "model-00003-of-00003.safetensors",
+    "transformer.h.30.mlp.fc2.weight": "model-00003-of-00003.safetensors",
+    "transformer.h.31.ln.bias": "model-00003-of-00003.safetensors",
+    "transformer.h.31.ln.weight": "model-00003-of-00003.safetensors",
+    "transformer.h.31.mixer.Wqkv.bias": "model-00003-of-00003.safetensors",
+    "transformer.h.31.mixer.Wqkv.weight": "model-00003-of-00003.safetensors",
+    "transformer.h.31.mixer.out_proj.bias": "model-00003-of-00003.safetensors",
+    "transformer.h.31.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "transformer.h.31.mlp.fc1.bias": "model-00003-of-00003.safetensors",
+    "transformer.h.31.mlp.fc1.weight": "model-00003-of-00003.safetensors",
+    "transformer.h.31.mlp.fc2.bias": "model-00003-of-00003.safetensors",
+    "transformer.h.31.mlp.fc2.weight": "model-00003-of-00003.safetensors",
+    "transformer.h.4.ln.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.4.ln.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.4.mixer.Wqkv.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.4.mixer.Wqkv.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.4.mixer.out_proj.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.4.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.4.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.4.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.4.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.4.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.5.ln.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.5.ln.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.5.mixer.Wqkv.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.5.mixer.Wqkv.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.5.mixer.out_proj.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.5.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.5.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.5.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.5.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.5.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.6.ln.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.6.ln.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.6.mixer.Wqkv.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.6.mixer.Wqkv.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.6.mixer.out_proj.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.6.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.6.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.6.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.6.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.6.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.7.ln.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.7.ln.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.7.mixer.Wqkv.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.7.mixer.Wqkv.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.7.mixer.out_proj.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.7.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.7.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.7.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.7.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.7.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.8.ln.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.8.ln.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.8.mixer.Wqkv.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.8.mixer.Wqkv.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.8.mixer.out_proj.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.8.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.8.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.8.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.8.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.8.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.9.ln.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.9.ln.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.9.mixer.Wqkv.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.9.mixer.Wqkv.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.9.mixer.out_proj.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.9.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.9.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.9.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "transformer.h.9.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "transformer.h.9.mlp.fc2.weight": "model-00001-of-00003.safetensors"
+  }
+}

runs/Dec19_03-38-03_myBox/events.out.tfevents.1702942689.myBox.50636.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5191a8e9f4e4e905e003ca6a6642a24f9cad89a4bbd1d0e65e0b08c9ba10edf
+size 6097

runs/Dec19_19-40-40_myBox/events.out.tfevents.1703000451.myBox.589599.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62103ae700b85bcae359b629a7230f0d53e620fe776e4ac666060e621b622dc4
+size 4940

runs/Dec19_19-45-13_myBox/events.out.tfevents.1703000720.myBox.593336.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ccad76d9de8697e44bdd747c2abc5163bfa10e2d92fc1d6ea6eb1d1ee0b6957e
+size 4940

runs/Dec19_19-49-03_myBox/events.out.tfevents.1703000950.myBox.593903.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b0eda84f415f542758466272dadb5cebfeb9fc78f117ca7bd4cf726ab938e68
+size 4940

runs/Dec19_19-54-55_myBox/events.out.tfevents.1703001301.myBox.594542.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:850ea11c4de1ce632808342b23a6d2896168f535c81c4aed77b36daa05d70344
+size 6097

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:097cd6b9995b74b3682276e975d9b1069f1a0f78d653b1b73f979b48f79a625a
+size 4728