Model save

Browse files

Files changed (5) hide show

README.md +60 -0
all_results.json +9 -0
generation_config.json +12 -0
train_results.json +9 -0
trainer_state.json +432 -0

README.md ADDED Viewed

	@@ -0,0 +1,60 @@

+---
+license: llama3
+base_model: Jackie999/llama3-sudo-5epochs-tofu_full_sft
+tags:
+- trl
+- dpo
+- generated_from_trainer
+model-index:
+- name: llama3-sudo-dpo-10epochs-forget10mix400-1sft-2fullpara-1e-5
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# llama3-sudo-dpo-10epochs-forget10mix400-1sft-2fullpara-1e-5
+This model is a fine-tuned version of [Jackie999/llama3-sudo-5epochs-tofu_full_sft](https://huggingface.co/Jackie999/llama3-sudo-5epochs-tofu_full_sft) on an unknown dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-05
+- train_batch_size: 4
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 64
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 10
+### Training results
+### Framework versions
+- Transformers 4.44.0
+- Pytorch 2.1.2
+- Datasets 3.0.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 10.0,
+    "total_flos": 0.0,
+    "train_loss": 0.048202857348136605,
+    "train_runtime": 22140.6758,
+    "train_samples": 1600,
+    "train_samples_per_second": 0.723,
+    "train_steps_per_second": 0.011
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "bos_token_id": 128000,
+  "do_sample": true,
+  "eos_token_id": [
+    128001,
+    128009
+  ],
+  "max_length": 4096,
+  "temperature": 0.6,
+  "top_p": 0.9,
+  "transformers_version": "4.44.0"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 10.0,
+    "total_flos": 0.0,
+    "train_loss": 0.048202857348136605,
+    "train_runtime": 22140.6758,
+    "train_samples": 1600,
+    "train_samples_per_second": 0.723,
+    "train_steps_per_second": 0.011
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,432 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "eval_steps": 1000,
+  "global_step": 250,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "grad_norm": 5.49031856887175,
+      "learning_rate": 4.0000000000000003e-07,
+      "logits/chosen": -1.73323655128479,
+      "logits/rejected": -1.963712453842163,
+      "logps/chosen": -64.71795654296875,
+      "logps/rejected": -92.56527709960938,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.9493782971816778,
+      "learning_rate": 4.000000000000001e-06,
+      "logits/chosen": -1.7276591062545776,
+      "logits/rejected": -1.90531325340271,
+      "logps/chosen": -72.89968872070312,
+      "logps/rejected": -117.47108459472656,
+      "loss": 0.6205,
+      "rewards/accuracies": 0.6180555820465088,
+      "rewards/chosen": -0.09507845342159271,
+      "rewards/margins": 0.2017170786857605,
+      "rewards/rejected": -0.296795517206192,
+      "step": 10
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 3.7554212607527964,
+      "learning_rate": 8.000000000000001e-06,
+      "logits/chosen": -1.4812278747558594,
+      "logits/rejected": -1.7664066553115845,
+      "logps/chosen": -64.52765655517578,
+      "logps/rejected": -272.7065734863281,
+      "loss": 0.3953,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.0347316637635231,
+      "rewards/margins": 1.7828114032745361,
+      "rewards/rejected": -1.8175432682037354,
+      "step": 20
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 6.377266655785215,
+      "learning_rate": 9.987820251299121e-06,
+      "logits/chosen": -1.6151340007781982,
+      "logits/rejected": -1.9460217952728271,
+      "logps/chosen": -143.10971069335938,
+      "logps/rejected": -631.4593505859375,
+      "loss": 0.1279,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -0.8146063685417175,
+      "rewards/margins": 4.596449851989746,
+      "rewards/rejected": -5.4110565185546875,
+      "step": 30
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.5750895192621723,
+      "learning_rate": 9.890738003669029e-06,
+      "logits/chosen": -1.6781848669052124,
+      "logits/rejected": -2.1725101470947266,
+      "logps/chosen": -153.36740112304688,
+      "logps/rejected": -981.5718994140625,
+      "loss": 0.0112,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9592069387435913,
+      "rewards/margins": 7.915135383605957,
+      "rewards/rejected": -8.87434196472168,
+      "step": 40
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 15.42824961576695,
+      "learning_rate": 9.698463103929542e-06,
+      "logits/chosen": -2.032032012939453,
+      "logits/rejected": -2.422545909881592,
+      "logps/chosen": -291.60833740234375,
+      "logps/rejected": -1471.12451171875,
+      "loss": 0.0265,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -2.294036388397217,
+      "rewards/margins": 11.53666877746582,
+      "rewards/rejected": -13.830705642700195,
+      "step": 50
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.04134383974122578,
+      "learning_rate": 9.414737964294636e-06,
+      "logits/chosen": -1.654057264328003,
+      "logits/rejected": -2.1446919441223145,
+      "logps/chosen": -305.9764709472656,
+      "logps/rejected": -1340.496826171875,
+      "loss": 0.0101,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.476349353790283,
+      "rewards/margins": 9.981760025024414,
+      "rewards/rejected": -12.458109855651855,
+      "step": 60
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 0.08981946731483229,
+      "learning_rate": 9.045084971874738e-06,
+      "logits/chosen": -1.8004175424575806,
+      "logits/rejected": -2.220939874649048,
+      "logps/chosen": -351.9838562011719,
+      "logps/rejected": -1534.653564453125,
+      "loss": 0.0004,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.8868424892425537,
+      "rewards/margins": 11.563664436340332,
+      "rewards/rejected": -14.450506210327148,
+      "step": 70
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 0.004562484598212617,
+      "learning_rate": 8.596699001693257e-06,
+      "logits/chosen": -1.955934762954712,
+      "logits/rejected": -2.4210100173950195,
+      "logps/chosen": -273.1143493652344,
+      "logps/rejected": -1595.3917236328125,
+      "loss": 0.0003,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.1271727085113525,
+      "rewards/margins": 12.920974731445312,
+      "rewards/rejected": -15.048149108886719,
+      "step": 80
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 0.1380036178242026,
+      "learning_rate": 8.078307376628292e-06,
+      "logits/chosen": -2.363739252090454,
+      "logits/rejected": -2.916693925857544,
+      "logps/chosen": -290.6210021972656,
+      "logps/rejected": -1820.208251953125,
+      "loss": 0.0001,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.2858262062072754,
+      "rewards/margins": 15.026013374328613,
+      "rewards/rejected": -17.311840057373047,
+      "step": 90
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.027548373376636768,
+      "learning_rate": 7.500000000000001e-06,
+      "logits/chosen": -1.8597825765609741,
+      "logits/rejected": -2.5159268379211426,
+      "logps/chosen": -259.3269348144531,
+      "logps/rejected": -1694.156005859375,
+      "loss": 0.0036,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.9733333587646484,
+      "rewards/margins": 14.052156448364258,
+      "rewards/rejected": -16.025489807128906,
+      "step": 100
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 0.002852087112507335,
+      "learning_rate": 6.873032967079562e-06,
+      "logits/chosen": -1.1590913534164429,
+      "logits/rejected": -1.9738283157348633,
+      "logps/chosen": -243.7049560546875,
+      "logps/rejected": -1585.557373046875,
+      "loss": 0.0008,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.8130344152450562,
+      "rewards/margins": 13.158452033996582,
+      "rewards/rejected": -14.97148609161377,
+      "step": 110
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 0.050302608930815555,
+      "learning_rate": 6.209609477998339e-06,
+      "logits/chosen": -1.1821445226669312,
+      "logits/rejected": -2.0527586936950684,
+      "logps/chosen": -265.8364562988281,
+      "logps/rejected": -1697.0533447265625,
+      "loss": 0.0002,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.049001693725586,
+      "rewards/margins": 14.01880168914795,
+      "rewards/rejected": -16.06780242919922,
+      "step": 120
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 0.002082230483938349,
+      "learning_rate": 5.522642316338268e-06,
+      "logits/chosen": -1.4268571138381958,
+      "logits/rejected": -2.196958303451538,
+      "logps/chosen": -261.50567626953125,
+      "logps/rejected": -1654.785888671875,
+      "loss": 0.0002,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.0303101539611816,
+      "rewards/margins": 13.576850891113281,
+      "rewards/rejected": -15.607162475585938,
+      "step": 130
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 0.0019893945992160438,
+      "learning_rate": 4.825502516487497e-06,
+      "logits/chosen": -1.7991822957992554,
+      "logits/rejected": -2.550363063812256,
+      "logps/chosen": -319.41717529296875,
+      "logps/rejected": -1847.844970703125,
+      "loss": 0.0001,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.583193302154541,
+      "rewards/margins": 14.985641479492188,
+      "rewards/rejected": -17.568836212158203,
+      "step": 140
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.0015741333192918123,
+      "learning_rate": 4.131759111665349e-06,
+      "logits/chosen": -1.9366722106933594,
+      "logits/rejected": -2.7011678218841553,
+      "logps/chosen": -317.91302490234375,
+      "logps/rejected": -1850.040771484375,
+      "loss": 0.0001,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.5857417583465576,
+      "rewards/margins": 15.00117015838623,
+      "rewards/rejected": -17.586910247802734,
+      "step": 150
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 0.0011046666078130404,
+      "learning_rate": 3.4549150281252635e-06,
+      "logits/chosen": -1.9223568439483643,
+      "logits/rejected": -2.68572735786438,
+      "logps/chosen": -357.874755859375,
+      "logps/rejected": -2010.9976806640625,
+      "loss": 0.0001,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.9552831649780273,
+      "rewards/margins": 16.265609741210938,
+      "rewards/rejected": -19.22089195251465,
+      "step": 160
+    },
+    {
+      "epoch": 6.8,
+      "grad_norm": 0.0008850683483477801,
+      "learning_rate": 2.8081442660546126e-06,
+      "logits/chosen": -1.939117431640625,
+      "logits/rejected": -2.6780524253845215,
+      "logps/chosen": -341.6114196777344,
+      "logps/rejected": -1941.843017578125,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.7991585731506348,
+      "rewards/margins": 15.720464706420898,
+      "rewards/rejected": -18.519622802734375,
+      "step": 170
+    },
+    {
+      "epoch": 7.2,
+      "grad_norm": 0.0006990799912761066,
+      "learning_rate": 2.204035482646267e-06,
+      "logits/chosen": -2.032839298248291,
+      "logits/rejected": -2.8106019496917725,
+      "logps/chosen": -401.89849853515625,
+      "logps/rejected": -2151.74072265625,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -3.3739535808563232,
+      "rewards/margins": 17.275264739990234,
+      "rewards/rejected": -20.649219512939453,
+      "step": 180
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 0.0009810237591607713,
+      "learning_rate": 1.6543469682057105e-06,
+      "logits/chosen": -2.005420446395874,
+      "logits/rejected": -2.788722038269043,
+      "logps/chosen": -371.88824462890625,
+      "logps/rejected": -2029.203125,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -3.0968661308288574,
+      "rewards/margins": 16.302059173583984,
+      "rewards/rejected": -19.398929595947266,
+      "step": 190
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.005038481428283606,
+      "learning_rate": 1.1697777844051105e-06,
+      "logits/chosen": -1.6506569385528564,
+      "logits/rejected": -2.4032554626464844,
+      "logps/chosen": -272.77264404296875,
+      "logps/rejected": -1795.190185546875,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.1385960578918457,
+      "rewards/margins": 14.876760482788086,
+      "rewards/rejected": -17.01535987854004,
+      "step": 200
+    },
+    {
+      "epoch": 8.4,
+      "grad_norm": 0.0007269378594182772,
+      "learning_rate": 7.597595192178702e-07,
+      "logits/chosen": -1.87616765499115,
+      "logits/rejected": -2.6102375984191895,
+      "logps/chosen": -321.3392639160156,
+      "logps/rejected": -1848.580810546875,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.6000113487243652,
+      "rewards/margins": 14.976901054382324,
+      "rewards/rejected": -17.576915740966797,
+      "step": 210
+    },
+    {
+      "epoch": 8.8,
+      "grad_norm": 0.0007139184876414333,
+      "learning_rate": 4.322727117869951e-07,
+      "logits/chosen": -1.9712779521942139,
+      "logits/rejected": -2.749927043914795,
+      "logps/chosen": -361.2076416015625,
+      "logps/rejected": -1984.336669921875,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.9964027404785156,
+      "rewards/margins": 15.949694633483887,
+      "rewards/rejected": -18.946096420288086,
+      "step": 220
+    },
+    {
+      "epoch": 9.2,
+      "grad_norm": 0.0009109490304217519,
+      "learning_rate": 1.9369152030840553e-07,
+      "logits/chosen": -1.8861472606658936,
+      "logits/rejected": -2.6229307651519775,
+      "logps/chosen": -340.4961853027344,
+      "logps/rejected": -1894.4420166015625,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.806462287902832,
+      "rewards/margins": 15.230853080749512,
+      "rewards/rejected": -18.037317276000977,
+      "step": 230
+    },
+    {
+      "epoch": 9.6,
+      "grad_norm": 0.0007160536583349626,
+      "learning_rate": 4.865965629214819e-08,
+      "logits/chosen": -1.8993374109268188,
+      "logits/rejected": -2.6610684394836426,
+      "logps/chosen": -320.7115783691406,
+      "logps/rejected": -1872.178466796875,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.6092982292175293,
+      "rewards/margins": 15.210273742675781,
+      "rewards/rejected": -17.81957244873047,
+      "step": 240
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.0006100741232287624,
+      "learning_rate": 0.0,
+      "logits/chosen": -1.9146867990493774,
+      "logits/rejected": -2.670241117477417,
+      "logps/chosen": -317.877685546875,
+      "logps/rejected": -1852.078857421875,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.5683541297912598,
+      "rewards/margins": 15.033134460449219,
+      "rewards/rejected": -17.60148811340332,
+      "step": 250
+    },
+    {
+      "epoch": 10.0,
+      "step": 250,
+      "total_flos": 0.0,
+      "train_loss": 0.048202857348136605,
+      "train_runtime": 22140.6758,
+      "train_samples_per_second": 0.723,
+      "train_steps_per_second": 0.011
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 250,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}