mkhalifa
/

instrucode

Model card Files Files and versions Community

Muhammad Khalifa commited on Apr 19, 2024

Commit

9e05026

•

1 Parent(s): 5a9e909

add instrucode llama-2 13b

Browse files

Files changed (5) hide show

with_input/decomp_code_with_intermediates/llama-2-13b/best_model/adapter_model.bin +1 -1
with_input/decomp_code_with_intermediates/llama-2-13b/best_model/optimizer.pt +1 -1
with_input/decomp_code_with_intermediates/llama-2-13b/best_model/rng_state.pth +1 -1
with_input/decomp_code_with_intermediates/llama-2-13b/best_model/scheduler.pt +1 -1
with_input/decomp_code_with_intermediates/llama-2-13b/best_model/trainer_state.json +645 -5

with_input/decomp_code_with_intermediates/llama-2-13b/best_model/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:438a8f13780e0bf581a7315fe172992cd9548569eae3204bdf11650ae651dc92
 size 104973389

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4671c2d6162e00bd0679f6a17788fe6ca996a105b9eec0605c113d55d51046e
 size 104973389

with_input/decomp_code_with_intermediates/llama-2-13b/best_model/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ad67738e5eeff9ed2c07a2c509a4e942262b90cf5330c2ba60b95835f27a392
 size 209984517

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0b33193e2eaa387f1f2594dcd74e6f6c7f8d0bb6ccad541fdc73f56d8806f54
 size 209984517

with_input/decomp_code_with_intermediates/llama-2-13b/best_model/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:acc1b8cfb3283aad217e327978b022e39fb2943a9cdf82bd8264775163348b83
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7a3940c13988eef2d142987af977c8946a726c9931362bfe39e6700c5381106
 size 14575

with_input/decomp_code_with_intermediates/llama-2-13b/best_model/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f0f43fb5ff454f55d12d06f14ece3c45b332039982175877610f7571980eab6
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a28d59beefca59c5677feb27231298b8d4e00afdda714d30a1a974e09b38f41
 size 627

with_input/decomp_code_with_intermediates/llama-2-13b/best_model/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.2938584089279175,
-  "best_model_checkpoint": "checkpoints/instrucode/with_input/decomp_code_with_intermediates/llama-2-13b/checkpoint-3000",
-  "epoch": 1.9292604501607717,
   "eval_steps": 200,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1927,13 +1927,653 @@
       "eval_samples_per_second": 2.461,
       "eval_steps_per_second": 0.308,
       "step": 3000
     }
   ],
   "logging_steps": 10,
   "max_steps": 7775,
   "num_train_epochs": 5,
   "save_steps": 200,
-  "total_flos": 5.284238267487928e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.2936367690563202,
+  "best_model_checkpoint": "checkpoints/instrucode/with_input/decomp_code_with_intermediates/llama-2-13b/checkpoint-4000",
+  "epoch": 2.572347266881029,
   "eval_steps": 200,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.461,
       "eval_steps_per_second": 0.308,
       "step": 3000
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.00018633224755700326,
+      "loss": 0.2842,
+      "step": 3010
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.00018594136807817586,
+      "loss": 0.2872,
+      "step": 3020
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00018555048859934852,
+      "loss": 0.2872,
+      "step": 3030
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00018515960912052115,
+      "loss": 0.2781,
+      "step": 3040
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.0001847687296416938,
+      "loss": 0.2933,
+      "step": 3050
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00018437785016286646,
+      "loss": 0.2964,
+      "step": 3060
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00018398697068403906,
+      "loss": 0.2787,
+      "step": 3070
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0001835960912052117,
+      "loss": 0.2891,
+      "step": 3080
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00018320521172638434,
+      "loss": 0.2875,
+      "step": 3090
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.000182814332247557,
+      "loss": 0.294,
+      "step": 3100
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.00018242345276872965,
+      "loss": 0.2793,
+      "step": 3110
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.00018203257328990225,
+      "loss": 0.2884,
+      "step": 3120
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.0001816416938110749,
+      "loss": 0.2795,
+      "step": 3130
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.00018125081433224754,
+      "loss": 0.2722,
+      "step": 3140
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.0001808599348534202,
+      "loss": 0.2653,
+      "step": 3150
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.00018046905537459282,
+      "loss": 0.2664,
+      "step": 3160
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.00018007817589576545,
+      "loss": 0.2785,
+      "step": 3170
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.00017968729641693808,
+      "loss": 0.2728,
+      "step": 3180
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.00017929641693811073,
+      "loss": 0.2675,
+      "step": 3190
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.00017890553745928339,
+      "loss": 0.2607,
+      "step": 3200
+    },
+    {
+      "epoch": 2.06,
+      "eval_loss": 0.2949482798576355,
+      "eval_runtime": 812.7173,
+      "eval_samples_per_second": 2.461,
+      "eval_steps_per_second": 0.308,
+      "step": 3200
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.00017851465798045601,
+      "loss": 0.2773,
+      "step": 3210
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 0.00017812377850162864,
+      "loss": 0.2684,
+      "step": 3220
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.00017773289902280127,
+      "loss": 0.2656,
+      "step": 3230
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.00017734201954397393,
+      "loss": 0.287,
+      "step": 3240
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.00017695114006514658,
+      "loss": 0.2694,
+      "step": 3250
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.0001765602605863192,
+      "loss": 0.2667,
+      "step": 3260
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.00017616938110749184,
+      "loss": 0.2744,
+      "step": 3270
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.00017577850162866447,
+      "loss": 0.2744,
+      "step": 3280
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.00017538762214983712,
+      "loss": 0.2615,
+      "step": 3290
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.00017499674267100975,
+      "loss": 0.2694,
+      "step": 3300
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 0.0001746058631921824,
+      "loss": 0.281,
+      "step": 3310
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.00017421498371335506,
+      "loss": 0.2744,
+      "step": 3320
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.00017382410423452766,
+      "loss": 0.268,
+      "step": 3330
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.00017343322475570032,
+      "loss": 0.2859,
+      "step": 3340
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.00017304234527687294,
+      "loss": 0.2631,
+      "step": 3350
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 0.0001726514657980456,
+      "loss": 0.2791,
+      "step": 3360
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 0.00017226058631921825,
+      "loss": 0.2873,
+      "step": 3370
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 0.00017186970684039086,
+      "loss": 0.2712,
+      "step": 3380
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 0.0001714788273615635,
+      "loss": 0.2843,
+      "step": 3390
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.00017108794788273614,
+      "loss": 0.267,
+      "step": 3400
+    },
+    {
+      "epoch": 2.19,
+      "eval_loss": 0.29497140645980835,
+      "eval_runtime": 812.7448,
+      "eval_samples_per_second": 2.461,
+      "eval_steps_per_second": 0.308,
+      "step": 3400
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.0001706970684039088,
+      "loss": 0.2697,
+      "step": 3410
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.00017030618892508142,
+      "loss": 0.2788,
+      "step": 3420
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.00016991530944625405,
+      "loss": 0.2775,
+      "step": 3430
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.00016952442996742668,
+      "loss": 0.274,
+      "step": 3440
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.00016913355048859933,
+      "loss": 0.2733,
+      "step": 3450
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.000168742671009772,
+      "loss": 0.2675,
+      "step": 3460
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.00016835179153094462,
+      "loss": 0.2715,
+      "step": 3470
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.00016796091205211725,
+      "loss": 0.2658,
+      "step": 3480
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.00016757003257328987,
+      "loss": 0.2797,
+      "step": 3490
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.00016717915309446253,
+      "loss": 0.2671,
+      "step": 3500
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.00016678827361563518,
+      "loss": 0.279,
+      "step": 3510
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.0001663973941368078,
+      "loss": 0.2697,
+      "step": 3520
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.00016600651465798044,
+      "loss": 0.2689,
+      "step": 3530
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 0.00016561563517915307,
+      "loss": 0.2613,
+      "step": 3540
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 0.00016522475570032572,
+      "loss": 0.2719,
+      "step": 3550
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 0.00016483387622149835,
+      "loss": 0.2722,
+      "step": 3560
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.000164442996742671,
+      "loss": 0.2714,
+      "step": 3570
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0001640521172638436,
+      "loss": 0.2677,
+      "step": 3580
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 0.00016366123778501626,
+      "loss": 0.2599,
+      "step": 3590
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.00016327035830618892,
+      "loss": 0.2765,
+      "step": 3600
+    },
+    {
+      "epoch": 2.32,
+      "eval_loss": 0.294181764125824,
+      "eval_runtime": 814.8768,
+      "eval_samples_per_second": 2.454,
+      "eval_steps_per_second": 0.307,
+      "step": 3600
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.00016287947882736155,
+      "loss": 0.2608,
+      "step": 3610
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.0001624885993485342,
+      "loss": 0.2644,
+      "step": 3620
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.0001620977198697068,
+      "loss": 0.2905,
+      "step": 3630
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 0.00016170684039087946,
+      "loss": 0.2722,
+      "step": 3640
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.0001613159609120521,
+      "loss": 0.2679,
+      "step": 3650
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.00016092508143322474,
+      "loss": 0.274,
+      "step": 3660
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.0001605342019543974,
+      "loss": 0.2692,
+      "step": 3670
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.00016014332247557003,
+      "loss": 0.2663,
+      "step": 3680
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.00015975244299674265,
+      "loss": 0.2598,
+      "step": 3690
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.00015936156351791528,
+      "loss": 0.2756,
+      "step": 3700
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.00015897068403908794,
+      "loss": 0.2715,
+      "step": 3710
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.0001585798045602606,
+      "loss": 0.2741,
+      "step": 3720
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.00015818892508143322,
+      "loss": 0.2751,
+      "step": 3730
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.00015779804560260585,
+      "loss": 0.2727,
+      "step": 3740
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.00015740716612377848,
+      "loss": 0.262,
+      "step": 3750
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.00015701628664495113,
+      "loss": 0.2677,
+      "step": 3760
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.00015662540716612376,
+      "loss": 0.2723,
+      "step": 3770
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.00015623452768729641,
+      "loss": 0.2682,
+      "step": 3780
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.00015584364820846904,
+      "loss": 0.2685,
+      "step": 3790
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.00015545276872964167,
+      "loss": 0.2654,
+      "step": 3800
+    },
+    {
+      "epoch": 2.44,
+      "eval_loss": 0.2940288186073303,
+      "eval_runtime": 812.6786,
+      "eval_samples_per_second": 2.461,
+      "eval_steps_per_second": 0.308,
+      "step": 3800
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.00015506188925081433,
+      "loss": 0.2652,
+      "step": 3810
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 0.00015467100977198695,
+      "loss": 0.2711,
+      "step": 3820
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 0.0001542801302931596,
+      "loss": 0.2719,
+      "step": 3830
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 0.0001538892508143322,
+      "loss": 0.2548,
+      "step": 3840
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 0.00015349837133550487,
+      "loss": 0.2743,
+      "step": 3850
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 0.00015310749185667752,
+      "loss": 0.2862,
+      "step": 3860
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 0.00015271661237785015,
+      "loss": 0.281,
+      "step": 3870
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 0.0001523257328990228,
+      "loss": 0.271,
+      "step": 3880
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 0.0001519348534201954,
+      "loss": 0.2677,
+      "step": 3890
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.00015154397394136806,
+      "loss": 0.2614,
+      "step": 3900
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.0001511530944625407,
+      "loss": 0.2719,
+      "step": 3910
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 0.00015076221498371334,
+      "loss": 0.2678,
+      "step": 3920
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.000150371335504886,
+      "loss": 0.262,
+      "step": 3930
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.00014998045602605863,
+      "loss": 0.2853,
+      "step": 3940
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 0.00014958957654723126,
+      "loss": 0.2776,
+      "step": 3950
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 0.00014919869706840388,
+      "loss": 0.2768,
+      "step": 3960
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 0.00014880781758957654,
+      "loss": 0.2716,
+      "step": 3970
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 0.00014841693811074917,
+      "loss": 0.2617,
+      "step": 3980
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.00014802605863192182,
+      "loss": 0.2742,
+      "step": 3990
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.00014763517915309445,
+      "loss": 0.2673,
+      "step": 4000
+    },
+    {
+      "epoch": 2.57,
+      "eval_loss": 0.2936367690563202,
+      "eval_runtime": 812.6744,
+      "eval_samples_per_second": 2.461,
+      "eval_steps_per_second": 0.308,
+      "step": 4000
     }
   ],
   "logging_steps": 10,
   "max_steps": 7775,
   "num_train_epochs": 5,
   "save_steps": 200,
+  "total_flos": 7.045037400998707e+18,
   "trial_name": null,
   "trial_params": null
 }