Marcos12886 commited on Sep 14, 2024

Commit

8fe0224

verified ·

1 Parent(s): b8afdfb

Upload folder using huggingface_hub

Browse files

Files changed (42) hide show

README.md +7 -10
checkpoint-1600/config.json +85 -0
checkpoint-1600/model.safetensors +3 -0
checkpoint-1600/optimizer.pt +3 -0
checkpoint-1600/rng_state.pth +3 -0
checkpoint-1600/scheduler.pt +3 -0
checkpoint-1600/trainer_state.json +570 -0
checkpoint-1600/training_args.bin +3 -0
checkpoint-1800/config.json +85 -0
checkpoint-1800/model.safetensors +3 -0
checkpoint-1800/optimizer.pt +3 -0
checkpoint-1800/rng_state.pth +3 -0
checkpoint-1800/scheduler.pt +3 -0
checkpoint-1800/trainer_state.json +636 -0
checkpoint-1800/training_args.bin +3 -0
checkpoint-2000/config.json +85 -0
checkpoint-2000/model.safetensors +3 -0
checkpoint-2000/optimizer.pt +3 -0
checkpoint-2000/rng_state.pth +3 -0
checkpoint-2000/scheduler.pt +3 -0
checkpoint-2000/trainer_state.json +702 -0
checkpoint-2000/training_args.bin +3 -0
checkpoint-2200/config.json +85 -0
checkpoint-2200/model.safetensors +3 -0
checkpoint-2200/optimizer.pt +3 -0
checkpoint-2200/rng_state.pth +3 -0
checkpoint-2200/scheduler.pt +3 -0
checkpoint-2200/trainer_state.json +768 -0
checkpoint-2200/training_args.bin +3 -0
checkpoint-2400/config.json +85 -0
checkpoint-2400/model.safetensors +3 -0
checkpoint-2400/optimizer.pt +3 -0
checkpoint-2400/rng_state.pth +3 -0
checkpoint-2400/scheduler.pt +3 -0
checkpoint-2400/trainer_state.json +834 -0
checkpoint-2400/training_args.bin +3 -0
model.safetensors +1 -1
runs/Sep14_17-06-50_ubumarcos/events.out.tfevents.1726327100.ubumarcos +2 -2
runs/Sep14_18-07-00_ubumarcos/events.out.tfevents.1726330021.ubumarcos +3 -0
runs/Sep14_18-24-29_ubumarcos/events.out.tfevents.1726331070.ubumarcos +3 -0
runs/Sep14_18-24-29_ubumarcos/events.out.tfevents.1726331984.ubumarcos +3 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -21,12 +21,12 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [ntu-spml/distilhubert](https://huggingface.co/ntu-spml/distilhubert) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7942
-- Accuracy: 0.8242
-- F1: 0.8278
-- Precision: 0.8347
-- Recall: 0.8242
-- Confusion Matrix: [[51, 10, 0, 2], [5, 44, 9, 0], [1, 14, 67, 0], [7, 0, 0, 63]]
 ## Model description
@@ -54,14 +54,11 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine_with_restarts
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 30
 - label_smoothing_factor: 0.1
 ### Training results
-| Training Loss | Epoch   | Step | Validation Loss | Accuracy | F1     | Precision | Recall | Confusion Matrix                                               |
-|:-------------:|:-------:|:----:|:---------------:|:--------:|:------:|:---------:|:------:|:--------------------------------------------------------------:|
-| 0.3691        | 22.2222 | 100  | 0.7942          | 0.8242   | 0.8278 | 0.8347    | 0.8242 | [[51, 10, 0, 2], [5, 44, 9, 0], [1, 14, 67, 0], [7, 0, 0, 63]] |
 ### Framework versions

 This model is a fine-tuned version of [ntu-spml/distilhubert](https://huggingface.co/ntu-spml/distilhubert) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6498
+- Accuracy: 0.8645
+- F1: 0.8634
+- Precision: 0.8632
+- Recall: 0.8645
+- Confusion Matrix: [[50, 8, 0, 2], [7, 53, 12, 0], [0, 8, 60, 0], [0, 0, 0, 73]]
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine_with_restarts
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 40
 - label_smoothing_factor: 0.1
 ### Training results
 ### Framework versions

checkpoint-1600/config.json ADDED Viewed

	@@ -0,0 +1,85 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "finetuning_task": "audio-classification",
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "1s_normal",
+    "1": "1s_pain",
+    "2": "1s_hunger",
+    "3": "1s_asphyxia"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2,
+    "LABEL_3": 3
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

checkpoint-1600/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6aef261b8260f4ac3a6428f02db7c4bcca3a99bc5665fb8044d613ce39c6fb8
+size 94765560

checkpoint-1600/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d29862664d27f45e2f2994143a8262a93a21f00e9daf67dfc1cbc1691c418eae
+size 189556666

checkpoint-1600/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ef17f9c931698b6c110fc829b63100d0d1fc71bac548498af01bb1827cde472
+size 14308

checkpoint-1600/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ddaa3a198579e44a64f9285103acba7ea329354b730d6cc3596b8951d6c763d2
+size 1064

checkpoint-1600/trainer_state.json ADDED Viewed

	@@ -0,0 +1,570 @@

+{
+  "best_metric": 0.8462423027109934,
+  "best_model_checkpoint": "distilhubert-finetuned-mixed-data/checkpoint-1400",
+  "epoch": 23.357664233576642,
+  "eval_steps": 200,
+  "global_step": 1600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.7299270072992701,
+      "grad_norm": 2.289438486099243,
+      "learning_rate": 5.5147058823529414e-05,
+      "loss": 1.2878,
+      "step": 50
+    },
+    {
+      "epoch": 1.4598540145985401,
+      "grad_norm": 2.5048491954803467,
+      "learning_rate": 0.00011029411764705883,
+      "loss": 0.8322,
+      "step": 100
+    },
+    {
+      "epoch": 2.18978102189781,
+      "grad_norm": 11.18371295928955,
+      "learning_rate": 0.00016544117647058823,
+      "loss": 0.7897,
+      "step": 150
+    },
+    {
+      "epoch": 2.9197080291970803,
+      "grad_norm": 9.702393531799316,
+      "learning_rate": 0.00022058823529411765,
+      "loss": 0.7149,
+      "step": 200
+    },
+    {
+      "epoch": 2.9197080291970803,
+      "eval_accuracy": 0.7252747252747253,
+      "eval_confusion_matrix": [
+        [
+          34,
+          39,
+          0,
+          2
+        ],
+        [
+          7,
+          62,
+          6,
+          0
+        ],
+        [
+          0,
+          19,
+          43,
+          0
+        ],
+        [
+          0,
+          2,
+          0,
+          59
+        ]
+      ],
+      "eval_f1": 0.7260427659517454,
+      "eval_loss": 0.9058456420898438,
+      "eval_precision": 0.7828499608603893,
+      "eval_recall": 0.7252747252747253,
+      "eval_runtime": 3.7417,
+      "eval_samples_per_second": 72.962,
+      "eval_steps_per_second": 0.802,
+      "step": 200
+    },
+    {
+      "epoch": 3.6496350364963503,
+      "grad_norm": 8.47255802154541,
+      "learning_rate": 0.000275735294117647,
+      "loss": 0.6917,
+      "step": 250
+    },
+    {
+      "epoch": 4.37956204379562,
+      "grad_norm": 16.689321517944336,
+      "learning_rate": 0.0002999031705390845,
+      "loss": 0.7264,
+      "step": 300
+    },
+    {
+      "epoch": 5.109489051094891,
+      "grad_norm": 1.7369310855865479,
+      "learning_rate": 0.00029924913005299595,
+      "loss": 0.6895,
+      "step": 350
+    },
+    {
+      "epoch": 5.839416058394161,
+      "grad_norm": 2.210369348526001,
+      "learning_rate": 0.0002979807906935489,
+      "loss": 0.6939,
+      "step": 400
+    },
+    {
+      "epoch": 5.839416058394161,
+      "eval_accuracy": 0.7509157509157509,
+      "eval_confusion_matrix": [
+        [
+          66,
+          2,
+          0,
+          7
+        ],
+        [
+          29,
+          38,
+          7,
+          1
+        ],
+        [
+          2,
+          20,
+          40,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.7418721712792054,
+      "eval_loss": 0.8107791543006897,
+      "eval_precision": 0.7517378077426524,
+      "eval_recall": 0.7509157509157509,
+      "eval_runtime": 3.7702,
+      "eval_samples_per_second": 72.409,
+      "eval_steps_per_second": 0.796,
+      "step": 400
+    },
+    {
+      "epoch": 6.569343065693431,
+      "grad_norm": 2.1358511447906494,
+      "learning_rate": 0.000296103372855926,
+      "loss": 0.5986,
+      "step": 450
+    },
+    {
+      "epoch": 7.299270072992701,
+      "grad_norm": 13.704009056091309,
+      "learning_rate": 0.0002936246038592886,
+      "loss": 0.5932,
+      "step": 500
+    },
+    {
+      "epoch": 8.02919708029197,
+      "grad_norm": 2.032876968383789,
+      "learning_rate": 0.00029055468614167716,
+      "loss": 0.5633,
+      "step": 550
+    },
+    {
+      "epoch": 8.75912408759124,
+      "grad_norm": 28.525798797607422,
+      "learning_rate": 0.00028690625526749705,
+      "loss": 0.4941,
+      "step": 600
+    },
+    {
+      "epoch": 8.75912408759124,
+      "eval_accuracy": 0.8241758241758241,
+      "eval_confusion_matrix": [
+        [
+          63,
+          8,
+          1,
+          3
+        ],
+        [
+          8,
+          50,
+          17,
+          0
+        ],
+        [
+          2,
+          9,
+          51,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8222676260809794,
+      "eval_loss": 0.7625077366828918,
+      "eval_precision": 0.8229409839103053,
+      "eval_recall": 0.8241758241758241,
+      "eval_runtime": 3.757,
+      "eval_samples_per_second": 72.664,
+      "eval_steps_per_second": 0.799,
+      "step": 600
+    },
+    {
+      "epoch": 9.489051094890511,
+      "grad_norm": 0.18371808528900146,
+      "learning_rate": 0.0002826943279204283,
+      "loss": 0.4842,
+      "step": 650
+    },
+    {
+      "epoch": 10.218978102189782,
+      "grad_norm": 11.426072120666504,
+      "learning_rate": 0.0002779362400958168,
+      "loss": 0.4352,
+      "step": 700
+    },
+    {
+      "epoch": 10.94890510948905,
+      "grad_norm": 8.062601089477539,
+      "learning_rate": 0.0002726515757469423,
+      "loss": 0.4447,
+      "step": 750
+    },
+    {
+      "epoch": 11.678832116788321,
+      "grad_norm": 0.3985881805419922,
+      "learning_rate": 0.00026686208617885055,
+      "loss": 0.442,
+      "step": 800
+    },
+    {
+      "epoch": 11.678832116788321,
+      "eval_accuracy": 0.7985347985347986,
+      "eval_confusion_matrix": [
+        [
+          66,
+          6,
+          1,
+          2
+        ],
+        [
+          15,
+          32,
+          26,
+          2
+        ],
+        [
+          2,
+          1,
+          59,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.781170020153555,
+      "eval_loss": 0.9623217582702637,
+      "eval_precision": 0.8093701586901577,
+      "eval_recall": 0.7985347985347986,
+      "eval_runtime": 3.774,
+      "eval_samples_per_second": 72.337,
+      "eval_steps_per_second": 0.795,
+      "step": 800
+    },
+    {
+      "epoch": 12.408759124087592,
+      "grad_norm": 38.726985931396484,
+      "learning_rate": 0.0002605916005215186,
+      "loss": 0.4504,
+      "step": 850
+    },
+    {
+      "epoch": 13.138686131386862,
+      "grad_norm": 0.026563748717308044,
+      "learning_rate": 0.0002538659276508397,
+      "loss": 0.3903,
+      "step": 900
+    },
+    {
+      "epoch": 13.86861313868613,
+      "grad_norm": 0.06770322471857071,
+      "learning_rate": 0.0002467127499611136,
+      "loss": 0.4094,
+      "step": 950
+    },
+    {
+      "epoch": 14.598540145985401,
+      "grad_norm": 1.2612749338150024,
+      "learning_rate": 0.00023916150942626798,
+      "loss": 0.4188,
+      "step": 1000
+    },
+    {
+      "epoch": 14.598540145985401,
+      "eval_accuracy": 0.8315018315018315,
+      "eval_confusion_matrix": [
+        [
+          60,
+          9,
+          2,
+          4
+        ],
+        [
+          8,
+          56,
+          11,
+          0
+        ],
+        [
+          1,
+          11,
+          50,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8307422385946511,
+      "eval_loss": 0.8534455299377441,
+      "eval_precision": 0.8312566016541674,
+      "eval_recall": 0.8315018315018315,
+      "eval_runtime": 3.796,
+      "eval_samples_per_second": 71.917,
+      "eval_steps_per_second": 0.79,
+      "step": 1000
+    },
+    {
+      "epoch": 15.328467153284672,
+      "grad_norm": 28.980899810791016,
+      "learning_rate": 0.0002312432864187738,
+      "loss": 0.3798,
+      "step": 1050
+    },
+    {
+      "epoch": 16.05839416058394,
+      "grad_norm": 0.022609323263168335,
+      "learning_rate": 0.0002229906717850284,
+      "loss": 0.3672,
+      "step": 1100
+    },
+    {
+      "epoch": 16.78832116788321,
+      "grad_norm": 0.02360348217189312,
+      "learning_rate": 0.00021443763270373483,
+      "loss": 0.3715,
+      "step": 1150
+    },
+    {
+      "epoch": 17.51824817518248,
+      "grad_norm": 0.014020542614161968,
+      "learning_rate": 0.0002056193728793941,
+      "loss": 0.349,
+      "step": 1200
+    },
+    {
+      "epoch": 17.51824817518248,
+      "eval_accuracy": 0.8351648351648352,
+      "eval_confusion_matrix": [
+        [
+          62,
+          10,
+          1,
+          2
+        ],
+        [
+          9,
+          57,
+          9,
+          0
+        ],
+        [
+          2,
+          12,
+          48,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8350675728555914,
+      "eval_loss": 0.8131950497627258,
+      "eval_precision": 0.8358475863688551,
+      "eval_recall": 0.8351648351648352,
+      "eval_runtime": 3.7788,
+      "eval_samples_per_second": 72.246,
+      "eval_steps_per_second": 0.794,
+      "step": 1200
+    },
+    {
+      "epoch": 18.248175182481752,
+      "grad_norm": 0.006028232164680958,
+      "learning_rate": 0.0001965721876463452,
+      "loss": 0.3491,
+      "step": 1250
+    },
+    {
+      "epoch": 18.978102189781023,
+      "grad_norm": 0.008285734802484512,
+      "learning_rate": 0.00018733331457973358,
+      "loss": 0.3489,
+      "step": 1300
+    },
+    {
+      "epoch": 19.708029197080293,
+      "grad_norm": 0.008053851313889027,
+      "learning_rate": 0.00017794078022828275,
+      "loss": 0.3497,
+      "step": 1350
+    },
+    {
+      "epoch": 20.437956204379564,
+      "grad_norm": 0.003234422067180276,
+      "learning_rate": 0.00016843324359970712,
+      "loss": 0.3488,
+      "step": 1400
+    },
+    {
+      "epoch": 20.437956204379564,
+      "eval_accuracy": 0.8461538461538461,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          8,
+          57,
+          10,
+          0
+        ],
+        [
+          0,
+          10,
+          52,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8462423027109934,
+      "eval_loss": 0.7859560251235962,
+      "eval_precision": 0.8474363933035696,
+      "eval_recall": 0.8461538461538461,
+      "eval_runtime": 3.7947,
+      "eval_samples_per_second": 71.942,
+      "eval_steps_per_second": 0.791,
+      "step": 1400
+    },
+    {
+      "epoch": 21.16788321167883,
+      "grad_norm": 0.004595920909196138,
+      "learning_rate": 0.00015884983704296757,
+      "loss": 0.3488,
+      "step": 1450
+    },
+    {
+      "epoch": 21.8978102189781,
+      "grad_norm": 0.002511706668883562,
+      "learning_rate": 0.00014923000518228847,
+      "loss": 0.3488,
+      "step": 1500
+    },
+    {
+      "epoch": 22.62773722627737,
+      "grad_norm": 0.002340014325454831,
+      "learning_rate": 0.00013961334256587125,
+      "loss": 0.3488,
+      "step": 1550
+    },
+    {
+      "epoch": 23.357664233576642,
+      "grad_norm": 0.0028287076856940985,
+      "learning_rate": 0.00013003943069753198,
+      "loss": 0.3488,
+      "step": 1600
+    },
+    {
+      "epoch": 23.357664233576642,
+      "eval_accuracy": 0.8461538461538461,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          8,
+          57,
+          10,
+          0
+        ],
+        [
+          0,
+          10,
+          52,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8462423027109934,
+      "eval_loss": 0.7856015563011169,
+      "eval_precision": 0.8474363933035696,
+      "eval_recall": 0.8461538461538461,
+      "eval_runtime": 3.7861,
+      "eval_samples_per_second": 72.105,
+      "eval_steps_per_second": 0.792,
+      "step": 1600
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2720,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 40,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.790635667072e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1600/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1cd6053c9e08edd46715ea6144f2b03c4f4ac31b547b8ae042d0b5e4a21ad64
+size 5240

checkpoint-1800/config.json ADDED Viewed

	@@ -0,0 +1,85 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "finetuning_task": "audio-classification",
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "1s_normal",
+    "1": "1s_pain",
+    "2": "1s_hunger",
+    "3": "1s_asphyxia"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2,
+    "LABEL_3": 3
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

checkpoint-1800/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3892e9230bb2f7ce41c962ffb147c373f6606471a9ef74da585894adff1bfb70
+size 94765560

checkpoint-1800/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41acf717dcb1a8f15aa79d79b64f778e5f5dd6e316eec73482e77fb1177cb39c
+size 189556666

checkpoint-1800/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c4142f79ad6a7fc590ff6315301e758c94ec69a4bddf4dbd0f59cb647a60bed
+size 14308

checkpoint-1800/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64558c90d8f26d69b3225a367b121a3b1f071de723e5c1c651fdece834417a36
+size 1064

checkpoint-1800/trainer_state.json ADDED Viewed

	@@ -0,0 +1,636 @@

+{
+  "best_metric": 0.8535663673078441,
+  "best_model_checkpoint": "distilhubert-finetuned-mixed-data/checkpoint-1800",
+  "epoch": 26.277372262773724,
+  "eval_steps": 200,
+  "global_step": 1800,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.7299270072992701,
+      "grad_norm": 2.289438486099243,
+      "learning_rate": 5.5147058823529414e-05,
+      "loss": 1.2878,
+      "step": 50
+    },
+    {
+      "epoch": 1.4598540145985401,
+      "grad_norm": 2.5048491954803467,
+      "learning_rate": 0.00011029411764705883,
+      "loss": 0.8322,
+      "step": 100
+    },
+    {
+      "epoch": 2.18978102189781,
+      "grad_norm": 11.18371295928955,
+      "learning_rate": 0.00016544117647058823,
+      "loss": 0.7897,
+      "step": 150
+    },
+    {
+      "epoch": 2.9197080291970803,
+      "grad_norm": 9.702393531799316,
+      "learning_rate": 0.00022058823529411765,
+      "loss": 0.7149,
+      "step": 200
+    },
+    {
+      "epoch": 2.9197080291970803,
+      "eval_accuracy": 0.7252747252747253,
+      "eval_confusion_matrix": [
+        [
+          34,
+          39,
+          0,
+          2
+        ],
+        [
+          7,
+          62,
+          6,
+          0
+        ],
+        [
+          0,
+          19,
+          43,
+          0
+        ],
+        [
+          0,
+          2,
+          0,
+          59
+        ]
+      ],
+      "eval_f1": 0.7260427659517454,
+      "eval_loss": 0.9058456420898438,
+      "eval_precision": 0.7828499608603893,
+      "eval_recall": 0.7252747252747253,
+      "eval_runtime": 3.7417,
+      "eval_samples_per_second": 72.962,
+      "eval_steps_per_second": 0.802,
+      "step": 200
+    },
+    {
+      "epoch": 3.6496350364963503,
+      "grad_norm": 8.47255802154541,
+      "learning_rate": 0.000275735294117647,
+      "loss": 0.6917,
+      "step": 250
+    },
+    {
+      "epoch": 4.37956204379562,
+      "grad_norm": 16.689321517944336,
+      "learning_rate": 0.0002999031705390845,
+      "loss": 0.7264,
+      "step": 300
+    },
+    {
+      "epoch": 5.109489051094891,
+      "grad_norm": 1.7369310855865479,
+      "learning_rate": 0.00029924913005299595,
+      "loss": 0.6895,
+      "step": 350
+    },
+    {
+      "epoch": 5.839416058394161,
+      "grad_norm": 2.210369348526001,
+      "learning_rate": 0.0002979807906935489,
+      "loss": 0.6939,
+      "step": 400
+    },
+    {
+      "epoch": 5.839416058394161,
+      "eval_accuracy": 0.7509157509157509,
+      "eval_confusion_matrix": [
+        [
+          66,
+          2,
+          0,
+          7
+        ],
+        [
+          29,
+          38,
+          7,
+          1
+        ],
+        [
+          2,
+          20,
+          40,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.7418721712792054,
+      "eval_loss": 0.8107791543006897,
+      "eval_precision": 0.7517378077426524,
+      "eval_recall": 0.7509157509157509,
+      "eval_runtime": 3.7702,
+      "eval_samples_per_second": 72.409,
+      "eval_steps_per_second": 0.796,
+      "step": 400
+    },
+    {
+      "epoch": 6.569343065693431,
+      "grad_norm": 2.1358511447906494,
+      "learning_rate": 0.000296103372855926,
+      "loss": 0.5986,
+      "step": 450
+    },
+    {
+      "epoch": 7.299270072992701,
+      "grad_norm": 13.704009056091309,
+      "learning_rate": 0.0002936246038592886,
+      "loss": 0.5932,
+      "step": 500
+    },
+    {
+      "epoch": 8.02919708029197,
+      "grad_norm": 2.032876968383789,
+      "learning_rate": 0.00029055468614167716,
+      "loss": 0.5633,
+      "step": 550
+    },
+    {
+      "epoch": 8.75912408759124,
+      "grad_norm": 28.525798797607422,
+      "learning_rate": 0.00028690625526749705,
+      "loss": 0.4941,
+      "step": 600
+    },
+    {
+      "epoch": 8.75912408759124,
+      "eval_accuracy": 0.8241758241758241,
+      "eval_confusion_matrix": [
+        [
+          63,
+          8,
+          1,
+          3
+        ],
+        [
+          8,
+          50,
+          17,
+          0
+        ],
+        [
+          2,
+          9,
+          51,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8222676260809794,
+      "eval_loss": 0.7625077366828918,
+      "eval_precision": 0.8229409839103053,
+      "eval_recall": 0.8241758241758241,
+      "eval_runtime": 3.757,
+      "eval_samples_per_second": 72.664,
+      "eval_steps_per_second": 0.799,
+      "step": 600
+    },
+    {
+      "epoch": 9.489051094890511,
+      "grad_norm": 0.18371808528900146,
+      "learning_rate": 0.0002826943279204283,
+      "loss": 0.4842,
+      "step": 650
+    },
+    {
+      "epoch": 10.218978102189782,
+      "grad_norm": 11.426072120666504,
+      "learning_rate": 0.0002779362400958168,
+      "loss": 0.4352,
+      "step": 700
+    },
+    {
+      "epoch": 10.94890510948905,
+      "grad_norm": 8.062601089477539,
+      "learning_rate": 0.0002726515757469423,
+      "loss": 0.4447,
+      "step": 750
+    },
+    {
+      "epoch": 11.678832116788321,
+      "grad_norm": 0.3985881805419922,
+      "learning_rate": 0.00026686208617885055,
+      "loss": 0.442,
+      "step": 800
+    },
+    {
+      "epoch": 11.678832116788321,
+      "eval_accuracy": 0.7985347985347986,
+      "eval_confusion_matrix": [
+        [
+          66,
+          6,
+          1,
+          2
+        ],
+        [
+          15,
+          32,
+          26,
+          2
+        ],
+        [
+          2,
+          1,
+          59,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.781170020153555,
+      "eval_loss": 0.9623217582702637,
+      "eval_precision": 0.8093701586901577,
+      "eval_recall": 0.7985347985347986,
+      "eval_runtime": 3.774,
+      "eval_samples_per_second": 72.337,
+      "eval_steps_per_second": 0.795,
+      "step": 800
+    },
+    {
+      "epoch": 12.408759124087592,
+      "grad_norm": 38.726985931396484,
+      "learning_rate": 0.0002605916005215186,
+      "loss": 0.4504,
+      "step": 850
+    },
+    {
+      "epoch": 13.138686131386862,
+      "grad_norm": 0.026563748717308044,
+      "learning_rate": 0.0002538659276508397,
+      "loss": 0.3903,
+      "step": 900
+    },
+    {
+      "epoch": 13.86861313868613,
+      "grad_norm": 0.06770322471857071,
+      "learning_rate": 0.0002467127499611136,
+      "loss": 0.4094,
+      "step": 950
+    },
+    {
+      "epoch": 14.598540145985401,
+      "grad_norm": 1.2612749338150024,
+      "learning_rate": 0.00023916150942626798,
+      "loss": 0.4188,
+      "step": 1000
+    },
+    {
+      "epoch": 14.598540145985401,
+      "eval_accuracy": 0.8315018315018315,
+      "eval_confusion_matrix": [
+        [
+          60,
+          9,
+          2,
+          4
+        ],
+        [
+          8,
+          56,
+          11,
+          0
+        ],
+        [
+          1,
+          11,
+          50,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8307422385946511,
+      "eval_loss": 0.8534455299377441,
+      "eval_precision": 0.8312566016541674,
+      "eval_recall": 0.8315018315018315,
+      "eval_runtime": 3.796,
+      "eval_samples_per_second": 71.917,
+      "eval_steps_per_second": 0.79,
+      "step": 1000
+    },
+    {
+      "epoch": 15.328467153284672,
+      "grad_norm": 28.980899810791016,
+      "learning_rate": 0.0002312432864187738,
+      "loss": 0.3798,
+      "step": 1050
+    },
+    {
+      "epoch": 16.05839416058394,
+      "grad_norm": 0.022609323263168335,
+      "learning_rate": 0.0002229906717850284,
+      "loss": 0.3672,
+      "step": 1100
+    },
+    {
+      "epoch": 16.78832116788321,
+      "grad_norm": 0.02360348217189312,
+      "learning_rate": 0.00021443763270373483,
+      "loss": 0.3715,
+      "step": 1150
+    },
+    {
+      "epoch": 17.51824817518248,
+      "grad_norm": 0.014020542614161968,
+      "learning_rate": 0.0002056193728793941,
+      "loss": 0.349,
+      "step": 1200
+    },
+    {
+      "epoch": 17.51824817518248,
+      "eval_accuracy": 0.8351648351648352,
+      "eval_confusion_matrix": [
+        [
+          62,
+          10,
+          1,
+          2
+        ],
+        [
+          9,
+          57,
+          9,
+          0
+        ],
+        [
+          2,
+          12,
+          48,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8350675728555914,
+      "eval_loss": 0.8131950497627258,
+      "eval_precision": 0.8358475863688551,
+      "eval_recall": 0.8351648351648352,
+      "eval_runtime": 3.7788,
+      "eval_samples_per_second": 72.246,
+      "eval_steps_per_second": 0.794,
+      "step": 1200
+    },
+    {
+      "epoch": 18.248175182481752,
+      "grad_norm": 0.006028232164680958,
+      "learning_rate": 0.0001965721876463452,
+      "loss": 0.3491,
+      "step": 1250
+    },
+    {
+      "epoch": 18.978102189781023,
+      "grad_norm": 0.008285734802484512,
+      "learning_rate": 0.00018733331457973358,
+      "loss": 0.3489,
+      "step": 1300
+    },
+    {
+      "epoch": 19.708029197080293,
+      "grad_norm": 0.008053851313889027,
+      "learning_rate": 0.00017794078022828275,
+      "loss": 0.3497,
+      "step": 1350
+    },
+    {
+      "epoch": 20.437956204379564,
+      "grad_norm": 0.003234422067180276,
+      "learning_rate": 0.00016843324359970712,
+      "loss": 0.3488,
+      "step": 1400
+    },
+    {
+      "epoch": 20.437956204379564,
+      "eval_accuracy": 0.8461538461538461,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          8,
+          57,
+          10,
+          0
+        ],
+        [
+          0,
+          10,
+          52,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8462423027109934,
+      "eval_loss": 0.7859560251235962,
+      "eval_precision": 0.8474363933035696,
+      "eval_recall": 0.8461538461538461,
+      "eval_runtime": 3.7947,
+      "eval_samples_per_second": 71.942,
+      "eval_steps_per_second": 0.791,
+      "step": 1400
+    },
+    {
+      "epoch": 21.16788321167883,
+      "grad_norm": 0.004595920909196138,
+      "learning_rate": 0.00015884983704296757,
+      "loss": 0.3488,
+      "step": 1450
+    },
+    {
+      "epoch": 21.8978102189781,
+      "grad_norm": 0.002511706668883562,
+      "learning_rate": 0.00014923000518228847,
+      "loss": 0.3488,
+      "step": 1500
+    },
+    {
+      "epoch": 22.62773722627737,
+      "grad_norm": 0.002340014325454831,
+      "learning_rate": 0.00013961334256587125,
+      "loss": 0.3488,
+      "step": 1550
+    },
+    {
+      "epoch": 23.357664233576642,
+      "grad_norm": 0.0028287076856940985,
+      "learning_rate": 0.00013003943069753198,
+      "loss": 0.3488,
+      "step": 1600
+    },
+    {
+      "epoch": 23.357664233576642,
+      "eval_accuracy": 0.8461538461538461,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          8,
+          57,
+          10,
+          0
+        ],
+        [
+          0,
+          10,
+          52,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8462423027109934,
+      "eval_loss": 0.7856015563011169,
+      "eval_precision": 0.8474363933035696,
+      "eval_recall": 0.8461538461538461,
+      "eval_runtime": 3.7861,
+      "eval_samples_per_second": 72.105,
+      "eval_steps_per_second": 0.792,
+      "step": 1600
+    },
+    {
+      "epoch": 24.087591240875913,
+      "grad_norm": 0.0027960864827036858,
+      "learning_rate": 0.00012054767512202832,
+      "loss": 0.3488,
+      "step": 1650
+    },
+    {
+      "epoch": 24.817518248175183,
+      "grad_norm": 0.0033820979297161102,
+      "learning_rate": 0.00011117714323462186,
+      "loss": 0.3488,
+      "step": 1700
+    },
+    {
+      "epoch": 25.547445255474454,
+      "grad_norm": 0.0034969367552548647,
+      "learning_rate": 0.00010196640348243974,
+      "loss": 0.3488,
+      "step": 1750
+    },
+    {
+      "epoch": 26.277372262773724,
+      "grad_norm": 0.0014958898536860943,
+      "learning_rate": 9.295336661947115e-05,
+      "loss": 0.3488,
+      "step": 1800
+    },
+    {
+      "epoch": 26.277372262773724,
+      "eval_accuracy": 0.8534798534798534,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          7,
+          58,
+          10,
+          0
+        ],
+        [
+          0,
+          9,
+          53,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8535663673078441,
+      "eval_loss": 0.7831193804740906,
+      "eval_precision": 0.8551497604301419,
+      "eval_recall": 0.8534798534798534,
+      "eval_runtime": 3.7976,
+      "eval_samples_per_second": 71.888,
+      "eval_steps_per_second": 0.79,
+      "step": 1800
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2720,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 40,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.514294558464e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1800/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1cd6053c9e08edd46715ea6144f2b03c4f4ac31b547b8ae042d0b5e4a21ad64
+size 5240

checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,85 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "finetuning_task": "audio-classification",
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "1s_normal",
+    "1": "1s_pain",
+    "2": "1s_hunger",
+    "3": "1s_asphyxia"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2,
+    "LABEL_3": 3
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

checkpoint-2000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fa71495d44ac6eb2b2936ce624cab10e3a56f3350942326bf8ebe031bf375b2
+size 94765560

checkpoint-2000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:117dd1e658d23c2a6479a784272551423c67159733df85da2aa7fca20ddda9ce
+size 189556666

checkpoint-2000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e6d0b969a93825609a509fcaba6d3524f8e7e0e5c183dc65390e343f717261d8
+size 14308

checkpoint-2000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c93d911c49d2a76eb941abe8dfcb1f8e265e872f188a8d3a69f77a40a24421e8
+size 1064

checkpoint-2000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,702 @@

+{
+  "best_metric": 0.8535663673078441,
+  "best_model_checkpoint": "distilhubert-finetuned-mixed-data/checkpoint-1800",
+  "epoch": 29.197080291970803,
+  "eval_steps": 200,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.7299270072992701,
+      "grad_norm": 2.289438486099243,
+      "learning_rate": 5.5147058823529414e-05,
+      "loss": 1.2878,
+      "step": 50
+    },
+    {
+      "epoch": 1.4598540145985401,
+      "grad_norm": 2.5048491954803467,
+      "learning_rate": 0.00011029411764705883,
+      "loss": 0.8322,
+      "step": 100
+    },
+    {
+      "epoch": 2.18978102189781,
+      "grad_norm": 11.18371295928955,
+      "learning_rate": 0.00016544117647058823,
+      "loss": 0.7897,
+      "step": 150
+    },
+    {
+      "epoch": 2.9197080291970803,
+      "grad_norm": 9.702393531799316,
+      "learning_rate": 0.00022058823529411765,
+      "loss": 0.7149,
+      "step": 200
+    },
+    {
+      "epoch": 2.9197080291970803,
+      "eval_accuracy": 0.7252747252747253,
+      "eval_confusion_matrix": [
+        [
+          34,
+          39,
+          0,
+          2
+        ],
+        [
+          7,
+          62,
+          6,
+          0
+        ],
+        [
+          0,
+          19,
+          43,
+          0
+        ],
+        [
+          0,
+          2,
+          0,
+          59
+        ]
+      ],
+      "eval_f1": 0.7260427659517454,
+      "eval_loss": 0.9058456420898438,
+      "eval_precision": 0.7828499608603893,
+      "eval_recall": 0.7252747252747253,
+      "eval_runtime": 3.7417,
+      "eval_samples_per_second": 72.962,
+      "eval_steps_per_second": 0.802,
+      "step": 200
+    },
+    {
+      "epoch": 3.6496350364963503,
+      "grad_norm": 8.47255802154541,
+      "learning_rate": 0.000275735294117647,
+      "loss": 0.6917,
+      "step": 250
+    },
+    {
+      "epoch": 4.37956204379562,
+      "grad_norm": 16.689321517944336,
+      "learning_rate": 0.0002999031705390845,
+      "loss": 0.7264,
+      "step": 300
+    },
+    {
+      "epoch": 5.109489051094891,
+      "grad_norm": 1.7369310855865479,
+      "learning_rate": 0.00029924913005299595,
+      "loss": 0.6895,
+      "step": 350
+    },
+    {
+      "epoch": 5.839416058394161,
+      "grad_norm": 2.210369348526001,
+      "learning_rate": 0.0002979807906935489,
+      "loss": 0.6939,
+      "step": 400
+    },
+    {
+      "epoch": 5.839416058394161,
+      "eval_accuracy": 0.7509157509157509,
+      "eval_confusion_matrix": [
+        [
+          66,
+          2,
+          0,
+          7
+        ],
+        [
+          29,
+          38,
+          7,
+          1
+        ],
+        [
+          2,
+          20,
+          40,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.7418721712792054,
+      "eval_loss": 0.8107791543006897,
+      "eval_precision": 0.7517378077426524,
+      "eval_recall": 0.7509157509157509,
+      "eval_runtime": 3.7702,
+      "eval_samples_per_second": 72.409,
+      "eval_steps_per_second": 0.796,
+      "step": 400
+    },
+    {
+      "epoch": 6.569343065693431,
+      "grad_norm": 2.1358511447906494,
+      "learning_rate": 0.000296103372855926,
+      "loss": 0.5986,
+      "step": 450
+    },
+    {
+      "epoch": 7.299270072992701,
+      "grad_norm": 13.704009056091309,
+      "learning_rate": 0.0002936246038592886,
+      "loss": 0.5932,
+      "step": 500
+    },
+    {
+      "epoch": 8.02919708029197,
+      "grad_norm": 2.032876968383789,
+      "learning_rate": 0.00029055468614167716,
+      "loss": 0.5633,
+      "step": 550
+    },
+    {
+      "epoch": 8.75912408759124,
+      "grad_norm": 28.525798797607422,
+      "learning_rate": 0.00028690625526749705,
+      "loss": 0.4941,
+      "step": 600
+    },
+    {
+      "epoch": 8.75912408759124,
+      "eval_accuracy": 0.8241758241758241,
+      "eval_confusion_matrix": [
+        [
+          63,
+          8,
+          1,
+          3
+        ],
+        [
+          8,
+          50,
+          17,
+          0
+        ],
+        [
+          2,
+          9,
+          51,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8222676260809794,
+      "eval_loss": 0.7625077366828918,
+      "eval_precision": 0.8229409839103053,
+      "eval_recall": 0.8241758241758241,
+      "eval_runtime": 3.757,
+      "eval_samples_per_second": 72.664,
+      "eval_steps_per_second": 0.799,
+      "step": 600
+    },
+    {
+      "epoch": 9.489051094890511,
+      "grad_norm": 0.18371808528900146,
+      "learning_rate": 0.0002826943279204283,
+      "loss": 0.4842,
+      "step": 650
+    },
+    {
+      "epoch": 10.218978102189782,
+      "grad_norm": 11.426072120666504,
+      "learning_rate": 0.0002779362400958168,
+      "loss": 0.4352,
+      "step": 700
+    },
+    {
+      "epoch": 10.94890510948905,
+      "grad_norm": 8.062601089477539,
+      "learning_rate": 0.0002726515757469423,
+      "loss": 0.4447,
+      "step": 750
+    },
+    {
+      "epoch": 11.678832116788321,
+      "grad_norm": 0.3985881805419922,
+      "learning_rate": 0.00026686208617885055,
+      "loss": 0.442,
+      "step": 800
+    },
+    {
+      "epoch": 11.678832116788321,
+      "eval_accuracy": 0.7985347985347986,
+      "eval_confusion_matrix": [
+        [
+          66,
+          6,
+          1,
+          2
+        ],
+        [
+          15,
+          32,
+          26,
+          2
+        ],
+        [
+          2,
+          1,
+          59,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.781170020153555,
+      "eval_loss": 0.9623217582702637,
+      "eval_precision": 0.8093701586901577,
+      "eval_recall": 0.7985347985347986,
+      "eval_runtime": 3.774,
+      "eval_samples_per_second": 72.337,
+      "eval_steps_per_second": 0.795,
+      "step": 800
+    },
+    {
+      "epoch": 12.408759124087592,
+      "grad_norm": 38.726985931396484,
+      "learning_rate": 0.0002605916005215186,
+      "loss": 0.4504,
+      "step": 850
+    },
+    {
+      "epoch": 13.138686131386862,
+      "grad_norm": 0.026563748717308044,
+      "learning_rate": 0.0002538659276508397,
+      "loss": 0.3903,
+      "step": 900
+    },
+    {
+      "epoch": 13.86861313868613,
+      "grad_norm": 0.06770322471857071,
+      "learning_rate": 0.0002467127499611136,
+      "loss": 0.4094,
+      "step": 950
+    },
+    {
+      "epoch": 14.598540145985401,
+      "grad_norm": 1.2612749338150024,
+      "learning_rate": 0.00023916150942626798,
+      "loss": 0.4188,
+      "step": 1000
+    },
+    {
+      "epoch": 14.598540145985401,
+      "eval_accuracy": 0.8315018315018315,
+      "eval_confusion_matrix": [
+        [
+          60,
+          9,
+          2,
+          4
+        ],
+        [
+          8,
+          56,
+          11,
+          0
+        ],
+        [
+          1,
+          11,
+          50,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8307422385946511,
+      "eval_loss": 0.8534455299377441,
+      "eval_precision": 0.8312566016541674,
+      "eval_recall": 0.8315018315018315,
+      "eval_runtime": 3.796,
+      "eval_samples_per_second": 71.917,
+      "eval_steps_per_second": 0.79,
+      "step": 1000
+    },
+    {
+      "epoch": 15.328467153284672,
+      "grad_norm": 28.980899810791016,
+      "learning_rate": 0.0002312432864187738,
+      "loss": 0.3798,
+      "step": 1050
+    },
+    {
+      "epoch": 16.05839416058394,
+      "grad_norm": 0.022609323263168335,
+      "learning_rate": 0.0002229906717850284,
+      "loss": 0.3672,
+      "step": 1100
+    },
+    {
+      "epoch": 16.78832116788321,
+      "grad_norm": 0.02360348217189312,
+      "learning_rate": 0.00021443763270373483,
+      "loss": 0.3715,
+      "step": 1150
+    },
+    {
+      "epoch": 17.51824817518248,
+      "grad_norm": 0.014020542614161968,
+      "learning_rate": 0.0002056193728793941,
+      "loss": 0.349,
+      "step": 1200
+    },
+    {
+      "epoch": 17.51824817518248,
+      "eval_accuracy": 0.8351648351648352,
+      "eval_confusion_matrix": [
+        [
+          62,
+          10,
+          1,
+          2
+        ],
+        [
+          9,
+          57,
+          9,
+          0
+        ],
+        [
+          2,
+          12,
+          48,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8350675728555914,
+      "eval_loss": 0.8131950497627258,
+      "eval_precision": 0.8358475863688551,
+      "eval_recall": 0.8351648351648352,
+      "eval_runtime": 3.7788,
+      "eval_samples_per_second": 72.246,
+      "eval_steps_per_second": 0.794,
+      "step": 1200
+    },
+    {
+      "epoch": 18.248175182481752,
+      "grad_norm": 0.006028232164680958,
+      "learning_rate": 0.0001965721876463452,
+      "loss": 0.3491,
+      "step": 1250
+    },
+    {
+      "epoch": 18.978102189781023,
+      "grad_norm": 0.008285734802484512,
+      "learning_rate": 0.00018733331457973358,
+      "loss": 0.3489,
+      "step": 1300
+    },
+    {
+      "epoch": 19.708029197080293,
+      "grad_norm": 0.008053851313889027,
+      "learning_rate": 0.00017794078022828275,
+      "loss": 0.3497,
+      "step": 1350
+    },
+    {
+      "epoch": 20.437956204379564,
+      "grad_norm": 0.003234422067180276,
+      "learning_rate": 0.00016843324359970712,
+      "loss": 0.3488,
+      "step": 1400
+    },
+    {
+      "epoch": 20.437956204379564,
+      "eval_accuracy": 0.8461538461538461,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          8,
+          57,
+          10,
+          0
+        ],
+        [
+          0,
+          10,
+          52,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8462423027109934,
+      "eval_loss": 0.7859560251235962,
+      "eval_precision": 0.8474363933035696,
+      "eval_recall": 0.8461538461538461,
+      "eval_runtime": 3.7947,
+      "eval_samples_per_second": 71.942,
+      "eval_steps_per_second": 0.791,
+      "step": 1400
+    },
+    {
+      "epoch": 21.16788321167883,
+      "grad_norm": 0.004595920909196138,
+      "learning_rate": 0.00015884983704296757,
+      "loss": 0.3488,
+      "step": 1450
+    },
+    {
+      "epoch": 21.8978102189781,
+      "grad_norm": 0.002511706668883562,
+      "learning_rate": 0.00014923000518228847,
+      "loss": 0.3488,
+      "step": 1500
+    },
+    {
+      "epoch": 22.62773722627737,
+      "grad_norm": 0.002340014325454831,
+      "learning_rate": 0.00013961334256587125,
+      "loss": 0.3488,
+      "step": 1550
+    },
+    {
+      "epoch": 23.357664233576642,
+      "grad_norm": 0.0028287076856940985,
+      "learning_rate": 0.00013003943069753198,
+      "loss": 0.3488,
+      "step": 1600
+    },
+    {
+      "epoch": 23.357664233576642,
+      "eval_accuracy": 0.8461538461538461,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          8,
+          57,
+          10,
+          0
+        ],
+        [
+          0,
+          10,
+          52,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8462423027109934,
+      "eval_loss": 0.7856015563011169,
+      "eval_precision": 0.8474363933035696,
+      "eval_recall": 0.8461538461538461,
+      "eval_runtime": 3.7861,
+      "eval_samples_per_second": 72.105,
+      "eval_steps_per_second": 0.792,
+      "step": 1600
+    },
+    {
+      "epoch": 24.087591240875913,
+      "grad_norm": 0.0027960864827036858,
+      "learning_rate": 0.00012054767512202832,
+      "loss": 0.3488,
+      "step": 1650
+    },
+    {
+      "epoch": 24.817518248175183,
+      "grad_norm": 0.0033820979297161102,
+      "learning_rate": 0.00011117714323462186,
+      "loss": 0.3488,
+      "step": 1700
+    },
+    {
+      "epoch": 25.547445255474454,
+      "grad_norm": 0.0034969367552548647,
+      "learning_rate": 0.00010196640348243974,
+      "loss": 0.3488,
+      "step": 1750
+    },
+    {
+      "epoch": 26.277372262773724,
+      "grad_norm": 0.0014958898536860943,
+      "learning_rate": 9.295336661947115e-05,
+      "loss": 0.3488,
+      "step": 1800
+    },
+    {
+      "epoch": 26.277372262773724,
+      "eval_accuracy": 0.8534798534798534,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          7,
+          58,
+          10,
+          0
+        ],
+        [
+          0,
+          9,
+          53,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8535663673078441,
+      "eval_loss": 0.7831193804740906,
+      "eval_precision": 0.8551497604301419,
+      "eval_recall": 0.8534798534798534,
+      "eval_runtime": 3.7976,
+      "eval_samples_per_second": 71.888,
+      "eval_steps_per_second": 0.79,
+      "step": 1800
+    },
+    {
+      "epoch": 27.00729927007299,
+      "grad_norm": 0.004900149069726467,
+      "learning_rate": 8.417512966858319e-05,
+      "loss": 0.3488,
+      "step": 1850
+    },
+    {
+      "epoch": 27.73722627737226,
+      "grad_norm": 0.0018804975552484393,
+      "learning_rate": 7.566782323279578e-05,
+      "loss": 0.3488,
+      "step": 1900
+    },
+    {
+      "epoch": 28.467153284671532,
+      "grad_norm": 0.0019178036600351334,
+      "learning_rate": 6.746646278427247e-05,
+      "loss": 0.3488,
+      "step": 1950
+    },
+    {
+      "epoch": 29.197080291970803,
+      "grad_norm": 0.001025234698317945,
+      "learning_rate": 5.960480454311155e-05,
+      "loss": 0.3488,
+      "step": 2000
+    },
+    {
+      "epoch": 29.197080291970803,
+      "eval_accuracy": 0.8498168498168498,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          8,
+          57,
+          10,
+          0
+        ],
+        [
+          0,
+          9,
+          53,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8496942339108237,
+      "eval_loss": 0.7866398692131042,
+      "eval_precision": 0.8506632615716467,
+      "eval_recall": 0.8498168498168498,
+      "eval_runtime": 3.7892,
+      "eval_samples_per_second": 72.047,
+      "eval_steps_per_second": 0.792,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2720,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 40,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7.237953449856e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1cd6053c9e08edd46715ea6144f2b03c4f4ac31b547b8ae042d0b5e4a21ad64
+size 5240

checkpoint-2200/config.json ADDED Viewed

	@@ -0,0 +1,85 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "finetuning_task": "audio-classification",
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "1s_normal",
+    "1": "1s_pain",
+    "2": "1s_hunger",
+    "3": "1s_asphyxia"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2,
+    "LABEL_3": 3
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

checkpoint-2200/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3c2d5edd9e72d71a658460a72f7eade4b945fee18b8ed3e0894b518b5620f57
+size 94765560

checkpoint-2200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2fac40752229bb8e74f81bd6991f7eb8726e1b1ac23e5d515ff28f6b8eb48a9b
+size 189556666

checkpoint-2200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:623badb81ceb5d9e1a453f79a7cb1eace1544e4c3d7187e9e4ee4efb585b685c
+size 14308

checkpoint-2200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:406a44cce484614116f6be37f7336e180742882a67b41259e3e9eabb076d0fd3
+size 1064

checkpoint-2200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,768 @@

+{
+  "best_metric": 0.8535663673078441,
+  "best_model_checkpoint": "distilhubert-finetuned-mixed-data/checkpoint-1800",
+  "epoch": 32.11678832116788,
+  "eval_steps": 200,
+  "global_step": 2200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.7299270072992701,
+      "grad_norm": 2.289438486099243,
+      "learning_rate": 5.5147058823529414e-05,
+      "loss": 1.2878,
+      "step": 50
+    },
+    {
+      "epoch": 1.4598540145985401,
+      "grad_norm": 2.5048491954803467,
+      "learning_rate": 0.00011029411764705883,
+      "loss": 0.8322,
+      "step": 100
+    },
+    {
+      "epoch": 2.18978102189781,
+      "grad_norm": 11.18371295928955,
+      "learning_rate": 0.00016544117647058823,
+      "loss": 0.7897,
+      "step": 150
+    },
+    {
+      "epoch": 2.9197080291970803,
+      "grad_norm": 9.702393531799316,
+      "learning_rate": 0.00022058823529411765,
+      "loss": 0.7149,
+      "step": 200
+    },
+    {
+      "epoch": 2.9197080291970803,
+      "eval_accuracy": 0.7252747252747253,
+      "eval_confusion_matrix": [
+        [
+          34,
+          39,
+          0,
+          2
+        ],
+        [
+          7,
+          62,
+          6,
+          0
+        ],
+        [
+          0,
+          19,
+          43,
+          0
+        ],
+        [
+          0,
+          2,
+          0,
+          59
+        ]
+      ],
+      "eval_f1": 0.7260427659517454,
+      "eval_loss": 0.9058456420898438,
+      "eval_precision": 0.7828499608603893,
+      "eval_recall": 0.7252747252747253,
+      "eval_runtime": 3.7417,
+      "eval_samples_per_second": 72.962,
+      "eval_steps_per_second": 0.802,
+      "step": 200
+    },
+    {
+      "epoch": 3.6496350364963503,
+      "grad_norm": 8.47255802154541,
+      "learning_rate": 0.000275735294117647,
+      "loss": 0.6917,
+      "step": 250
+    },
+    {
+      "epoch": 4.37956204379562,
+      "grad_norm": 16.689321517944336,
+      "learning_rate": 0.0002999031705390845,
+      "loss": 0.7264,
+      "step": 300
+    },
+    {
+      "epoch": 5.109489051094891,
+      "grad_norm": 1.7369310855865479,
+      "learning_rate": 0.00029924913005299595,
+      "loss": 0.6895,
+      "step": 350
+    },
+    {
+      "epoch": 5.839416058394161,
+      "grad_norm": 2.210369348526001,
+      "learning_rate": 0.0002979807906935489,
+      "loss": 0.6939,
+      "step": 400
+    },
+    {
+      "epoch": 5.839416058394161,
+      "eval_accuracy": 0.7509157509157509,
+      "eval_confusion_matrix": [
+        [
+          66,
+          2,
+          0,
+          7
+        ],
+        [
+          29,
+          38,
+          7,
+          1
+        ],
+        [
+          2,
+          20,
+          40,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.7418721712792054,
+      "eval_loss": 0.8107791543006897,
+      "eval_precision": 0.7517378077426524,
+      "eval_recall": 0.7509157509157509,
+      "eval_runtime": 3.7702,
+      "eval_samples_per_second": 72.409,
+      "eval_steps_per_second": 0.796,
+      "step": 400
+    },
+    {
+      "epoch": 6.569343065693431,
+      "grad_norm": 2.1358511447906494,
+      "learning_rate": 0.000296103372855926,
+      "loss": 0.5986,
+      "step": 450
+    },
+    {
+      "epoch": 7.299270072992701,
+      "grad_norm": 13.704009056091309,
+      "learning_rate": 0.0002936246038592886,
+      "loss": 0.5932,
+      "step": 500
+    },
+    {
+      "epoch": 8.02919708029197,
+      "grad_norm": 2.032876968383789,
+      "learning_rate": 0.00029055468614167716,
+      "loss": 0.5633,
+      "step": 550
+    },
+    {
+      "epoch": 8.75912408759124,
+      "grad_norm": 28.525798797607422,
+      "learning_rate": 0.00028690625526749705,
+      "loss": 0.4941,
+      "step": 600
+    },
+    {
+      "epoch": 8.75912408759124,
+      "eval_accuracy": 0.8241758241758241,
+      "eval_confusion_matrix": [
+        [
+          63,
+          8,
+          1,
+          3
+        ],
+        [
+          8,
+          50,
+          17,
+          0
+        ],
+        [
+          2,
+          9,
+          51,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8222676260809794,
+      "eval_loss": 0.7625077366828918,
+      "eval_precision": 0.8229409839103053,
+      "eval_recall": 0.8241758241758241,
+      "eval_runtime": 3.757,
+      "eval_samples_per_second": 72.664,
+      "eval_steps_per_second": 0.799,
+      "step": 600
+    },
+    {
+      "epoch": 9.489051094890511,
+      "grad_norm": 0.18371808528900146,
+      "learning_rate": 0.0002826943279204283,
+      "loss": 0.4842,
+      "step": 650
+    },
+    {
+      "epoch": 10.218978102189782,
+      "grad_norm": 11.426072120666504,
+      "learning_rate": 0.0002779362400958168,
+      "loss": 0.4352,
+      "step": 700
+    },
+    {
+      "epoch": 10.94890510948905,
+      "grad_norm": 8.062601089477539,
+      "learning_rate": 0.0002726515757469423,
+      "loss": 0.4447,
+      "step": 750
+    },
+    {
+      "epoch": 11.678832116788321,
+      "grad_norm": 0.3985881805419922,
+      "learning_rate": 0.00026686208617885055,
+      "loss": 0.442,
+      "step": 800
+    },
+    {
+      "epoch": 11.678832116788321,
+      "eval_accuracy": 0.7985347985347986,
+      "eval_confusion_matrix": [
+        [
+          66,
+          6,
+          1,
+          2
+        ],
+        [
+          15,
+          32,
+          26,
+          2
+        ],
+        [
+          2,
+          1,
+          59,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.781170020153555,
+      "eval_loss": 0.9623217582702637,
+      "eval_precision": 0.8093701586901577,
+      "eval_recall": 0.7985347985347986,
+      "eval_runtime": 3.774,
+      "eval_samples_per_second": 72.337,
+      "eval_steps_per_second": 0.795,
+      "step": 800
+    },
+    {
+      "epoch": 12.408759124087592,
+      "grad_norm": 38.726985931396484,
+      "learning_rate": 0.0002605916005215186,
+      "loss": 0.4504,
+      "step": 850
+    },
+    {
+      "epoch": 13.138686131386862,
+      "grad_norm": 0.026563748717308044,
+      "learning_rate": 0.0002538659276508397,
+      "loss": 0.3903,
+      "step": 900
+    },
+    {
+      "epoch": 13.86861313868613,
+      "grad_norm": 0.06770322471857071,
+      "learning_rate": 0.0002467127499611136,
+      "loss": 0.4094,
+      "step": 950
+    },
+    {
+      "epoch": 14.598540145985401,
+      "grad_norm": 1.2612749338150024,
+      "learning_rate": 0.00023916150942626798,
+      "loss": 0.4188,
+      "step": 1000
+    },
+    {
+      "epoch": 14.598540145985401,
+      "eval_accuracy": 0.8315018315018315,
+      "eval_confusion_matrix": [
+        [
+          60,
+          9,
+          2,
+          4
+        ],
+        [
+          8,
+          56,
+          11,
+          0
+        ],
+        [
+          1,
+          11,
+          50,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8307422385946511,
+      "eval_loss": 0.8534455299377441,
+      "eval_precision": 0.8312566016541674,
+      "eval_recall": 0.8315018315018315,
+      "eval_runtime": 3.796,
+      "eval_samples_per_second": 71.917,
+      "eval_steps_per_second": 0.79,
+      "step": 1000
+    },
+    {
+      "epoch": 15.328467153284672,
+      "grad_norm": 28.980899810791016,
+      "learning_rate": 0.0002312432864187738,
+      "loss": 0.3798,
+      "step": 1050
+    },
+    {
+      "epoch": 16.05839416058394,
+      "grad_norm": 0.022609323263168335,
+      "learning_rate": 0.0002229906717850284,
+      "loss": 0.3672,
+      "step": 1100
+    },
+    {
+      "epoch": 16.78832116788321,
+      "grad_norm": 0.02360348217189312,
+      "learning_rate": 0.00021443763270373483,
+      "loss": 0.3715,
+      "step": 1150
+    },
+    {
+      "epoch": 17.51824817518248,
+      "grad_norm": 0.014020542614161968,
+      "learning_rate": 0.0002056193728793941,
+      "loss": 0.349,
+      "step": 1200
+    },
+    {
+      "epoch": 17.51824817518248,
+      "eval_accuracy": 0.8351648351648352,
+      "eval_confusion_matrix": [
+        [
+          62,
+          10,
+          1,
+          2
+        ],
+        [
+          9,
+          57,
+          9,
+          0
+        ],
+        [
+          2,
+          12,
+          48,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8350675728555914,
+      "eval_loss": 0.8131950497627258,
+      "eval_precision": 0.8358475863688551,
+      "eval_recall": 0.8351648351648352,
+      "eval_runtime": 3.7788,
+      "eval_samples_per_second": 72.246,
+      "eval_steps_per_second": 0.794,
+      "step": 1200
+    },
+    {
+      "epoch": 18.248175182481752,
+      "grad_norm": 0.006028232164680958,
+      "learning_rate": 0.0001965721876463452,
+      "loss": 0.3491,
+      "step": 1250
+    },
+    {
+      "epoch": 18.978102189781023,
+      "grad_norm": 0.008285734802484512,
+      "learning_rate": 0.00018733331457973358,
+      "loss": 0.3489,
+      "step": 1300
+    },
+    {
+      "epoch": 19.708029197080293,
+      "grad_norm": 0.008053851313889027,
+      "learning_rate": 0.00017794078022828275,
+      "loss": 0.3497,
+      "step": 1350
+    },
+    {
+      "epoch": 20.437956204379564,
+      "grad_norm": 0.003234422067180276,
+      "learning_rate": 0.00016843324359970712,
+      "loss": 0.3488,
+      "step": 1400
+    },
+    {
+      "epoch": 20.437956204379564,
+      "eval_accuracy": 0.8461538461538461,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          8,
+          57,
+          10,
+          0
+        ],
+        [
+          0,
+          10,
+          52,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8462423027109934,
+      "eval_loss": 0.7859560251235962,
+      "eval_precision": 0.8474363933035696,
+      "eval_recall": 0.8461538461538461,
+      "eval_runtime": 3.7947,
+      "eval_samples_per_second": 71.942,
+      "eval_steps_per_second": 0.791,
+      "step": 1400
+    },
+    {
+      "epoch": 21.16788321167883,
+      "grad_norm": 0.004595920909196138,
+      "learning_rate": 0.00015884983704296757,
+      "loss": 0.3488,
+      "step": 1450
+    },
+    {
+      "epoch": 21.8978102189781,
+      "grad_norm": 0.002511706668883562,
+      "learning_rate": 0.00014923000518228847,
+      "loss": 0.3488,
+      "step": 1500
+    },
+    {
+      "epoch": 22.62773722627737,
+      "grad_norm": 0.002340014325454831,
+      "learning_rate": 0.00013961334256587125,
+      "loss": 0.3488,
+      "step": 1550
+    },
+    {
+      "epoch": 23.357664233576642,
+      "grad_norm": 0.0028287076856940985,
+      "learning_rate": 0.00013003943069753198,
+      "loss": 0.3488,
+      "step": 1600
+    },
+    {
+      "epoch": 23.357664233576642,
+      "eval_accuracy": 0.8461538461538461,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          8,
+          57,
+          10,
+          0
+        ],
+        [
+          0,
+          10,
+          52,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8462423027109934,
+      "eval_loss": 0.7856015563011169,
+      "eval_precision": 0.8474363933035696,
+      "eval_recall": 0.8461538461538461,
+      "eval_runtime": 3.7861,
+      "eval_samples_per_second": 72.105,
+      "eval_steps_per_second": 0.792,
+      "step": 1600
+    },
+    {
+      "epoch": 24.087591240875913,
+      "grad_norm": 0.0027960864827036858,
+      "learning_rate": 0.00012054767512202832,
+      "loss": 0.3488,
+      "step": 1650
+    },
+    {
+      "epoch": 24.817518248175183,
+      "grad_norm": 0.0033820979297161102,
+      "learning_rate": 0.00011117714323462186,
+      "loss": 0.3488,
+      "step": 1700
+    },
+    {
+      "epoch": 25.547445255474454,
+      "grad_norm": 0.0034969367552548647,
+      "learning_rate": 0.00010196640348243974,
+      "loss": 0.3488,
+      "step": 1750
+    },
+    {
+      "epoch": 26.277372262773724,
+      "grad_norm": 0.0014958898536860943,
+      "learning_rate": 9.295336661947115e-05,
+      "loss": 0.3488,
+      "step": 1800
+    },
+    {
+      "epoch": 26.277372262773724,
+      "eval_accuracy": 0.8534798534798534,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          7,
+          58,
+          10,
+          0
+        ],
+        [
+          0,
+          9,
+          53,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8535663673078441,
+      "eval_loss": 0.7831193804740906,
+      "eval_precision": 0.8551497604301419,
+      "eval_recall": 0.8534798534798534,
+      "eval_runtime": 3.7976,
+      "eval_samples_per_second": 71.888,
+      "eval_steps_per_second": 0.79,
+      "step": 1800
+    },
+    {
+      "epoch": 27.00729927007299,
+      "grad_norm": 0.004900149069726467,
+      "learning_rate": 8.417512966858319e-05,
+      "loss": 0.3488,
+      "step": 1850
+    },
+    {
+      "epoch": 27.73722627737226,
+      "grad_norm": 0.0018804975552484393,
+      "learning_rate": 7.566782323279578e-05,
+      "loss": 0.3488,
+      "step": 1900
+    },
+    {
+      "epoch": 28.467153284671532,
+      "grad_norm": 0.0019178036600351334,
+      "learning_rate": 6.746646278427247e-05,
+      "loss": 0.3488,
+      "step": 1950
+    },
+    {
+      "epoch": 29.197080291970803,
+      "grad_norm": 0.001025234698317945,
+      "learning_rate": 5.960480454311155e-05,
+      "loss": 0.3488,
+      "step": 2000
+    },
+    {
+      "epoch": 29.197080291970803,
+      "eval_accuracy": 0.8498168498168498,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          8,
+          57,
+          10,
+          0
+        ],
+        [
+          0,
+          9,
+          53,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8496942339108237,
+      "eval_loss": 0.7866398692131042,
+      "eval_precision": 0.8506632615716467,
+      "eval_recall": 0.8498168498168498,
+      "eval_runtime": 3.7892,
+      "eval_samples_per_second": 72.047,
+      "eval_steps_per_second": 0.792,
+      "step": 2000
+    },
+    {
+      "epoch": 29.927007299270073,
+      "grad_norm": 0.0027674695011228323,
+      "learning_rate": 5.2115206539129e-05,
+      "loss": 0.3488,
+      "step": 2050
+    },
+    {
+      "epoch": 30.656934306569344,
+      "grad_norm": 0.0016269112238660455,
+      "learning_rate": 4.5028495428494483e-05,
+      "loss": 0.3488,
+      "step": 2100
+    },
+    {
+      "epoch": 31.386861313868614,
+      "grad_norm": 0.0019462064374238253,
+      "learning_rate": 3.837383961339246e-05,
+      "loss": 0.3488,
+      "step": 2150
+    },
+    {
+      "epoch": 32.11678832116788,
+      "grad_norm": 0.0011992512736469507,
+      "learning_rate": 3.21786291869402e-05,
+      "loss": 0.3488,
+      "step": 2200
+    },
+    {
+      "epoch": 32.11678832116788,
+      "eval_accuracy": 0.8534798534798534,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          8,
+          57,
+          10,
+          0
+        ],
+        [
+          0,
+          8,
+          54,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8531308487327289,
+      "eval_loss": 0.7856839895248413,
+      "eval_precision": 0.8539396783782831,
+      "eval_recall": 0.8534798534798534,
+      "eval_runtime": 3.787,
+      "eval_samples_per_second": 72.088,
+      "eval_steps_per_second": 0.792,
+      "step": 2200
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2720,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 40,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7.961612341248e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1cd6053c9e08edd46715ea6144f2b03c4f4ac31b547b8ae042d0b5e4a21ad64
+size 5240

checkpoint-2400/config.json ADDED Viewed

	@@ -0,0 +1,85 @@

+{
+  "_name_or_path": "ntu-spml/distilhubert",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": false,
+  "architectures": [
+    "HubertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": false,
+  "final_dropout": 0.0,
+  "finetuning_task": "audio-classification",
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "1s_normal",
+    "1": "1s_pain",
+    "2": "1s_hunger",
+    "3": "1s_asphyxia"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2,
+    "LABEL_3": 3
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

checkpoint-2400/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f6f9165a112c1c9f627b872ddba5c6f189bc27160f4e0df85281aa54151f930
+size 94765560

checkpoint-2400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f151b348df4c0110eb4960671482caf90d968f80a4844aaea959dec4e29802fa
+size 189556666

checkpoint-2400/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7c6c2284c30ed80bf04e4a7222520c39000a8d449d6494c1393520378ed2c60
+size 14308

checkpoint-2400/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2488c60c13a7ef6f9d44255069440fc1dd24d07b71e6efb75a3ad44fe512eaf8
+size 1064

checkpoint-2400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,834 @@

+{
+  "best_metric": 0.8535663673078441,
+  "best_model_checkpoint": "distilhubert-finetuned-mixed-data/checkpoint-1800",
+  "epoch": 35.03649635036496,
+  "eval_steps": 200,
+  "global_step": 2400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.7299270072992701,
+      "grad_norm": 2.289438486099243,
+      "learning_rate": 5.5147058823529414e-05,
+      "loss": 1.2878,
+      "step": 50
+    },
+    {
+      "epoch": 1.4598540145985401,
+      "grad_norm": 2.5048491954803467,
+      "learning_rate": 0.00011029411764705883,
+      "loss": 0.8322,
+      "step": 100
+    },
+    {
+      "epoch": 2.18978102189781,
+      "grad_norm": 11.18371295928955,
+      "learning_rate": 0.00016544117647058823,
+      "loss": 0.7897,
+      "step": 150
+    },
+    {
+      "epoch": 2.9197080291970803,
+      "grad_norm": 9.702393531799316,
+      "learning_rate": 0.00022058823529411765,
+      "loss": 0.7149,
+      "step": 200
+    },
+    {
+      "epoch": 2.9197080291970803,
+      "eval_accuracy": 0.7252747252747253,
+      "eval_confusion_matrix": [
+        [
+          34,
+          39,
+          0,
+          2
+        ],
+        [
+          7,
+          62,
+          6,
+          0
+        ],
+        [
+          0,
+          19,
+          43,
+          0
+        ],
+        [
+          0,
+          2,
+          0,
+          59
+        ]
+      ],
+      "eval_f1": 0.7260427659517454,
+      "eval_loss": 0.9058456420898438,
+      "eval_precision": 0.7828499608603893,
+      "eval_recall": 0.7252747252747253,
+      "eval_runtime": 3.7417,
+      "eval_samples_per_second": 72.962,
+      "eval_steps_per_second": 0.802,
+      "step": 200
+    },
+    {
+      "epoch": 3.6496350364963503,
+      "grad_norm": 8.47255802154541,
+      "learning_rate": 0.000275735294117647,
+      "loss": 0.6917,
+      "step": 250
+    },
+    {
+      "epoch": 4.37956204379562,
+      "grad_norm": 16.689321517944336,
+      "learning_rate": 0.0002999031705390845,
+      "loss": 0.7264,
+      "step": 300
+    },
+    {
+      "epoch": 5.109489051094891,
+      "grad_norm": 1.7369310855865479,
+      "learning_rate": 0.00029924913005299595,
+      "loss": 0.6895,
+      "step": 350
+    },
+    {
+      "epoch": 5.839416058394161,
+      "grad_norm": 2.210369348526001,
+      "learning_rate": 0.0002979807906935489,
+      "loss": 0.6939,
+      "step": 400
+    },
+    {
+      "epoch": 5.839416058394161,
+      "eval_accuracy": 0.7509157509157509,
+      "eval_confusion_matrix": [
+        [
+          66,
+          2,
+          0,
+          7
+        ],
+        [
+          29,
+          38,
+          7,
+          1
+        ],
+        [
+          2,
+          20,
+          40,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.7418721712792054,
+      "eval_loss": 0.8107791543006897,
+      "eval_precision": 0.7517378077426524,
+      "eval_recall": 0.7509157509157509,
+      "eval_runtime": 3.7702,
+      "eval_samples_per_second": 72.409,
+      "eval_steps_per_second": 0.796,
+      "step": 400
+    },
+    {
+      "epoch": 6.569343065693431,
+      "grad_norm": 2.1358511447906494,
+      "learning_rate": 0.000296103372855926,
+      "loss": 0.5986,
+      "step": 450
+    },
+    {
+      "epoch": 7.299270072992701,
+      "grad_norm": 13.704009056091309,
+      "learning_rate": 0.0002936246038592886,
+      "loss": 0.5932,
+      "step": 500
+    },
+    {
+      "epoch": 8.02919708029197,
+      "grad_norm": 2.032876968383789,
+      "learning_rate": 0.00029055468614167716,
+      "loss": 0.5633,
+      "step": 550
+    },
+    {
+      "epoch": 8.75912408759124,
+      "grad_norm": 28.525798797607422,
+      "learning_rate": 0.00028690625526749705,
+      "loss": 0.4941,
+      "step": 600
+    },
+    {
+      "epoch": 8.75912408759124,
+      "eval_accuracy": 0.8241758241758241,
+      "eval_confusion_matrix": [
+        [
+          63,
+          8,
+          1,
+          3
+        ],
+        [
+          8,
+          50,
+          17,
+          0
+        ],
+        [
+          2,
+          9,
+          51,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8222676260809794,
+      "eval_loss": 0.7625077366828918,
+      "eval_precision": 0.8229409839103053,
+      "eval_recall": 0.8241758241758241,
+      "eval_runtime": 3.757,
+      "eval_samples_per_second": 72.664,
+      "eval_steps_per_second": 0.799,
+      "step": 600
+    },
+    {
+      "epoch": 9.489051094890511,
+      "grad_norm": 0.18371808528900146,
+      "learning_rate": 0.0002826943279204283,
+      "loss": 0.4842,
+      "step": 650
+    },
+    {
+      "epoch": 10.218978102189782,
+      "grad_norm": 11.426072120666504,
+      "learning_rate": 0.0002779362400958168,
+      "loss": 0.4352,
+      "step": 700
+    },
+    {
+      "epoch": 10.94890510948905,
+      "grad_norm": 8.062601089477539,
+      "learning_rate": 0.0002726515757469423,
+      "loss": 0.4447,
+      "step": 750
+    },
+    {
+      "epoch": 11.678832116788321,
+      "grad_norm": 0.3985881805419922,
+      "learning_rate": 0.00026686208617885055,
+      "loss": 0.442,
+      "step": 800
+    },
+    {
+      "epoch": 11.678832116788321,
+      "eval_accuracy": 0.7985347985347986,
+      "eval_confusion_matrix": [
+        [
+          66,
+          6,
+          1,
+          2
+        ],
+        [
+          15,
+          32,
+          26,
+          2
+        ],
+        [
+          2,
+          1,
+          59,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.781170020153555,
+      "eval_loss": 0.9623217582702637,
+      "eval_precision": 0.8093701586901577,
+      "eval_recall": 0.7985347985347986,
+      "eval_runtime": 3.774,
+      "eval_samples_per_second": 72.337,
+      "eval_steps_per_second": 0.795,
+      "step": 800
+    },
+    {
+      "epoch": 12.408759124087592,
+      "grad_norm": 38.726985931396484,
+      "learning_rate": 0.0002605916005215186,
+      "loss": 0.4504,
+      "step": 850
+    },
+    {
+      "epoch": 13.138686131386862,
+      "grad_norm": 0.026563748717308044,
+      "learning_rate": 0.0002538659276508397,
+      "loss": 0.3903,
+      "step": 900
+    },
+    {
+      "epoch": 13.86861313868613,
+      "grad_norm": 0.06770322471857071,
+      "learning_rate": 0.0002467127499611136,
+      "loss": 0.4094,
+      "step": 950
+    },
+    {
+      "epoch": 14.598540145985401,
+      "grad_norm": 1.2612749338150024,
+      "learning_rate": 0.00023916150942626798,
+      "loss": 0.4188,
+      "step": 1000
+    },
+    {
+      "epoch": 14.598540145985401,
+      "eval_accuracy": 0.8315018315018315,
+      "eval_confusion_matrix": [
+        [
+          60,
+          9,
+          2,
+          4
+        ],
+        [
+          8,
+          56,
+          11,
+          0
+        ],
+        [
+          1,
+          11,
+          50,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8307422385946511,
+      "eval_loss": 0.8534455299377441,
+      "eval_precision": 0.8312566016541674,
+      "eval_recall": 0.8315018315018315,
+      "eval_runtime": 3.796,
+      "eval_samples_per_second": 71.917,
+      "eval_steps_per_second": 0.79,
+      "step": 1000
+    },
+    {
+      "epoch": 15.328467153284672,
+      "grad_norm": 28.980899810791016,
+      "learning_rate": 0.0002312432864187738,
+      "loss": 0.3798,
+      "step": 1050
+    },
+    {
+      "epoch": 16.05839416058394,
+      "grad_norm": 0.022609323263168335,
+      "learning_rate": 0.0002229906717850284,
+      "loss": 0.3672,
+      "step": 1100
+    },
+    {
+      "epoch": 16.78832116788321,
+      "grad_norm": 0.02360348217189312,
+      "learning_rate": 0.00021443763270373483,
+      "loss": 0.3715,
+      "step": 1150
+    },
+    {
+      "epoch": 17.51824817518248,
+      "grad_norm": 0.014020542614161968,
+      "learning_rate": 0.0002056193728793941,
+      "loss": 0.349,
+      "step": 1200
+    },
+    {
+      "epoch": 17.51824817518248,
+      "eval_accuracy": 0.8351648351648352,
+      "eval_confusion_matrix": [
+        [
+          62,
+          10,
+          1,
+          2
+        ],
+        [
+          9,
+          57,
+          9,
+          0
+        ],
+        [
+          2,
+          12,
+          48,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8350675728555914,
+      "eval_loss": 0.8131950497627258,
+      "eval_precision": 0.8358475863688551,
+      "eval_recall": 0.8351648351648352,
+      "eval_runtime": 3.7788,
+      "eval_samples_per_second": 72.246,
+      "eval_steps_per_second": 0.794,
+      "step": 1200
+    },
+    {
+      "epoch": 18.248175182481752,
+      "grad_norm": 0.006028232164680958,
+      "learning_rate": 0.0001965721876463452,
+      "loss": 0.3491,
+      "step": 1250
+    },
+    {
+      "epoch": 18.978102189781023,
+      "grad_norm": 0.008285734802484512,
+      "learning_rate": 0.00018733331457973358,
+      "loss": 0.3489,
+      "step": 1300
+    },
+    {
+      "epoch": 19.708029197080293,
+      "grad_norm": 0.008053851313889027,
+      "learning_rate": 0.00017794078022828275,
+      "loss": 0.3497,
+      "step": 1350
+    },
+    {
+      "epoch": 20.437956204379564,
+      "grad_norm": 0.003234422067180276,
+      "learning_rate": 0.00016843324359970712,
+      "loss": 0.3488,
+      "step": 1400
+    },
+    {
+      "epoch": 20.437956204379564,
+      "eval_accuracy": 0.8461538461538461,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          8,
+          57,
+          10,
+          0
+        ],
+        [
+          0,
+          10,
+          52,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8462423027109934,
+      "eval_loss": 0.7859560251235962,
+      "eval_precision": 0.8474363933035696,
+      "eval_recall": 0.8461538461538461,
+      "eval_runtime": 3.7947,
+      "eval_samples_per_second": 71.942,
+      "eval_steps_per_second": 0.791,
+      "step": 1400
+    },
+    {
+      "epoch": 21.16788321167883,
+      "grad_norm": 0.004595920909196138,
+      "learning_rate": 0.00015884983704296757,
+      "loss": 0.3488,
+      "step": 1450
+    },
+    {
+      "epoch": 21.8978102189781,
+      "grad_norm": 0.002511706668883562,
+      "learning_rate": 0.00014923000518228847,
+      "loss": 0.3488,
+      "step": 1500
+    },
+    {
+      "epoch": 22.62773722627737,
+      "grad_norm": 0.002340014325454831,
+      "learning_rate": 0.00013961334256587125,
+      "loss": 0.3488,
+      "step": 1550
+    },
+    {
+      "epoch": 23.357664233576642,
+      "grad_norm": 0.0028287076856940985,
+      "learning_rate": 0.00013003943069753198,
+      "loss": 0.3488,
+      "step": 1600
+    },
+    {
+      "epoch": 23.357664233576642,
+      "eval_accuracy": 0.8461538461538461,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          8,
+          57,
+          10,
+          0
+        ],
+        [
+          0,
+          10,
+          52,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8462423027109934,
+      "eval_loss": 0.7856015563011169,
+      "eval_precision": 0.8474363933035696,
+      "eval_recall": 0.8461538461538461,
+      "eval_runtime": 3.7861,
+      "eval_samples_per_second": 72.105,
+      "eval_steps_per_second": 0.792,
+      "step": 1600
+    },
+    {
+      "epoch": 24.087591240875913,
+      "grad_norm": 0.0027960864827036858,
+      "learning_rate": 0.00012054767512202832,
+      "loss": 0.3488,
+      "step": 1650
+    },
+    {
+      "epoch": 24.817518248175183,
+      "grad_norm": 0.0033820979297161102,
+      "learning_rate": 0.00011117714323462186,
+      "loss": 0.3488,
+      "step": 1700
+    },
+    {
+      "epoch": 25.547445255474454,
+      "grad_norm": 0.0034969367552548647,
+      "learning_rate": 0.00010196640348243974,
+      "loss": 0.3488,
+      "step": 1750
+    },
+    {
+      "epoch": 26.277372262773724,
+      "grad_norm": 0.0014958898536860943,
+      "learning_rate": 9.295336661947115e-05,
+      "loss": 0.3488,
+      "step": 1800
+    },
+    {
+      "epoch": 26.277372262773724,
+      "eval_accuracy": 0.8534798534798534,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          7,
+          58,
+          10,
+          0
+        ],
+        [
+          0,
+          9,
+          53,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8535663673078441,
+      "eval_loss": 0.7831193804740906,
+      "eval_precision": 0.8551497604301419,
+      "eval_recall": 0.8534798534798534,
+      "eval_runtime": 3.7976,
+      "eval_samples_per_second": 71.888,
+      "eval_steps_per_second": 0.79,
+      "step": 1800
+    },
+    {
+      "epoch": 27.00729927007299,
+      "grad_norm": 0.004900149069726467,
+      "learning_rate": 8.417512966858319e-05,
+      "loss": 0.3488,
+      "step": 1850
+    },
+    {
+      "epoch": 27.73722627737226,
+      "grad_norm": 0.0018804975552484393,
+      "learning_rate": 7.566782323279578e-05,
+      "loss": 0.3488,
+      "step": 1900
+    },
+    {
+      "epoch": 28.467153284671532,
+      "grad_norm": 0.0019178036600351334,
+      "learning_rate": 6.746646278427247e-05,
+      "loss": 0.3488,
+      "step": 1950
+    },
+    {
+      "epoch": 29.197080291970803,
+      "grad_norm": 0.001025234698317945,
+      "learning_rate": 5.960480454311155e-05,
+      "loss": 0.3488,
+      "step": 2000
+    },
+    {
+      "epoch": 29.197080291970803,
+      "eval_accuracy": 0.8498168498168498,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          8,
+          57,
+          10,
+          0
+        ],
+        [
+          0,
+          9,
+          53,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8496942339108237,
+      "eval_loss": 0.7866398692131042,
+      "eval_precision": 0.8506632615716467,
+      "eval_recall": 0.8498168498168498,
+      "eval_runtime": 3.7892,
+      "eval_samples_per_second": 72.047,
+      "eval_steps_per_second": 0.792,
+      "step": 2000
+    },
+    {
+      "epoch": 29.927007299270073,
+      "grad_norm": 0.0027674695011228323,
+      "learning_rate": 5.2115206539129e-05,
+      "loss": 0.3488,
+      "step": 2050
+    },
+    {
+      "epoch": 30.656934306569344,
+      "grad_norm": 0.0016269112238660455,
+      "learning_rate": 4.5028495428494483e-05,
+      "loss": 0.3488,
+      "step": 2100
+    },
+    {
+      "epoch": 31.386861313868614,
+      "grad_norm": 0.0019462064374238253,
+      "learning_rate": 3.837383961339246e-05,
+      "loss": 0.3488,
+      "step": 2150
+    },
+    {
+      "epoch": 32.11678832116788,
+      "grad_norm": 0.0011992512736469507,
+      "learning_rate": 3.21786291869402e-05,
+      "loss": 0.3488,
+      "step": 2200
+    },
+    {
+      "epoch": 32.11678832116788,
+      "eval_accuracy": 0.8534798534798534,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          8,
+          57,
+          10,
+          0
+        ],
+        [
+          0,
+          8,
+          54,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8531308487327289,
+      "eval_loss": 0.7856839895248413,
+      "eval_precision": 0.8539396783782831,
+      "eval_recall": 0.8534798534798534,
+      "eval_runtime": 3.787,
+      "eval_samples_per_second": 72.088,
+      "eval_steps_per_second": 0.792,
+      "step": 2200
+    },
+    {
+      "epoch": 32.846715328467155,
+      "grad_norm": 0.0029719627927988768,
+      "learning_rate": 2.6468363197499458e-05,
+      "loss": 0.3488,
+      "step": 2250
+    },
+    {
+      "epoch": 33.57664233576642,
+      "grad_norm": 0.0012639207998290658,
+      "learning_rate": 2.1266544696395582e-05,
+      "loss": 0.3488,
+      "step": 2300
+    },
+    {
+      "epoch": 34.306569343065696,
+      "grad_norm": 0.0011322245700284839,
+      "learning_rate": 1.659458400101879e-05,
+      "loss": 0.3488,
+      "step": 2350
+    },
+    {
+      "epoch": 35.03649635036496,
+      "grad_norm": 0.002087602624669671,
+      "learning_rate": 1.2471710571470578e-05,
+      "loss": 0.3488,
+      "step": 2400
+    },
+    {
+      "epoch": 35.03649635036496,
+      "eval_accuracy": 0.8498168498168498,
+      "eval_confusion_matrix": [
+        [
+          61,
+          11,
+          1,
+          2
+        ],
+        [
+          8,
+          57,
+          10,
+          0
+        ],
+        [
+          0,
+          9,
+          53,
+          0
+        ],
+        [
+          0,
+          0,
+          0,
+          61
+        ]
+      ],
+      "eval_f1": 0.8496942339108237,
+      "eval_loss": 0.7856935858726501,
+      "eval_precision": 0.8506632615716467,
+      "eval_recall": 0.8498168498168498,
+      "eval_runtime": 3.788,
+      "eval_samples_per_second": 72.069,
+      "eval_steps_per_second": 0.792,
+      "step": 2400
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2720,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 40,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.68527123264e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2400/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1cd6053c9e08edd46715ea6144f2b03c4f4ac31b547b8ae042d0b5e4a21ad64
+size 5240

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58cf140280d70389e1aece2ee9a69bdfb705db914d4944c5f4efd478daa1fd13
 size 94765560

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c75935ca7cf6cf2624c007d676c6f4095f4ab57f426f3d85e0a4fe5b16078bb
 size 94765560

runs/Sep14_17-06-50_ubumarcos/events.out.tfevents.1726327100.ubumarcos CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d62f4c346935efa7b0e7b0b76b2c91431f8f67b53dc9c6fc95a650671d29a17e
-size 40

 version https://git-lfs.github.com/spec/v1
+oid sha256:75de08e534bbfb12e3a8fc006cb6ab6612e4998c46526c752f20021f20b7d043
+size 503

runs/Sep14_18-07-00_ubumarcos/events.out.tfevents.1726330021.ubumarcos ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7aef52f1e01abd8b1f2974e343dfab563bfe7b9dceb1a4e16c6eaea7954c87b
+size 22146

runs/Sep14_18-24-29_ubumarcos/events.out.tfevents.1726331070.ubumarcos ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:623ee29ee6d95a119d7d22770b2fa5d05167ef523e56637865d7dd27219b6622
+size 6921

runs/Sep14_18-24-29_ubumarcos/events.out.tfevents.1726331984.ubumarcos ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4fede9fcdd631a8ec2518ba9c9ab15f1bfc3400996d5c026e5f67af3e9fe841
+size 40

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04c36e688104e01b3bf86e2899b93cb9a0868d0f8f810b28125b46e47948bf14
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b8b55b425459f7b65521e542a14dc1670fa162e08d497ee83bde1c914e74cf6
 size 5240