lsnoo commited on Jul 5, 2023

Commit

ab197ff

1 Parent(s): 6dc40c7

Uploading trained model

Browse files

Files changed (26) hide show

added_tokens.json +1 -0
checkpoint-550/config.json +117 -0
checkpoint-550/optimizer.pt +3 -0
checkpoint-550/preprocessor_config.json +10 -0
checkpoint-550/pytorch_model.bin +3 -0
checkpoint-550/rng_state.pth +3 -0
checkpoint-550/scaler.pt +3 -0
checkpoint-550/scheduler.pt +3 -0
checkpoint-550/trainer_state.json +472 -0
checkpoint-550/training_args.bin +3 -0
checkpoint-99/config.json +117 -0
checkpoint-99/optimizer.pt +3 -0
checkpoint-99/preprocessor_config.json +10 -0
checkpoint-99/pytorch_model.bin +3 -0
checkpoint-99/rng_state.pth +3 -0
checkpoint-99/scaler.pt +3 -0
checkpoint-99/scheduler.pt +3 -0
checkpoint-99/trainer_state.json +97 -0
checkpoint-99/training_args.bin +3 -0
config.json +117 -0
preprocessor_config.json +11 -0
pytorch_model.bin +3 -0
special_tokens_map.json +1 -0
tokenizer_config.json +1 -0
training_args.bin +3 -0
vocab.json +1 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"<s>": 43, "</s>": 44}

checkpoint-550/config.json ADDED Viewed

	@@ -0,0 +1,117 @@

+{
+  "_name_or_path": "slplab/wav2vec2-xls-r-300m_phone-mfa_korean",
+  "activation_dropout": 0.0,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForSpeechClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 768,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.1,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "finetuning_task": "wav2vec2_clf",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.075,
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "output_hidden_size": 1024,
+  "pad_token_id": 42,
+  "pooling_mode": "mean",
+  "problem_type": "regression",
+  "proj_codevector_dim": 768,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.19.3",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 45,
+  "xvector_output_dim": 512
+}

checkpoint-550/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b06cc682f07e4dcf4ee4801f5cdb587ec58468fd89b8aa459aab642ffa305bc
+size 2498465161

checkpoint-550/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "cache_dir": "/data2/excalibur12/.cache/huggingface/datasets",
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

checkpoint-550/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc61e7cd85802dd3a58764549781397be6d31714c1a41b59e9327535093e2194
+size 1266101869

checkpoint-550/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46015840c7dc0498fdae4bd8dce131fc8fdb7beb4db6d28e7f511ed2c19d088f
+size 14567

checkpoint-550/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c33378e25f610e335ddba9ca3bc1885deef22bd7de80474020b185e11026b99
+size 559

checkpoint-550/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37e8d607b82b4eb73fe403c69aa9e37348793e30ec147c856a28d72e5b4d7d9b
+size 623

checkpoint-550/trainer_state.json ADDED Viewed

	@@ -0,0 +1,472 @@

+{
+  "best_metric": 0.30745795369148254,
+  "best_model_checkpoint": "asd_pronunciation_w2v_xlsr-reg/checkpoint-99",
+  "epoch": 49.977777777777774,
+  "global_step": 550,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.98,
+      "eval_loss": 0.8269791603088379,
+      "eval_mse": 0.8274638056755066,
+      "eval_runtime": 67.3404,
+      "eval_samples_per_second": 31.497,
+      "eval_steps_per_second": 0.995,
+      "step": 11
+    },
+    {
+      "epoch": 1.98,
+      "eval_loss": 0.4631172716617584,
+      "eval_mse": 0.46300947666168213,
+      "eval_runtime": 67.2163,
+      "eval_samples_per_second": 31.555,
+      "eval_steps_per_second": 0.997,
+      "step": 22
+    },
+    {
+      "epoch": 2.98,
+      "eval_loss": 0.351409912109375,
+      "eval_mse": 0.3515050709247589,
+      "eval_runtime": 67.5563,
+      "eval_samples_per_second": 31.396,
+      "eval_steps_per_second": 0.992,
+      "step": 33
+    },
+    {
+      "epoch": 3.98,
+      "eval_loss": 0.3585782051086426,
+      "eval_mse": 0.35852691531181335,
+      "eval_runtime": 69.7976,
+      "eval_samples_per_second": 30.388,
+      "eval_steps_per_second": 0.96,
+      "step": 44
+    },
+    {
+      "epoch": 4.98,
+      "eval_loss": 0.4412296712398529,
+      "eval_mse": 0.4412075877189636,
+      "eval_runtime": 79.1138,
+      "eval_samples_per_second": 26.809,
+      "eval_steps_per_second": 0.847,
+      "step": 55
+    },
+    {
+      "epoch": 5.98,
+      "eval_loss": 0.430486798286438,
+      "eval_mse": 0.43049314618110657,
+      "eval_runtime": 72.5547,
+      "eval_samples_per_second": 29.233,
+      "eval_steps_per_second": 0.923,
+      "step": 66
+    },
+    {
+      "epoch": 6.98,
+      "eval_loss": 0.42916765809059143,
+      "eval_mse": 0.4291659891605377,
+      "eval_runtime": 95.5528,
+      "eval_samples_per_second": 22.197,
+      "eval_steps_per_second": 0.701,
+      "step": 77
+    },
+    {
+      "epoch": 7.98,
+      "eval_loss": 0.4343053996562958,
+      "eval_mse": 0.43428245186805725,
+      "eval_runtime": 66.5007,
+      "eval_samples_per_second": 31.894,
+      "eval_steps_per_second": 1.008,
+      "step": 88
+    },
+    {
+      "epoch": 8.98,
+      "eval_loss": 0.30745795369148254,
+      "eval_mse": 0.3074318766593933,
+      "eval_runtime": 66.2359,
+      "eval_samples_per_second": 32.022,
+      "eval_steps_per_second": 1.012,
+      "step": 99
+    },
+    {
+      "epoch": 9.98,
+      "eval_loss": 0.42939332127571106,
+      "eval_mse": 0.4293690323829651,
+      "eval_runtime": 66.3865,
+      "eval_samples_per_second": 31.949,
+      "eval_steps_per_second": 1.009,
+      "step": 110
+    },
+    {
+      "epoch": 10.98,
+      "eval_loss": 0.3727492094039917,
+      "eval_mse": 0.3727482855319977,
+      "eval_runtime": 66.8857,
+      "eval_samples_per_second": 31.711,
+      "eval_steps_per_second": 1.002,
+      "step": 121
+    },
+    {
+      "epoch": 11.98,
+      "eval_loss": 0.42278197407722473,
+      "eval_mse": 0.42277276515960693,
+      "eval_runtime": 65.5197,
+      "eval_samples_per_second": 32.372,
+      "eval_steps_per_second": 1.023,
+      "step": 132
+    },
+    {
+      "epoch": 12.98,
+      "eval_loss": 0.4014572203159332,
+      "eval_mse": 0.40141549706459045,
+      "eval_runtime": 65.6627,
+      "eval_samples_per_second": 32.301,
+      "eval_steps_per_second": 1.02,
+      "step": 143
+    },
+    {
+      "epoch": 13.98,
+      "eval_loss": 0.37818050384521484,
+      "eval_mse": 0.37818947434425354,
+      "eval_runtime": 66.0031,
+      "eval_samples_per_second": 32.135,
+      "eval_steps_per_second": 1.015,
+      "step": 154
+    },
+    {
+      "epoch": 14.98,
+      "eval_loss": 0.4358225166797638,
+      "eval_mse": 0.43578916788101196,
+      "eval_runtime": 65.7571,
+      "eval_samples_per_second": 32.255,
+      "eval_steps_per_second": 1.019,
+      "step": 165
+    },
+    {
+      "epoch": 15.98,
+      "eval_loss": 0.36039263010025024,
+      "eval_mse": 0.3603877127170563,
+      "eval_runtime": 67.6323,
+      "eval_samples_per_second": 31.361,
+      "eval_steps_per_second": 0.991,
+      "step": 176
+    },
+    {
+      "epoch": 16.98,
+      "eval_loss": 0.40446653962135315,
+      "eval_mse": 0.40447959303855896,
+      "eval_runtime": 66.1021,
+      "eval_samples_per_second": 32.087,
+      "eval_steps_per_second": 1.014,
+      "step": 187
+    },
+    {
+      "epoch": 17.98,
+      "eval_loss": 0.3638509213924408,
+      "eval_mse": 0.3638397455215454,
+      "eval_runtime": 66.1765,
+      "eval_samples_per_second": 32.051,
+      "eval_steps_per_second": 1.012,
+      "step": 198
+    },
+    {
+      "epoch": 18.98,
+      "eval_loss": 0.4001483619213104,
+      "eval_mse": 0.400104284286499,
+      "eval_runtime": 66.5235,
+      "eval_samples_per_second": 31.883,
+      "eval_steps_per_second": 1.007,
+      "step": 209
+    },
+    {
+      "epoch": 19.98,
+      "eval_loss": 0.3836788535118103,
+      "eval_mse": 0.38362112641334534,
+      "eval_runtime": 65.5397,
+      "eval_samples_per_second": 32.362,
+      "eval_steps_per_second": 1.022,
+      "step": 220
+    },
+    {
+      "epoch": 20.98,
+      "eval_loss": 0.3813478350639343,
+      "eval_mse": 0.3813202679157257,
+      "eval_runtime": 67.0847,
+      "eval_samples_per_second": 31.617,
+      "eval_steps_per_second": 0.999,
+      "step": 231
+    },
+    {
+      "epoch": 21.98,
+      "eval_loss": 0.3911483883857727,
+      "eval_mse": 0.39113306999206543,
+      "eval_runtime": 66.4329,
+      "eval_samples_per_second": 31.927,
+      "eval_steps_per_second": 1.009,
+      "step": 242
+    },
+    {
+      "epoch": 22.98,
+      "eval_loss": 0.43994417786598206,
+      "eval_mse": 0.4399244487285614,
+      "eval_runtime": 66.1358,
+      "eval_samples_per_second": 32.07,
+      "eval_steps_per_second": 1.013,
+      "step": 253
+    },
+    {
+      "epoch": 23.98,
+      "eval_loss": 0.4228975772857666,
+      "eval_mse": 0.42288002371788025,
+      "eval_runtime": 66.6907,
+      "eval_samples_per_second": 31.804,
+      "eval_steps_per_second": 1.005,
+      "step": 264
+    },
+    {
+      "epoch": 24.98,
+      "eval_loss": 0.4192221462726593,
+      "eval_mse": 0.4191807508468628,
+      "eval_runtime": 65.8241,
+      "eval_samples_per_second": 32.222,
+      "eval_steps_per_second": 1.018,
+      "step": 275
+    },
+    {
+      "epoch": 25.98,
+      "eval_loss": 0.40975797176361084,
+      "eval_mse": 0.4097472131252289,
+      "eval_runtime": 67.5766,
+      "eval_samples_per_second": 31.387,
+      "eval_steps_per_second": 0.991,
+      "step": 286
+    },
+    {
+      "epoch": 26.98,
+      "eval_loss": 0.3760901093482971,
+      "eval_mse": 0.37607377767562866,
+      "eval_runtime": 65.9157,
+      "eval_samples_per_second": 32.177,
+      "eval_steps_per_second": 1.016,
+      "step": 297
+    },
+    {
+      "epoch": 27.98,
+      "eval_loss": 0.389096200466156,
+      "eval_mse": 0.3890584111213684,
+      "eval_runtime": 65.956,
+      "eval_samples_per_second": 32.158,
+      "eval_steps_per_second": 1.016,
+      "step": 308
+    },
+    {
+      "epoch": 28.98,
+      "eval_loss": 0.4243176579475403,
+      "eval_mse": 0.4242975115776062,
+      "eval_runtime": 66.4794,
+      "eval_samples_per_second": 31.905,
+      "eval_steps_per_second": 1.008,
+      "step": 319
+    },
+    {
+      "epoch": 29.98,
+      "eval_loss": 0.4235914349555969,
+      "eval_mse": 0.4235744774341583,
+      "eval_runtime": 66.2277,
+      "eval_samples_per_second": 32.026,
+      "eval_steps_per_second": 1.012,
+      "step": 330
+    },
+    {
+      "epoch": 30.98,
+      "eval_loss": 0.4235081076622009,
+      "eval_mse": 0.42347782850265503,
+      "eval_runtime": 66.6381,
+      "eval_samples_per_second": 31.829,
+      "eval_steps_per_second": 1.005,
+      "step": 341
+    },
+    {
+      "epoch": 31.98,
+      "eval_loss": 0.4236636757850647,
+      "eval_mse": 0.4236546456813812,
+      "eval_runtime": 65.6032,
+      "eval_samples_per_second": 32.331,
+      "eval_steps_per_second": 1.021,
+      "step": 352
+    },
+    {
+      "epoch": 32.98,
+      "eval_loss": 0.4269878566265106,
+      "eval_mse": 0.4269687533378601,
+      "eval_runtime": 65.9665,
+      "eval_samples_per_second": 32.153,
+      "eval_steps_per_second": 1.016,
+      "step": 363
+    },
+    {
+      "epoch": 33.98,
+      "eval_loss": 0.39142194390296936,
+      "eval_mse": 0.3913804888725281,
+      "eval_runtime": 66.6217,
+      "eval_samples_per_second": 31.836,
+      "eval_steps_per_second": 1.006,
+      "step": 374
+    },
+    {
+      "epoch": 34.98,
+      "eval_loss": 0.3899790942668915,
+      "eval_mse": 0.38995301723480225,
+      "eval_runtime": 65.771,
+      "eval_samples_per_second": 32.248,
+      "eval_steps_per_second": 1.019,
+      "step": 385
+    },
+    {
+      "epoch": 35.98,
+      "eval_loss": 0.4031297564506531,
+      "eval_mse": 0.4031302034854889,
+      "eval_runtime": 68.033,
+      "eval_samples_per_second": 31.176,
+      "eval_steps_per_second": 0.985,
+      "step": 396
+    },
+    {
+      "epoch": 36.98,
+      "eval_loss": 0.373826265335083,
+      "eval_mse": 0.3738201856613159,
+      "eval_runtime": 66.1644,
+      "eval_samples_per_second": 32.057,
+      "eval_steps_per_second": 1.013,
+      "step": 407
+    },
+    {
+      "epoch": 37.98,
+      "eval_loss": 0.37409740686416626,
+      "eval_mse": 0.37407544255256653,
+      "eval_runtime": 65.7007,
+      "eval_samples_per_second": 32.283,
+      "eval_steps_per_second": 1.02,
+      "step": 418
+    },
+    {
+      "epoch": 38.98,
+      "eval_loss": 0.41098639369010925,
+      "eval_mse": 0.4109634459018707,
+      "eval_runtime": 65.8334,
+      "eval_samples_per_second": 32.218,
+      "eval_steps_per_second": 1.018,
+      "step": 429
+    },
+    {
+      "epoch": 39.98,
+      "eval_loss": 0.38580140471458435,
+      "eval_mse": 0.3857785165309906,
+      "eval_runtime": 65.912,
+      "eval_samples_per_second": 32.179,
+      "eval_steps_per_second": 1.017,
+      "step": 440
+    },
+    {
+      "epoch": 40.98,
+      "eval_loss": 0.40168315172195435,
+      "eval_mse": 0.4016563296318054,
+      "eval_runtime": 67.322,
+      "eval_samples_per_second": 31.505,
+      "eval_steps_per_second": 0.995,
+      "step": 451
+    },
+    {
+      "epoch": 41.98,
+      "eval_loss": 0.3875749111175537,
+      "eval_mse": 0.3875587284564972,
+      "eval_runtime": 65.9445,
+      "eval_samples_per_second": 32.163,
+      "eval_steps_per_second": 1.016,
+      "step": 462
+    },
+    {
+      "epoch": 42.98,
+      "eval_loss": 0.401607483625412,
+      "eval_mse": 0.4015834629535675,
+      "eval_runtime": 66.235,
+      "eval_samples_per_second": 32.022,
+      "eval_steps_per_second": 1.012,
+      "step": 473
+    },
+    {
+      "epoch": 43.98,
+      "eval_loss": 0.3939042389392853,
+      "eval_mse": 0.3938945233821869,
+      "eval_runtime": 66.0054,
+      "eval_samples_per_second": 32.134,
+      "eval_steps_per_second": 1.015,
+      "step": 484
+    },
+    {
+      "epoch": 44.98,
+      "eval_loss": 0.40803390741348267,
+      "eval_mse": 0.40802931785583496,
+      "eval_runtime": 66.0842,
+      "eval_samples_per_second": 32.095,
+      "eval_steps_per_second": 1.014,
+      "step": 495
+    },
+    {
+      "epoch": 45.44,
+      "learning_rate": 3.03030303030303e-05,
+      "loss": 0.4034,
+      "step": 500
+    },
+    {
+      "epoch": 45.98,
+      "eval_loss": 0.38819119334220886,
+      "eval_mse": 0.38818415999412537,
+      "eval_runtime": 67.7262,
+      "eval_samples_per_second": 31.317,
+      "eval_steps_per_second": 0.989,
+      "step": 506
+    },
+    {
+      "epoch": 46.98,
+      "eval_loss": 0.4062108099460602,
+      "eval_mse": 0.4061962068080902,
+      "eval_runtime": 63.6037,
+      "eval_samples_per_second": 33.347,
+      "eval_steps_per_second": 1.053,
+      "step": 517
+    },
+    {
+      "epoch": 47.98,
+      "eval_loss": 0.38834279775619507,
+      "eval_mse": 0.38832658529281616,
+      "eval_runtime": 64.2256,
+      "eval_samples_per_second": 33.024,
+      "eval_steps_per_second": 1.043,
+      "step": 528
+    },
+    {
+      "epoch": 48.98,
+      "eval_loss": 0.3969601094722748,
+      "eval_mse": 0.3969435691833496,
+      "eval_runtime": 63.6409,
+      "eval_samples_per_second": 33.328,
+      "eval_steps_per_second": 1.053,
+      "step": 539
+    },
+    {
+      "epoch": 49.98,
+      "eval_loss": 0.3963707685470581,
+      "eval_mse": 0.3963526785373688,
+      "eval_runtime": 63.4841,
+      "eval_samples_per_second": 33.41,
+      "eval_steps_per_second": 1.055,
+      "step": 550
+    }
+  ],
+  "max_steps": 550,
+  "num_train_epochs": 50,
+  "total_flos": 1.603121844978697e+20,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-550/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6d18a7837d69e5d09a40f73faf5071bd1c07927dac0c1c18d211646e1533cbb
+size 3247

checkpoint-99/config.json ADDED Viewed

	@@ -0,0 +1,117 @@

+{
+  "_name_or_path": "slplab/wav2vec2-xls-r-300m_phone-mfa_korean",
+  "activation_dropout": 0.0,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForSpeechClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 768,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.1,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "finetuning_task": "wav2vec2_clf",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.075,
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "output_hidden_size": 1024,
+  "pad_token_id": 42,
+  "pooling_mode": "mean",
+  "problem_type": "regression",
+  "proj_codevector_dim": 768,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.19.3",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 45,
+  "xvector_output_dim": 512
+}

checkpoint-99/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e45b75190c0075591cb83659bea8786524011d16b66bc51030ee67788dcfce10
+size 2498464777

checkpoint-99/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "cache_dir": "/data2/excalibur12/.cache/huggingface/datasets",
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

checkpoint-99/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e47fa51983f1f4f6c591d3b181d5a8bb4d4d7b57224ffbc4f2dae26521d1b84
+size 1266101869

checkpoint-99/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e53ff83bc5a0f7e3f45273d2de1bf2192e1300b343841603a2b096df6ad8c127
+size 14567

checkpoint-99/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78a083ceb88b83ff7ed1f0adf6d62580b8ceb7d9c17ad4684f511424e289c436
+size 559

checkpoint-99/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0de4bd42e78a35b7fa3b4618172ba102f4f2a9be54789adf5790bde4d76e585e
+size 623

checkpoint-99/trainer_state.json ADDED Viewed

	@@ -0,0 +1,97 @@

+{
+  "best_metric": 0.30745795369148254,
+  "best_model_checkpoint": "asd_pronunciation_w2v_xlsr-reg/checkpoint-99",
+  "epoch": 8.977777777777778,
+  "global_step": 99,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.98,
+      "eval_loss": 0.8269791603088379,
+      "eval_mse": 0.8274638056755066,
+      "eval_runtime": 67.3404,
+      "eval_samples_per_second": 31.497,
+      "eval_steps_per_second": 0.995,
+      "step": 11
+    },
+    {
+      "epoch": 1.98,
+      "eval_loss": 0.4631172716617584,
+      "eval_mse": 0.46300947666168213,
+      "eval_runtime": 67.2163,
+      "eval_samples_per_second": 31.555,
+      "eval_steps_per_second": 0.997,
+      "step": 22
+    },
+    {
+      "epoch": 2.98,
+      "eval_loss": 0.351409912109375,
+      "eval_mse": 0.3515050709247589,
+      "eval_runtime": 67.5563,
+      "eval_samples_per_second": 31.396,
+      "eval_steps_per_second": 0.992,
+      "step": 33
+    },
+    {
+      "epoch": 3.98,
+      "eval_loss": 0.3585782051086426,
+      "eval_mse": 0.35852691531181335,
+      "eval_runtime": 69.7976,
+      "eval_samples_per_second": 30.388,
+      "eval_steps_per_second": 0.96,
+      "step": 44
+    },
+    {
+      "epoch": 4.98,
+      "eval_loss": 0.4412296712398529,
+      "eval_mse": 0.4412075877189636,
+      "eval_runtime": 79.1138,
+      "eval_samples_per_second": 26.809,
+      "eval_steps_per_second": 0.847,
+      "step": 55
+    },
+    {
+      "epoch": 5.98,
+      "eval_loss": 0.430486798286438,
+      "eval_mse": 0.43049314618110657,
+      "eval_runtime": 72.5547,
+      "eval_samples_per_second": 29.233,
+      "eval_steps_per_second": 0.923,
+      "step": 66
+    },
+    {
+      "epoch": 6.98,
+      "eval_loss": 0.42916765809059143,
+      "eval_mse": 0.4291659891605377,
+      "eval_runtime": 95.5528,
+      "eval_samples_per_second": 22.197,
+      "eval_steps_per_second": 0.701,
+      "step": 77
+    },
+    {
+      "epoch": 7.98,
+      "eval_loss": 0.4343053996562958,
+      "eval_mse": 0.43428245186805725,
+      "eval_runtime": 66.5007,
+      "eval_samples_per_second": 31.894,
+      "eval_steps_per_second": 1.008,
+      "step": 88
+    },
+    {
+      "epoch": 8.98,
+      "eval_loss": 0.30745795369148254,
+      "eval_mse": 0.3074318766593933,
+      "eval_runtime": 66.2359,
+      "eval_samples_per_second": 32.022,
+      "eval_steps_per_second": 1.012,
+      "step": 99
+    }
+  ],
+  "max_steps": 550,
+  "num_train_epochs": 50,
+  "total_flos": 2.8846380565942047e+19,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-99/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6d18a7837d69e5d09a40f73faf5071bd1c07927dac0c1c18d211646e1533cbb
+size 3247

config.json ADDED Viewed

	@@ -0,0 +1,117 @@

+{
+  "_name_or_path": "slplab/wav2vec2-xls-r-300m_phone-mfa_korean",
+  "activation_dropout": 0.0,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForSpeechClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 768,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.1,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "finetuning_task": "wav2vec2_clf",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.075,
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "output_hidden_size": 1024,
+  "pad_token_id": 42,
+  "pooling_mode": "mean",
+  "problem_type": "regression",
+  "proj_codevector_dim": 768,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.19.3",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 45,
+  "xvector_output_dim": 512
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "cache_dir": "/data2/excalibur12/.cache/huggingface/datasets",
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "processor_class": "Wav2Vec2Processor",
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e47fa51983f1f4f6c591d3b181d5a8bb4d4d7b57224ffbc4f2dae26521d1b84
+size 1266101869

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]", "additional_special_tokens": [{"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}]}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"unk_token": "[UNK]", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "[PAD]", "word_delimiter_token": null, "phone_delimiter_token": "|", "do_phonemize": false, "phonemizer_lang": "en-us", "phonemizer_backend": "espeak", "name_or_path": "slplab/wav2vec2-xls-r-300m_phone-mfa_korean", "special_tokens_map_file": null, "tokenizer_class": "Wav2Vec2PhonemeCTCTokenizer", "processor_class": "Wav2Vec2Processor"}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6d18a7837d69e5d09a40f73faf5071bd1c07927dac0c1c18d211646e1533cbb
+size 3247

vocab.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"A": 0, "B": 1, "BB": 2, "CHh": 3, "D": 4, "DD": 5, "E": 6, "EO": 7, "EU": 8, "G": 9, "GG": 10, "H": 11, "I": 12, "J": 13, "JJ": 14, "Kh": 15, "L": 16, "M": 17, "N": 18, "NG": 19, "O": 20, "Ph": 21, "R": 22, "S": 23, "SS": 24, "Th": 25, "U": 26, "[PAD]": 42, "[UNK]": 41, "euI": 27, "iA": 28, "iE": 29, "iEO": 30, "iO": 31, "iU": 32, "k": 33, "oA": 34, "oE": 35, "p": 36, "t": 37, "uEO": 38, "uI": 39, "|": 40}