Plasmoxy commited on Apr 19

Commit

bb9a768

verified ·

1 Parent(s): 07a9be1

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

added_tokens.json +3 -0
checkpoint-1492/added_tokens.json +3 -0
checkpoint-1492/config.json +60 -0
checkpoint-1492/model.safetensors +3 -0
checkpoint-1492/optimizer.pt +3 -0
checkpoint-1492/rng_state.pth +3 -0
checkpoint-1492/scheduler.pt +3 -0
checkpoint-1492/special_tokens_map.json +15 -0
checkpoint-1492/spm.model +3 -0
checkpoint-1492/tokenizer.json +0 -0
checkpoint-1492/tokenizer_config.json +58 -0
checkpoint-1492/trainer_state.json +58 -0
checkpoint-1492/training_args.bin +3 -0
checkpoint-2984/added_tokens.json +3 -0
checkpoint-2984/config.json +60 -0
checkpoint-2984/model.safetensors +3 -0
checkpoint-2984/optimizer.pt +3 -0
checkpoint-2984/rng_state.pth +3 -0
checkpoint-2984/scheduler.pt +3 -0
checkpoint-2984/special_tokens_map.json +15 -0
checkpoint-2984/spm.model +3 -0
checkpoint-2984/tokenizer.json +0 -0
checkpoint-2984/tokenizer_config.json +58 -0
checkpoint-2984/trainer_state.json +90 -0
checkpoint-2984/training_args.bin +3 -0
checkpoint-4476/added_tokens.json +3 -0
checkpoint-4476/config.json +60 -0
checkpoint-4476/model.safetensors +3 -0
checkpoint-4476/optimizer.pt +3 -0
checkpoint-4476/rng_state.pth +3 -0
checkpoint-4476/scheduler.pt +3 -0
checkpoint-4476/special_tokens_map.json +15 -0
checkpoint-4476/spm.model +3 -0
checkpoint-4476/tokenizer.json +0 -0
checkpoint-4476/tokenizer_config.json +58 -0
checkpoint-4476/trainer_state.json +122 -0
checkpoint-4476/training_args.bin +3 -0
checkpoint-5968/added_tokens.json +3 -0
checkpoint-5968/config.json +60 -0
checkpoint-5968/model.safetensors +3 -0
checkpoint-5968/optimizer.pt +3 -0
checkpoint-5968/rng_state.pth +3 -0
checkpoint-5968/scheduler.pt +3 -0
checkpoint-5968/special_tokens_map.json +15 -0
checkpoint-5968/spm.model +3 -0
checkpoint-5968/tokenizer.json +0 -0
checkpoint-5968/tokenizer_config.json +58 -0
checkpoint-5968/trainer_state.json +154 -0
checkpoint-5968/training_args.bin +3 -0
checkpoint-7460/added_tokens.json +3 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoint-1492/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoint-1492/config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-small",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "problem_type": "multi_label_classification",
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

checkpoint-1492/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:927c57b08b9cf5b47ba63fb475ee871491315e6f4920ce3201b71a4f5d033af3
+size 567623168

checkpoint-1492/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:781e8898257f4862c94423e61e0c805476e3cd1e8f9160967c2ad9548a7a2675
+size 348248442

checkpoint-1492/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d09cf12694bacb4423bbdf595452f73bf98cb80697c95ffd567f145196359bd3
+size 14244

checkpoint-1492/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54803337e0f674234e98979d81842325f32e7ff16f81c39173e85faf234be543
+size 1064

checkpoint-1492/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1492/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

checkpoint-1492/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1492/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

checkpoint-1492/trainer_state.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "best_metric": 0.34355366230010986,
+  "best_model_checkpoint": "out/deberta-v3-small-bkl-multi/checkpoint-1492",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 1492,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.3351206434316354,
+      "grad_norm": 1.3047796487808228,
+      "learning_rate": 1.865951742627346e-05,
+      "loss": 0.4032,
+      "step": 500
+    },
+    {
+      "epoch": 0.6702412868632708,
+      "grad_norm": 0.7828705310821533,
+      "learning_rate": 1.731903485254692e-05,
+      "loss": 0.3503,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.2743503772003353,
+      "eval_f1": 0.7807241322816955,
+      "eval_loss": 0.34355366230010986,
+      "eval_roc_auc": 0.8276824995087615,
+      "eval_runtime": 20.9327,
+      "eval_samples_per_second": 569.923,
+      "eval_steps_per_second": 8.933,
+      "step": 1492
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 7460,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2469534208642800.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1492/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f19c3d98db4c53395f5f0a6d8d40c72eabb1f4e33e60306d839111edd328b17c
+size 5240

checkpoint-2984/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoint-2984/config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-small",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "problem_type": "multi_label_classification",
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

checkpoint-2984/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a72b3c15361ae501241a64c97ec13fc1865c6503e5ca696077b906aa42d79126
+size 567623168

checkpoint-2984/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb6c9a3f1c0d9e50003741d0d52ed66b0044ef6bb843737b20e7665c9eab5a51
+size 348248442

checkpoint-2984/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a055979ed102d268b340f9b62f291971793e75f46bca733e73bbbd8fc1dcc29d
+size 14244

checkpoint-2984/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de1fb7c9570d0bad23dec261e04dcc4519aa1e68a085025ef8b72c8df73ebafd
+size 1064

checkpoint-2984/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-2984/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

checkpoint-2984/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2984/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

checkpoint-2984/trainer_state.json ADDED Viewed

	@@ -0,0 +1,90 @@

+{
+  "best_metric": 0.3326815962791443,
+  "best_model_checkpoint": "out/deberta-v3-small-bkl-multi/checkpoint-2984",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 2984,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.3351206434316354,
+      "grad_norm": 1.3047796487808228,
+      "learning_rate": 1.865951742627346e-05,
+      "loss": 0.4032,
+      "step": 500
+    },
+    {
+      "epoch": 0.6702412868632708,
+      "grad_norm": 0.7828705310821533,
+      "learning_rate": 1.731903485254692e-05,
+      "loss": 0.3503,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.2743503772003353,
+      "eval_f1": 0.7807241322816955,
+      "eval_loss": 0.34355366230010986,
+      "eval_roc_auc": 0.8276824995087615,
+      "eval_runtime": 20.9327,
+      "eval_samples_per_second": 569.923,
+      "eval_steps_per_second": 8.933,
+      "step": 1492
+    },
+    {
+      "epoch": 1.0053619302949062,
+      "grad_norm": 1.0840567350387573,
+      "learning_rate": 1.5978552278820375e-05,
+      "loss": 0.3432,
+      "step": 1500
+    },
+    {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 0.586756706237793,
+      "learning_rate": 1.4638069705093835e-05,
+      "loss": 0.3322,
+      "step": 2000
+    },
+    {
+      "epoch": 1.675603217158177,
+      "grad_norm": 0.6265957951545715,
+      "learning_rate": 1.3297587131367293e-05,
+      "loss": 0.3313,
+      "step": 2500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.28491198658843253,
+      "eval_f1": 0.7920844448532793,
+      "eval_loss": 0.3326815962791443,
+      "eval_roc_auc": 0.8374262996694112,
+      "eval_runtime": 20.987,
+      "eval_samples_per_second": 568.447,
+      "eval_steps_per_second": 8.91,
+      "step": 2984
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 7460,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4939068417285600.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2984/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f19c3d98db4c53395f5f0a6d8d40c72eabb1f4e33e60306d839111edd328b17c
+size 5240

checkpoint-4476/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoint-4476/config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-small",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "problem_type": "multi_label_classification",
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

checkpoint-4476/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2a3e107d8f5dca555756fa40a7b59f9d23b97cb5201d48a9ca2cd9db77f4437
+size 567623168

checkpoint-4476/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf95a23de11df469b5fb18212d5321fab15fe27b22be26d52a6688f5471d775e
+size 348248442

checkpoint-4476/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9b13e86bcba94394bf12ff8abfa598710fc9c50d1845fe4f6e792d8df6573f7
+size 14244

checkpoint-4476/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c40ae8b796a630c2abc66d5298a9df375245f8f20f45a5830b71a71d3d3decc8
+size 1064

checkpoint-4476/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-4476/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

checkpoint-4476/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-4476/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

checkpoint-4476/trainer_state.json ADDED Viewed

	@@ -0,0 +1,122 @@

+{
+  "best_metric": 0.3326460123062134,
+  "best_model_checkpoint": "out/deberta-v3-small-bkl-multi/checkpoint-4476",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 4476,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.3351206434316354,
+      "grad_norm": 1.3047796487808228,
+      "learning_rate": 1.865951742627346e-05,
+      "loss": 0.4032,
+      "step": 500
+    },
+    {
+      "epoch": 0.6702412868632708,
+      "grad_norm": 0.7828705310821533,
+      "learning_rate": 1.731903485254692e-05,
+      "loss": 0.3503,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.2743503772003353,
+      "eval_f1": 0.7807241322816955,
+      "eval_loss": 0.34355366230010986,
+      "eval_roc_auc": 0.8276824995087615,
+      "eval_runtime": 20.9327,
+      "eval_samples_per_second": 569.923,
+      "eval_steps_per_second": 8.933,
+      "step": 1492
+    },
+    {
+      "epoch": 1.0053619302949062,
+      "grad_norm": 1.0840567350387573,
+      "learning_rate": 1.5978552278820375e-05,
+      "loss": 0.3432,
+      "step": 1500
+    },
+    {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 0.586756706237793,
+      "learning_rate": 1.4638069705093835e-05,
+      "loss": 0.3322,
+      "step": 2000
+    },
+    {
+      "epoch": 1.675603217158177,
+      "grad_norm": 0.6265957951545715,
+      "learning_rate": 1.3297587131367293e-05,
+      "loss": 0.3313,
+      "step": 2500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.28491198658843253,
+      "eval_f1": 0.7920844448532793,
+      "eval_loss": 0.3326815962791443,
+      "eval_roc_auc": 0.8374262996694112,
+      "eval_runtime": 20.987,
+      "eval_samples_per_second": 568.447,
+      "eval_steps_per_second": 8.91,
+      "step": 2984
+    },
+    {
+      "epoch": 2.0107238605898123,
+      "grad_norm": 0.7209903001785278,
+      "learning_rate": 1.1957104557640751e-05,
+      "loss": 0.3266,
+      "step": 3000
+    },
+    {
+      "epoch": 2.3458445040214477,
+      "grad_norm": 0.6551246643066406,
+      "learning_rate": 1.061662198391421e-05,
+      "loss": 0.3191,
+      "step": 3500
+    },
+    {
+      "epoch": 2.680965147453083,
+      "grad_norm": 0.9030967354774475,
+      "learning_rate": 9.276139410187667e-06,
+      "loss": 0.3199,
+      "step": 4000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.28499580888516346,
+      "eval_f1": 0.7939965223757665,
+      "eval_loss": 0.3326460123062134,
+      "eval_roc_auc": 0.8392196917667687,
+      "eval_runtime": 21.0081,
+      "eval_samples_per_second": 567.876,
+      "eval_steps_per_second": 8.901,
+      "step": 4476
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 7460,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7408602625928400.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-4476/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f19c3d98db4c53395f5f0a6d8d40c72eabb1f4e33e60306d839111edd328b17c
+size 5240

checkpoint-5968/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoint-5968/config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-small",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "problem_type": "multi_label_classification",
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

checkpoint-5968/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:510969a2a4d29d663348c7e910b7b5c62294f1f99e6b9d52c17fbe5dc90f7fe2
+size 567623168

checkpoint-5968/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a37ba2e604535b7c3d643f509cba82a1ee88825d03e3aa8d4b9a0183e2c47b8
+size 348248442

checkpoint-5968/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67e6c5945060618e21500affb098aac20a5128da9453fe56f55615834c573147
+size 14244

checkpoint-5968/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ad143173d23379f505622af31cae7e9b3adb721d50005d8e012fc6b41880d7b
+size 1064

checkpoint-5968/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-5968/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

checkpoint-5968/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-5968/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

checkpoint-5968/trainer_state.json ADDED Viewed

	@@ -0,0 +1,154 @@

+{
+  "best_metric": 0.3326460123062134,
+  "best_model_checkpoint": "out/deberta-v3-small-bkl-multi/checkpoint-4476",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 5968,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.3351206434316354,
+      "grad_norm": 1.3047796487808228,
+      "learning_rate": 1.865951742627346e-05,
+      "loss": 0.4032,
+      "step": 500
+    },
+    {
+      "epoch": 0.6702412868632708,
+      "grad_norm": 0.7828705310821533,
+      "learning_rate": 1.731903485254692e-05,
+      "loss": 0.3503,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.2743503772003353,
+      "eval_f1": 0.7807241322816955,
+      "eval_loss": 0.34355366230010986,
+      "eval_roc_auc": 0.8276824995087615,
+      "eval_runtime": 20.9327,
+      "eval_samples_per_second": 569.923,
+      "eval_steps_per_second": 8.933,
+      "step": 1492
+    },
+    {
+      "epoch": 1.0053619302949062,
+      "grad_norm": 1.0840567350387573,
+      "learning_rate": 1.5978552278820375e-05,
+      "loss": 0.3432,
+      "step": 1500
+    },
+    {
+      "epoch": 1.3404825737265416,
+      "grad_norm": 0.586756706237793,
+      "learning_rate": 1.4638069705093835e-05,
+      "loss": 0.3322,
+      "step": 2000
+    },
+    {
+      "epoch": 1.675603217158177,
+      "grad_norm": 0.6265957951545715,
+      "learning_rate": 1.3297587131367293e-05,
+      "loss": 0.3313,
+      "step": 2500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.28491198658843253,
+      "eval_f1": 0.7920844448532793,
+      "eval_loss": 0.3326815962791443,
+      "eval_roc_auc": 0.8374262996694112,
+      "eval_runtime": 20.987,
+      "eval_samples_per_second": 568.447,
+      "eval_steps_per_second": 8.91,
+      "step": 2984
+    },
+    {
+      "epoch": 2.0107238605898123,
+      "grad_norm": 0.7209903001785278,
+      "learning_rate": 1.1957104557640751e-05,
+      "loss": 0.3266,
+      "step": 3000
+    },
+    {
+      "epoch": 2.3458445040214477,
+      "grad_norm": 0.6551246643066406,
+      "learning_rate": 1.061662198391421e-05,
+      "loss": 0.3191,
+      "step": 3500
+    },
+    {
+      "epoch": 2.680965147453083,
+      "grad_norm": 0.9030967354774475,
+      "learning_rate": 9.276139410187667e-06,
+      "loss": 0.3199,
+      "step": 4000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.28499580888516346,
+      "eval_f1": 0.7939965223757665,
+      "eval_loss": 0.3326460123062134,
+      "eval_roc_auc": 0.8392196917667687,
+      "eval_runtime": 21.0081,
+      "eval_samples_per_second": 567.876,
+      "eval_steps_per_second": 8.901,
+      "step": 4476
+    },
+    {
+      "epoch": 3.0160857908847185,
+      "grad_norm": 1.185642123222351,
+      "learning_rate": 7.935656836461126e-06,
+      "loss": 0.3181,
+      "step": 4500
+    },
+    {
+      "epoch": 3.351206434316354,
+      "grad_norm": 0.6712960004806519,
+      "learning_rate": 6.595174262734585e-06,
+      "loss": 0.3117,
+      "step": 5000
+    },
+    {
+      "epoch": 3.6863270777479893,
+      "grad_norm": 0.9039814472198486,
+      "learning_rate": 5.254691689008043e-06,
+      "loss": 0.3103,
+      "step": 5500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.28767812238055324,
+      "eval_f1": 0.7908335467051512,
+      "eval_loss": 0.33351966738700867,
+      "eval_roc_auc": 0.8358048132071307,
+      "eval_runtime": 21.0091,
+      "eval_samples_per_second": 567.849,
+      "eval_steps_per_second": 8.901,
+      "step": 5968
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 7460,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9878136834571200.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-5968/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f19c3d98db4c53395f5f0a6d8d40c72eabb1f4e33e60306d839111edd328b17c
+size 5240

checkpoint-7460/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}