End of training

Files changed (5) hide show

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 license: mit
-base_model: microsoft/deberta-v3-large
 tags:
 - trl
 - reward-trainer
@@ -15,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 # deberta_value
-This model is a fine-tuned version of [microsoft/deberta-v3-large](https://huggingface.co/microsoft/deberta-v3-large) on the None dataset.
 ## Model description
@@ -35,14 +35,14 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 1.41e-05
-- train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 2
-- total_train_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 1.0
 ### Training results

 ---
 license: mit
+base_model: microsoft/deberta-v3-base
 tags:
 - trl
 - reward-trainer
 # deberta_value
+This model is a fine-tuned version of [microsoft/deberta-v3-base](https://huggingface.co/microsoft/deberta-v3-base) on an unknown dataset.
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 1.41e-05
+- train_batch_size: 16
 - eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 2
+- total_train_batch_size: 32
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 7.0
 ### Training results

config.json CHANGED Viewed

@@ -1,17 +1,17 @@
 {
-  "_name_or_path": "microsoft/deberta-v3-large",
   "architectures": [
     "DebertaV2ForSequenceClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
-  "hidden_size": 1024,
   "id2label": {
     "0": "LABEL_0"
   },
   "initializer_range": 0.02,
-  "intermediate_size": 4096,
   "label2id": {
     "LABEL_0": 0
   },
@@ -20,12 +20,12 @@
   "max_relative_positions": -1,
   "model_type": "deberta-v2",
   "norm_rel_ebd": "layer_norm",
-  "num_attention_heads": 16,
-  "num_hidden_layers": 24,
   "pad_token_id": 0,
   "pooler_dropout": 0,
   "pooler_hidden_act": "gelu",
-  "pooler_hidden_size": 1024,
   "pos_att_type": [
     "p2c",
     "c2p"

 {
+  "_name_or_path": "microsoft/deberta-v3-base",
   "architectures": [
     "DebertaV2ForSequenceClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
   "id2label": {
     "0": "LABEL_0"
   },
   "initializer_range": 0.02,
+  "intermediate_size": 3072,
   "label2id": {
     "LABEL_0": 0
   },
   "max_relative_positions": -1,
   "model_type": "deberta-v2",
   "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
   "pad_token_id": 0,
   "pooler_dropout": 0,
   "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
   "pos_att_type": [
     "p2c",
     "c2p"

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11e014e1ec1e7c9bcd6d04b1bc9a3f91a984588c4ebff4dbb98f52f205348668
-size 1740300340

 version https://git-lfs.github.com/spec/v1
+oid sha256:aef6ae9d50ff83438c67aa74cfcf070843258bded80e2994577ac4825decda04
+size 737716196

runs/Jun22_09-41-49_37299a5905a5/events.out.tfevents.1719049328.37299a5905a5.118.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:c06b894c9c275eec9a6082d75159181c63ab95b48665647c87d7fd18a0341ebc
+size 14658

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c176206597de2992b0aa97dc787964688039c098738164a842b04debf1f67bf
 size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc7ef297bfacf9acf1608362d0f86fb126ea9864b98b1bf753b5120a5ea43256
 size 5112