Ar4l commited on
Commit
d6f2afb
·
verified ·
1 Parent(s): d9b7b85

Upload folder using huggingface_hub

Browse files
all_results.json ADDED
@@ -0,0 +1,17 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 5.0,
3
+ "eval_accuracy": 0.8784565925598145,
4
+ "eval_f1": 0.8391068037456617,
5
+ "eval_loss": 0.6183628439903259,
6
+ "eval_mcc": 0.7416813202825935,
7
+ "eval_runtime": 28.8569,
8
+ "eval_samples": 20215,
9
+ "eval_samples_per_second": 700.527,
10
+ "eval_steps_per_second": 87.57,
11
+ "total_flos": 1.0733045580407808e+17,
12
+ "train_loss": 0.30088049875882883,
13
+ "train_runtime": 13193.5971,
14
+ "train_samples": 363846,
15
+ "train_samples_per_second": 137.887,
16
+ "train_steps_per_second": 17.236
17
+ }
checkpoint-227405/config.json ADDED
@@ -0,0 +1,33 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "/home/ubuntu/utah/babylm-24/data/training/models/10M_babylm_ascii/SPM-Unigram_6144/DebertaV2-Base-10M_babylm-A",
3
+ "architectures": [
4
+ "DebertaV2ForSequenceClassification"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.1,
9
+ "hidden_size": 768,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 1536,
12
+ "label2id": {
13
+ "0": 0,
14
+ "1": 1
15
+ },
16
+ "layer_norm_eps": 1e-07,
17
+ "max_position_embeddings": 512,
18
+ "max_relative_positions": -1,
19
+ "model_type": "deberta-v2",
20
+ "num_attention_heads": 12,
21
+ "num_hidden_layers": 8,
22
+ "pad_token_id": 3,
23
+ "pooler_dropout": 0,
24
+ "pooler_hidden_act": "gelu",
25
+ "pooler_hidden_size": 768,
26
+ "pos_att_type": null,
27
+ "position_biased_input": true,
28
+ "relative_attention": false,
29
+ "torch_dtype": "float32",
30
+ "transformers_version": "4.44.2",
31
+ "type_vocab_size": 0,
32
+ "vocab_size": 6144
33
+ }
checkpoint-227405/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f97daf1876bf1de0982be1e49272d7991694e777d6e5e7f809ada44173ab14fc
3
+ size 174103504
checkpoint-227405/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2be9c008806ab38c5516ad69b7d3d80ef03ec2c7a7cb1f4d4fe545fab3b9bb56
3
+ size 348288250
checkpoint-227405/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9b6475f62295571d6e9634b5d740df10500d0ff1f5a0cb3ebeb4c3c64bb96061
3
+ size 14244
checkpoint-227405/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1d490fad62f439b49a9541c861897b6eb5ee7cb21d7e65c81c059e82b4ce61e8
3
+ size 1064
checkpoint-227405/special_tokens_map.json ADDED
@@ -0,0 +1,30 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ }
30
+ }
checkpoint-227405/tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
checkpoint-227405/tokenizer_config.json ADDED
@@ -0,0 +1,67 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[UNK]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "[CLS]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "[SEP]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "[PAD]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "4": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ },
43
+ "5": {
44
+ "content": "[PAR]",
45
+ "lstrip": false,
46
+ "normalized": false,
47
+ "rstrip": false,
48
+ "single_word": false,
49
+ "special": true
50
+ },
51
+ "6": {
52
+ "content": "[TAB]",
53
+ "lstrip": false,
54
+ "normalized": false,
55
+ "rstrip": false,
56
+ "single_word": false,
57
+ "special": true
58
+ }
59
+ },
60
+ "clean_up_tokenization_spaces": false,
61
+ "cls_token": "[CLS]",
62
+ "mask_token": "[MASK]",
63
+ "model_max_length": 1000000000000000019884624838656,
64
+ "pad_token": "[PAD]",
65
+ "sep_token": "[SEP]",
66
+ "tokenizer_class": "PreTrainedTokenizerFast"
67
+ }
checkpoint-227405/trainer_state.json ADDED
@@ -0,0 +1,3275 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.8391068037456617,
3
+ "best_model_checkpoint": "/home/ubuntu/utah/babylm-24/src/evaluation/results/finetune/DebertaV2-Base-10M_babylm-A/qqp/checkpoint-227405",
4
+ "epoch": 5.0,
5
+ "eval_steps": 500,
6
+ "global_step": 227405,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.01099360172379675,
13
+ "grad_norm": 4.236701011657715,
14
+ "learning_rate": 2.993403838965722e-05,
15
+ "loss": 0.6086,
16
+ "step": 500
17
+ },
18
+ {
19
+ "epoch": 0.0219872034475935,
20
+ "grad_norm": 4.105135440826416,
21
+ "learning_rate": 2.986807677931444e-05,
22
+ "loss": 0.5618,
23
+ "step": 1000
24
+ },
25
+ {
26
+ "epoch": 0.03298080517139025,
27
+ "grad_norm": 5.613928318023682,
28
+ "learning_rate": 2.980211516897166e-05,
29
+ "loss": 0.5252,
30
+ "step": 1500
31
+ },
32
+ {
33
+ "epoch": 0.043974406895187,
34
+ "grad_norm": 12.754159927368164,
35
+ "learning_rate": 2.973615355862888e-05,
36
+ "loss": 0.5182,
37
+ "step": 2000
38
+ },
39
+ {
40
+ "epoch": 0.05496800861898375,
41
+ "grad_norm": 5.488389015197754,
42
+ "learning_rate": 2.9670191948286098e-05,
43
+ "loss": 0.505,
44
+ "step": 2500
45
+ },
46
+ {
47
+ "epoch": 0.0659616103427805,
48
+ "grad_norm": 5.46230936050415,
49
+ "learning_rate": 2.9604230337943316e-05,
50
+ "loss": 0.5044,
51
+ "step": 3000
52
+ },
53
+ {
54
+ "epoch": 0.07695521206657725,
55
+ "grad_norm": 13.249972343444824,
56
+ "learning_rate": 2.9538268727600537e-05,
57
+ "loss": 0.498,
58
+ "step": 3500
59
+ },
60
+ {
61
+ "epoch": 0.087948813790374,
62
+ "grad_norm": 13.043343544006348,
63
+ "learning_rate": 2.9472307117257757e-05,
64
+ "loss": 0.479,
65
+ "step": 4000
66
+ },
67
+ {
68
+ "epoch": 0.09894241551417075,
69
+ "grad_norm": 14.147295951843262,
70
+ "learning_rate": 2.9406345506914978e-05,
71
+ "loss": 0.4692,
72
+ "step": 4500
73
+ },
74
+ {
75
+ "epoch": 0.1099360172379675,
76
+ "grad_norm": 8.739255905151367,
77
+ "learning_rate": 2.9340383896572196e-05,
78
+ "loss": 0.4703,
79
+ "step": 5000
80
+ },
81
+ {
82
+ "epoch": 0.12092961896176425,
83
+ "grad_norm": 11.371148109436035,
84
+ "learning_rate": 2.9274422286229417e-05,
85
+ "loss": 0.4557,
86
+ "step": 5500
87
+ },
88
+ {
89
+ "epoch": 0.131923220685561,
90
+ "grad_norm": 8.44424057006836,
91
+ "learning_rate": 2.9208460675886637e-05,
92
+ "loss": 0.4635,
93
+ "step": 6000
94
+ },
95
+ {
96
+ "epoch": 0.14291682240935774,
97
+ "grad_norm": 3.9929113388061523,
98
+ "learning_rate": 2.914249906554385e-05,
99
+ "loss": 0.4651,
100
+ "step": 6500
101
+ },
102
+ {
103
+ "epoch": 0.1539104241331545,
104
+ "grad_norm": 3.4015634059906006,
105
+ "learning_rate": 2.9076537455201072e-05,
106
+ "loss": 0.4537,
107
+ "step": 7000
108
+ },
109
+ {
110
+ "epoch": 0.16490402585695124,
111
+ "grad_norm": 4.32379674911499,
112
+ "learning_rate": 2.9010575844858293e-05,
113
+ "loss": 0.4445,
114
+ "step": 7500
115
+ },
116
+ {
117
+ "epoch": 0.175897627580748,
118
+ "grad_norm": 5.210988521575928,
119
+ "learning_rate": 2.8944614234515514e-05,
120
+ "loss": 0.4326,
121
+ "step": 8000
122
+ },
123
+ {
124
+ "epoch": 0.18689122930454474,
125
+ "grad_norm": 3.908278226852417,
126
+ "learning_rate": 2.887865262417273e-05,
127
+ "loss": 0.4454,
128
+ "step": 8500
129
+ },
130
+ {
131
+ "epoch": 0.1978848310283415,
132
+ "grad_norm": 2.8256139755249023,
133
+ "learning_rate": 2.8812691013829952e-05,
134
+ "loss": 0.438,
135
+ "step": 9000
136
+ },
137
+ {
138
+ "epoch": 0.20887843275213824,
139
+ "grad_norm": 7.012328624725342,
140
+ "learning_rate": 2.8746729403487173e-05,
141
+ "loss": 0.4333,
142
+ "step": 9500
143
+ },
144
+ {
145
+ "epoch": 0.219872034475935,
146
+ "grad_norm": 5.030713081359863,
147
+ "learning_rate": 2.8680767793144394e-05,
148
+ "loss": 0.4588,
149
+ "step": 10000
150
+ },
151
+ {
152
+ "epoch": 0.23086563619973174,
153
+ "grad_norm": 10.047335624694824,
154
+ "learning_rate": 2.8614806182801608e-05,
155
+ "loss": 0.4418,
156
+ "step": 10500
157
+ },
158
+ {
159
+ "epoch": 0.2418592379235285,
160
+ "grad_norm": 5.562270164489746,
161
+ "learning_rate": 2.854884457245883e-05,
162
+ "loss": 0.4375,
163
+ "step": 11000
164
+ },
165
+ {
166
+ "epoch": 0.25285283964732524,
167
+ "grad_norm": 14.433082580566406,
168
+ "learning_rate": 2.848288296211605e-05,
169
+ "loss": 0.4278,
170
+ "step": 11500
171
+ },
172
+ {
173
+ "epoch": 0.263846441371122,
174
+ "grad_norm": 3.507910966873169,
175
+ "learning_rate": 2.8416921351773267e-05,
176
+ "loss": 0.4331,
177
+ "step": 12000
178
+ },
179
+ {
180
+ "epoch": 0.2748400430949188,
181
+ "grad_norm": 13.184822082519531,
182
+ "learning_rate": 2.8350959741430488e-05,
183
+ "loss": 0.4325,
184
+ "step": 12500
185
+ },
186
+ {
187
+ "epoch": 0.2858336448187155,
188
+ "grad_norm": 11.627528190612793,
189
+ "learning_rate": 2.828499813108771e-05,
190
+ "loss": 0.4283,
191
+ "step": 13000
192
+ },
193
+ {
194
+ "epoch": 0.29682724654251225,
195
+ "grad_norm": 4.054474830627441,
196
+ "learning_rate": 2.821903652074493e-05,
197
+ "loss": 0.4361,
198
+ "step": 13500
199
+ },
200
+ {
201
+ "epoch": 0.307820848266309,
202
+ "grad_norm": 7.193812847137451,
203
+ "learning_rate": 2.8153074910402147e-05,
204
+ "loss": 0.4251,
205
+ "step": 14000
206
+ },
207
+ {
208
+ "epoch": 0.3188144499901058,
209
+ "grad_norm": 4.036972999572754,
210
+ "learning_rate": 2.8087113300059365e-05,
211
+ "loss": 0.4233,
212
+ "step": 14500
213
+ },
214
+ {
215
+ "epoch": 0.3298080517139025,
216
+ "grad_norm": 6.451129913330078,
217
+ "learning_rate": 2.8021151689716586e-05,
218
+ "loss": 0.4407,
219
+ "step": 15000
220
+ },
221
+ {
222
+ "epoch": 0.34080165343769925,
223
+ "grad_norm": 6.5472612380981445,
224
+ "learning_rate": 2.7955190079373803e-05,
225
+ "loss": 0.4158,
226
+ "step": 15500
227
+ },
228
+ {
229
+ "epoch": 0.351795255161496,
230
+ "grad_norm": 16.589092254638672,
231
+ "learning_rate": 2.7889228469031024e-05,
232
+ "loss": 0.4261,
233
+ "step": 16000
234
+ },
235
+ {
236
+ "epoch": 0.3627888568852928,
237
+ "grad_norm": 6.696326732635498,
238
+ "learning_rate": 2.7823266858688245e-05,
239
+ "loss": 0.4111,
240
+ "step": 16500
241
+ },
242
+ {
243
+ "epoch": 0.3737824586090895,
244
+ "grad_norm": 4.396112442016602,
245
+ "learning_rate": 2.7757305248345466e-05,
246
+ "loss": 0.4236,
247
+ "step": 17000
248
+ },
249
+ {
250
+ "epoch": 0.38477606033288625,
251
+ "grad_norm": 7.1260986328125,
252
+ "learning_rate": 2.7691343638002683e-05,
253
+ "loss": 0.413,
254
+ "step": 17500
255
+ },
256
+ {
257
+ "epoch": 0.395769662056683,
258
+ "grad_norm": 8.553855895996094,
259
+ "learning_rate": 2.7625382027659904e-05,
260
+ "loss": 0.4105,
261
+ "step": 18000
262
+ },
263
+ {
264
+ "epoch": 0.4067632637804798,
265
+ "grad_norm": 1.411335825920105,
266
+ "learning_rate": 2.755942041731712e-05,
267
+ "loss": 0.3977,
268
+ "step": 18500
269
+ },
270
+ {
271
+ "epoch": 0.4177568655042765,
272
+ "grad_norm": 12.823638916015625,
273
+ "learning_rate": 2.7493458806974342e-05,
274
+ "loss": 0.4143,
275
+ "step": 19000
276
+ },
277
+ {
278
+ "epoch": 0.42875046722807325,
279
+ "grad_norm": 11.823991775512695,
280
+ "learning_rate": 2.742749719663156e-05,
281
+ "loss": 0.4002,
282
+ "step": 19500
283
+ },
284
+ {
285
+ "epoch": 0.43974406895187,
286
+ "grad_norm": 5.152065753936768,
287
+ "learning_rate": 2.736153558628878e-05,
288
+ "loss": 0.4001,
289
+ "step": 20000
290
+ },
291
+ {
292
+ "epoch": 0.4507376706756668,
293
+ "grad_norm": 2.0797653198242188,
294
+ "learning_rate": 2.7295573975946e-05,
295
+ "loss": 0.4137,
296
+ "step": 20500
297
+ },
298
+ {
299
+ "epoch": 0.4617312723994635,
300
+ "grad_norm": 5.874008655548096,
301
+ "learning_rate": 2.722961236560322e-05,
302
+ "loss": 0.4166,
303
+ "step": 21000
304
+ },
305
+ {
306
+ "epoch": 0.47272487412326025,
307
+ "grad_norm": 20.658824920654297,
308
+ "learning_rate": 2.716365075526044e-05,
309
+ "loss": 0.4072,
310
+ "step": 21500
311
+ },
312
+ {
313
+ "epoch": 0.483718475847057,
314
+ "grad_norm": 11.262660026550293,
315
+ "learning_rate": 2.709768914491766e-05,
316
+ "loss": 0.4048,
317
+ "step": 22000
318
+ },
319
+ {
320
+ "epoch": 0.4947120775708538,
321
+ "grad_norm": 8.16556167602539,
322
+ "learning_rate": 2.7031727534574878e-05,
323
+ "loss": 0.4059,
324
+ "step": 22500
325
+ },
326
+ {
327
+ "epoch": 0.5057056792946505,
328
+ "grad_norm": 12.176790237426758,
329
+ "learning_rate": 2.6965765924232095e-05,
330
+ "loss": 0.415,
331
+ "step": 23000
332
+ },
333
+ {
334
+ "epoch": 0.5166992810184473,
335
+ "grad_norm": 8.630789756774902,
336
+ "learning_rate": 2.6899804313889316e-05,
337
+ "loss": 0.4059,
338
+ "step": 23500
339
+ },
340
+ {
341
+ "epoch": 0.527692882742244,
342
+ "grad_norm": 11.014044761657715,
343
+ "learning_rate": 2.6833842703546537e-05,
344
+ "loss": 0.3804,
345
+ "step": 24000
346
+ },
347
+ {
348
+ "epoch": 0.5386864844660407,
349
+ "grad_norm": 12.287202835083008,
350
+ "learning_rate": 2.6767881093203758e-05,
351
+ "loss": 0.4046,
352
+ "step": 24500
353
+ },
354
+ {
355
+ "epoch": 0.5496800861898375,
356
+ "grad_norm": 6.118470668792725,
357
+ "learning_rate": 2.6701919482860975e-05,
358
+ "loss": 0.398,
359
+ "step": 25000
360
+ },
361
+ {
362
+ "epoch": 0.5606736879136343,
363
+ "grad_norm": 17.233190536499023,
364
+ "learning_rate": 2.6635957872518196e-05,
365
+ "loss": 0.4013,
366
+ "step": 25500
367
+ },
368
+ {
369
+ "epoch": 0.571667289637431,
370
+ "grad_norm": 15.902141571044922,
371
+ "learning_rate": 2.6569996262175417e-05,
372
+ "loss": 0.4158,
373
+ "step": 26000
374
+ },
375
+ {
376
+ "epoch": 0.5826608913612278,
377
+ "grad_norm": 6.975952625274658,
378
+ "learning_rate": 2.650403465183263e-05,
379
+ "loss": 0.3939,
380
+ "step": 26500
381
+ },
382
+ {
383
+ "epoch": 0.5936544930850245,
384
+ "grad_norm": 19.319835662841797,
385
+ "learning_rate": 2.6438073041489852e-05,
386
+ "loss": 0.4021,
387
+ "step": 27000
388
+ },
389
+ {
390
+ "epoch": 0.6046480948088213,
391
+ "grad_norm": 3.9395010471343994,
392
+ "learning_rate": 2.6372111431147073e-05,
393
+ "loss": 0.4015,
394
+ "step": 27500
395
+ },
396
+ {
397
+ "epoch": 0.615641696532618,
398
+ "grad_norm": 7.098001956939697,
399
+ "learning_rate": 2.6306149820804294e-05,
400
+ "loss": 0.3876,
401
+ "step": 28000
402
+ },
403
+ {
404
+ "epoch": 0.6266352982564147,
405
+ "grad_norm": 3.967722177505493,
406
+ "learning_rate": 2.624018821046151e-05,
407
+ "loss": 0.3935,
408
+ "step": 28500
409
+ },
410
+ {
411
+ "epoch": 0.6376288999802115,
412
+ "grad_norm": 5.257786273956299,
413
+ "learning_rate": 2.6174226600118732e-05,
414
+ "loss": 0.3959,
415
+ "step": 29000
416
+ },
417
+ {
418
+ "epoch": 0.6486225017040083,
419
+ "grad_norm": 17.10645294189453,
420
+ "learning_rate": 2.6108264989775953e-05,
421
+ "loss": 0.3948,
422
+ "step": 29500
423
+ },
424
+ {
425
+ "epoch": 0.659616103427805,
426
+ "grad_norm": 14.60950756072998,
427
+ "learning_rate": 2.6042303379433174e-05,
428
+ "loss": 0.4078,
429
+ "step": 30000
430
+ },
431
+ {
432
+ "epoch": 0.6706097051516018,
433
+ "grad_norm": 6.0776166915893555,
434
+ "learning_rate": 2.5976341769090388e-05,
435
+ "loss": 0.3831,
436
+ "step": 30500
437
+ },
438
+ {
439
+ "epoch": 0.6816033068753985,
440
+ "grad_norm": 1.830690622329712,
441
+ "learning_rate": 2.591038015874761e-05,
442
+ "loss": 0.3911,
443
+ "step": 31000
444
+ },
445
+ {
446
+ "epoch": 0.6925969085991953,
447
+ "grad_norm": 16.717496871948242,
448
+ "learning_rate": 2.584441854840483e-05,
449
+ "loss": 0.3926,
450
+ "step": 31500
451
+ },
452
+ {
453
+ "epoch": 0.703590510322992,
454
+ "grad_norm": 4.424517631530762,
455
+ "learning_rate": 2.5778456938062047e-05,
456
+ "loss": 0.3931,
457
+ "step": 32000
458
+ },
459
+ {
460
+ "epoch": 0.7145841120467887,
461
+ "grad_norm": 6.995429992675781,
462
+ "learning_rate": 2.5712495327719268e-05,
463
+ "loss": 0.3912,
464
+ "step": 32500
465
+ },
466
+ {
467
+ "epoch": 0.7255777137705856,
468
+ "grad_norm": 6.78953742980957,
469
+ "learning_rate": 2.564653371737649e-05,
470
+ "loss": 0.3858,
471
+ "step": 33000
472
+ },
473
+ {
474
+ "epoch": 0.7365713154943823,
475
+ "grad_norm": 12.592966079711914,
476
+ "learning_rate": 2.558057210703371e-05,
477
+ "loss": 0.3822,
478
+ "step": 33500
479
+ },
480
+ {
481
+ "epoch": 0.747564917218179,
482
+ "grad_norm": 1.8982641696929932,
483
+ "learning_rate": 2.5514610496690927e-05,
484
+ "loss": 0.3964,
485
+ "step": 34000
486
+ },
487
+ {
488
+ "epoch": 0.7585585189419758,
489
+ "grad_norm": 3.2166171073913574,
490
+ "learning_rate": 2.5448648886348144e-05,
491
+ "loss": 0.3902,
492
+ "step": 34500
493
+ },
494
+ {
495
+ "epoch": 0.7695521206657725,
496
+ "grad_norm": 10.258162498474121,
497
+ "learning_rate": 2.5382687276005365e-05,
498
+ "loss": 0.3691,
499
+ "step": 35000
500
+ },
501
+ {
502
+ "epoch": 0.7805457223895693,
503
+ "grad_norm": 2.9836630821228027,
504
+ "learning_rate": 2.5316725665662583e-05,
505
+ "loss": 0.3937,
506
+ "step": 35500
507
+ },
508
+ {
509
+ "epoch": 0.791539324113366,
510
+ "grad_norm": 10.085326194763184,
511
+ "learning_rate": 2.5250764055319804e-05,
512
+ "loss": 0.3897,
513
+ "step": 36000
514
+ },
515
+ {
516
+ "epoch": 0.8025329258371627,
517
+ "grad_norm": 8.519903182983398,
518
+ "learning_rate": 2.5184802444977024e-05,
519
+ "loss": 0.361,
520
+ "step": 36500
521
+ },
522
+ {
523
+ "epoch": 0.8135265275609596,
524
+ "grad_norm": 4.746450901031494,
525
+ "learning_rate": 2.5118840834634245e-05,
526
+ "loss": 0.3845,
527
+ "step": 37000
528
+ },
529
+ {
530
+ "epoch": 0.8245201292847563,
531
+ "grad_norm": 13.058253288269043,
532
+ "learning_rate": 2.5052879224291463e-05,
533
+ "loss": 0.3871,
534
+ "step": 37500
535
+ },
536
+ {
537
+ "epoch": 0.835513731008553,
538
+ "grad_norm": 2.8094441890716553,
539
+ "learning_rate": 2.4986917613948684e-05,
540
+ "loss": 0.4012,
541
+ "step": 38000
542
+ },
543
+ {
544
+ "epoch": 0.8465073327323498,
545
+ "grad_norm": 4.1435770988464355,
546
+ "learning_rate": 2.49209560036059e-05,
547
+ "loss": 0.3802,
548
+ "step": 38500
549
+ },
550
+ {
551
+ "epoch": 0.8575009344561465,
552
+ "grad_norm": 12.436211585998535,
553
+ "learning_rate": 2.4854994393263122e-05,
554
+ "loss": 0.3705,
555
+ "step": 39000
556
+ },
557
+ {
558
+ "epoch": 0.8684945361799433,
559
+ "grad_norm": 16.29452133178711,
560
+ "learning_rate": 2.478903278292034e-05,
561
+ "loss": 0.3921,
562
+ "step": 39500
563
+ },
564
+ {
565
+ "epoch": 0.87948813790374,
566
+ "grad_norm": 6.898037910461426,
567
+ "learning_rate": 2.472307117257756e-05,
568
+ "loss": 0.3925,
569
+ "step": 40000
570
+ },
571
+ {
572
+ "epoch": 0.8904817396275367,
573
+ "grad_norm": 6.402541160583496,
574
+ "learning_rate": 2.465710956223478e-05,
575
+ "loss": 0.3771,
576
+ "step": 40500
577
+ },
578
+ {
579
+ "epoch": 0.9014753413513336,
580
+ "grad_norm": 3.24283504486084,
581
+ "learning_rate": 2.4591147951892e-05,
582
+ "loss": 0.3698,
583
+ "step": 41000
584
+ },
585
+ {
586
+ "epoch": 0.9124689430751303,
587
+ "grad_norm": 7.773282527923584,
588
+ "learning_rate": 2.452518634154922e-05,
589
+ "loss": 0.3823,
590
+ "step": 41500
591
+ },
592
+ {
593
+ "epoch": 0.923462544798927,
594
+ "grad_norm": 4.645416736602783,
595
+ "learning_rate": 2.445922473120644e-05,
596
+ "loss": 0.3792,
597
+ "step": 42000
598
+ },
599
+ {
600
+ "epoch": 0.9344561465227238,
601
+ "grad_norm": 8.859955787658691,
602
+ "learning_rate": 2.4393263120863658e-05,
603
+ "loss": 0.3988,
604
+ "step": 42500
605
+ },
606
+ {
607
+ "epoch": 0.9454497482465205,
608
+ "grad_norm": 5.384950160980225,
609
+ "learning_rate": 2.4327301510520875e-05,
610
+ "loss": 0.367,
611
+ "step": 43000
612
+ },
613
+ {
614
+ "epoch": 0.9564433499703173,
615
+ "grad_norm": 21.994779586791992,
616
+ "learning_rate": 2.4261339900178096e-05,
617
+ "loss": 0.3768,
618
+ "step": 43500
619
+ },
620
+ {
621
+ "epoch": 0.967436951694114,
622
+ "grad_norm": 9.221137046813965,
623
+ "learning_rate": 2.4195378289835317e-05,
624
+ "loss": 0.3767,
625
+ "step": 44000
626
+ },
627
+ {
628
+ "epoch": 0.9784305534179107,
629
+ "grad_norm": 1.9626529216766357,
630
+ "learning_rate": 2.4129416679492538e-05,
631
+ "loss": 0.3626,
632
+ "step": 44500
633
+ },
634
+ {
635
+ "epoch": 0.9894241551417076,
636
+ "grad_norm": 19.04450798034668,
637
+ "learning_rate": 2.4063455069149755e-05,
638
+ "loss": 0.3754,
639
+ "step": 45000
640
+ },
641
+ {
642
+ "epoch": 1.0,
643
+ "eval_accuracy": 0.8456591367721558,
644
+ "eval_f1": 0.7902943944078505,
645
+ "eval_loss": 0.37383726239204407,
646
+ "eval_mcc": 0.6683280718139261,
647
+ "eval_runtime": 29.7825,
648
+ "eval_samples_per_second": 678.754,
649
+ "eval_steps_per_second": 84.848,
650
+ "step": 45481
651
+ },
652
+ {
653
+ "epoch": 1.0004177568655044,
654
+ "grad_norm": 14.85083293914795,
655
+ "learning_rate": 2.3997493458806976e-05,
656
+ "loss": 0.3783,
657
+ "step": 45500
658
+ },
659
+ {
660
+ "epoch": 1.011411358589301,
661
+ "grad_norm": 7.004974365234375,
662
+ "learning_rate": 2.3931531848464197e-05,
663
+ "loss": 0.3307,
664
+ "step": 46000
665
+ },
666
+ {
667
+ "epoch": 1.0224049603130978,
668
+ "grad_norm": 1.900647759437561,
669
+ "learning_rate": 2.386557023812141e-05,
670
+ "loss": 0.3454,
671
+ "step": 46500
672
+ },
673
+ {
674
+ "epoch": 1.0333985620368946,
675
+ "grad_norm": 13.517301559448242,
676
+ "learning_rate": 2.379960862777863e-05,
677
+ "loss": 0.3404,
678
+ "step": 47000
679
+ },
680
+ {
681
+ "epoch": 1.0443921637606912,
682
+ "grad_norm": 11.086533546447754,
683
+ "learning_rate": 2.3733647017435853e-05,
684
+ "loss": 0.344,
685
+ "step": 47500
686
+ },
687
+ {
688
+ "epoch": 1.055385765484488,
689
+ "grad_norm": 1.5423752069473267,
690
+ "learning_rate": 2.3667685407093073e-05,
691
+ "loss": 0.348,
692
+ "step": 48000
693
+ },
694
+ {
695
+ "epoch": 1.0663793672082849,
696
+ "grad_norm": 13.40974235534668,
697
+ "learning_rate": 2.360172379675029e-05,
698
+ "loss": 0.3353,
699
+ "step": 48500
700
+ },
701
+ {
702
+ "epoch": 1.0773729689320815,
703
+ "grad_norm": 8.961548805236816,
704
+ "learning_rate": 2.353576218640751e-05,
705
+ "loss": 0.3442,
706
+ "step": 49000
707
+ },
708
+ {
709
+ "epoch": 1.0883665706558783,
710
+ "grad_norm": 6.879663944244385,
711
+ "learning_rate": 2.3469800576064733e-05,
712
+ "loss": 0.331,
713
+ "step": 49500
714
+ },
715
+ {
716
+ "epoch": 1.099360172379675,
717
+ "grad_norm": 10.819347381591797,
718
+ "learning_rate": 2.3403838965721953e-05,
719
+ "loss": 0.3431,
720
+ "step": 50000
721
+ },
722
+ {
723
+ "epoch": 1.1103537741034717,
724
+ "grad_norm": 18.258974075317383,
725
+ "learning_rate": 2.3337877355379167e-05,
726
+ "loss": 0.3468,
727
+ "step": 50500
728
+ },
729
+ {
730
+ "epoch": 1.1213473758272685,
731
+ "grad_norm": 11.075167655944824,
732
+ "learning_rate": 2.3271915745036388e-05,
733
+ "loss": 0.3313,
734
+ "step": 51000
735
+ },
736
+ {
737
+ "epoch": 1.1323409775510653,
738
+ "grad_norm": 13.255118370056152,
739
+ "learning_rate": 2.320595413469361e-05,
740
+ "loss": 0.3379,
741
+ "step": 51500
742
+ },
743
+ {
744
+ "epoch": 1.1433345792748622,
745
+ "grad_norm": 9.165648460388184,
746
+ "learning_rate": 2.3139992524350827e-05,
747
+ "loss": 0.3402,
748
+ "step": 52000
749
+ },
750
+ {
751
+ "epoch": 1.1543281809986587,
752
+ "grad_norm": 20.563486099243164,
753
+ "learning_rate": 2.3074030914008047e-05,
754
+ "loss": 0.3429,
755
+ "step": 52500
756
+ },
757
+ {
758
+ "epoch": 1.1653217827224556,
759
+ "grad_norm": 23.879840850830078,
760
+ "learning_rate": 2.3008069303665268e-05,
761
+ "loss": 0.3437,
762
+ "step": 53000
763
+ },
764
+ {
765
+ "epoch": 1.1763153844462524,
766
+ "grad_norm": 16.95256996154785,
767
+ "learning_rate": 2.294210769332249e-05,
768
+ "loss": 0.3484,
769
+ "step": 53500
770
+ },
771
+ {
772
+ "epoch": 1.187308986170049,
773
+ "grad_norm": 23.673189163208008,
774
+ "learning_rate": 2.2876146082979707e-05,
775
+ "loss": 0.3175,
776
+ "step": 54000
777
+ },
778
+ {
779
+ "epoch": 1.1983025878938458,
780
+ "grad_norm": 12.443720817565918,
781
+ "learning_rate": 2.2810184472636927e-05,
782
+ "loss": 0.3471,
783
+ "step": 54500
784
+ },
785
+ {
786
+ "epoch": 1.2092961896176426,
787
+ "grad_norm": 6.558742046356201,
788
+ "learning_rate": 2.2744222862294145e-05,
789
+ "loss": 0.3463,
790
+ "step": 55000
791
+ },
792
+ {
793
+ "epoch": 1.2202897913414392,
794
+ "grad_norm": 3.0714826583862305,
795
+ "learning_rate": 2.2678261251951362e-05,
796
+ "loss": 0.3352,
797
+ "step": 55500
798
+ },
799
+ {
800
+ "epoch": 1.231283393065236,
801
+ "grad_norm": 6.919187068939209,
802
+ "learning_rate": 2.2612299641608583e-05,
803
+ "loss": 0.335,
804
+ "step": 56000
805
+ },
806
+ {
807
+ "epoch": 1.2422769947890329,
808
+ "grad_norm": 8.951086044311523,
809
+ "learning_rate": 2.2546338031265804e-05,
810
+ "loss": 0.3437,
811
+ "step": 56500
812
+ },
813
+ {
814
+ "epoch": 1.2532705965128295,
815
+ "grad_norm": 81.6339111328125,
816
+ "learning_rate": 2.2480376420923025e-05,
817
+ "loss": 0.318,
818
+ "step": 57000
819
+ },
820
+ {
821
+ "epoch": 1.2642641982366263,
822
+ "grad_norm": 10.197173118591309,
823
+ "learning_rate": 2.2414414810580242e-05,
824
+ "loss": 0.3478,
825
+ "step": 57500
826
+ },
827
+ {
828
+ "epoch": 1.275257799960423,
829
+ "grad_norm": 3.3102078437805176,
830
+ "learning_rate": 2.2348453200237463e-05,
831
+ "loss": 0.3316,
832
+ "step": 58000
833
+ },
834
+ {
835
+ "epoch": 1.2862514016842197,
836
+ "grad_norm": 7.871964454650879,
837
+ "learning_rate": 2.2282491589894684e-05,
838
+ "loss": 0.3329,
839
+ "step": 58500
840
+ },
841
+ {
842
+ "epoch": 1.2972450034080165,
843
+ "grad_norm": 13.741714477539062,
844
+ "learning_rate": 2.22165299795519e-05,
845
+ "loss": 0.3285,
846
+ "step": 59000
847
+ },
848
+ {
849
+ "epoch": 1.3082386051318133,
850
+ "grad_norm": 5.765045166015625,
851
+ "learning_rate": 2.215056836920912e-05,
852
+ "loss": 0.3363,
853
+ "step": 59500
854
+ },
855
+ {
856
+ "epoch": 1.31923220685561,
857
+ "grad_norm": 21.365049362182617,
858
+ "learning_rate": 2.208460675886634e-05,
859
+ "loss": 0.3475,
860
+ "step": 60000
861
+ },
862
+ {
863
+ "epoch": 1.3302258085794068,
864
+ "grad_norm": 16.869543075561523,
865
+ "learning_rate": 2.201864514852356e-05,
866
+ "loss": 0.3252,
867
+ "step": 60500
868
+ },
869
+ {
870
+ "epoch": 1.3412194103032036,
871
+ "grad_norm": 31.089399337768555,
872
+ "learning_rate": 2.1952683538180778e-05,
873
+ "loss": 0.3344,
874
+ "step": 61000
875
+ },
876
+ {
877
+ "epoch": 1.3522130120270002,
878
+ "grad_norm": 11.333529472351074,
879
+ "learning_rate": 2.1886721927838e-05,
880
+ "loss": 0.3641,
881
+ "step": 61500
882
+ },
883
+ {
884
+ "epoch": 1.363206613750797,
885
+ "grad_norm": 9.713915824890137,
886
+ "learning_rate": 2.182076031749522e-05,
887
+ "loss": 0.3415,
888
+ "step": 62000
889
+ },
890
+ {
891
+ "epoch": 1.3742002154745938,
892
+ "grad_norm": 8.068568229675293,
893
+ "learning_rate": 2.175479870715244e-05,
894
+ "loss": 0.3591,
895
+ "step": 62500
896
+ },
897
+ {
898
+ "epoch": 1.3851938171983904,
899
+ "grad_norm": 19.801572799682617,
900
+ "learning_rate": 2.1688837096809655e-05,
901
+ "loss": 0.335,
902
+ "step": 63000
903
+ },
904
+ {
905
+ "epoch": 1.3961874189221872,
906
+ "grad_norm": 28.160655975341797,
907
+ "learning_rate": 2.1622875486466876e-05,
908
+ "loss": 0.3374,
909
+ "step": 63500
910
+ },
911
+ {
912
+ "epoch": 1.407181020645984,
913
+ "grad_norm": 2.872919797897339,
914
+ "learning_rate": 2.1556913876124096e-05,
915
+ "loss": 0.3403,
916
+ "step": 64000
917
+ },
918
+ {
919
+ "epoch": 1.4181746223697809,
920
+ "grad_norm": 2.8728220462799072,
921
+ "learning_rate": 2.1490952265781317e-05,
922
+ "loss": 0.3384,
923
+ "step": 64500
924
+ },
925
+ {
926
+ "epoch": 1.4291682240935775,
927
+ "grad_norm": 5.093236923217773,
928
+ "learning_rate": 2.1424990655438535e-05,
929
+ "loss": 0.3305,
930
+ "step": 65000
931
+ },
932
+ {
933
+ "epoch": 1.4401618258173743,
934
+ "grad_norm": 17.081308364868164,
935
+ "learning_rate": 2.1359029045095756e-05,
936
+ "loss": 0.3589,
937
+ "step": 65500
938
+ },
939
+ {
940
+ "epoch": 1.451155427541171,
941
+ "grad_norm": 2.3248064517974854,
942
+ "learning_rate": 2.1293067434752976e-05,
943
+ "loss": 0.3313,
944
+ "step": 66000
945
+ },
946
+ {
947
+ "epoch": 1.462149029264968,
948
+ "grad_norm": 24.70163917541504,
949
+ "learning_rate": 2.1227105824410194e-05,
950
+ "loss": 0.3338,
951
+ "step": 66500
952
+ },
953
+ {
954
+ "epoch": 1.4731426309887645,
955
+ "grad_norm": 19.80680274963379,
956
+ "learning_rate": 2.116114421406741e-05,
957
+ "loss": 0.3487,
958
+ "step": 67000
959
+ },
960
+ {
961
+ "epoch": 1.4841362327125613,
962
+ "grad_norm": 2.365659713745117,
963
+ "learning_rate": 2.1095182603724632e-05,
964
+ "loss": 0.3479,
965
+ "step": 67500
966
+ },
967
+ {
968
+ "epoch": 1.4951298344363582,
969
+ "grad_norm": 2.9082655906677246,
970
+ "learning_rate": 2.1029220993381853e-05,
971
+ "loss": 0.3427,
972
+ "step": 68000
973
+ },
974
+ {
975
+ "epoch": 1.5061234361601548,
976
+ "grad_norm": 1.5247036218643188,
977
+ "learning_rate": 2.096325938303907e-05,
978
+ "loss": 0.321,
979
+ "step": 68500
980
+ },
981
+ {
982
+ "epoch": 1.5171170378839516,
983
+ "grad_norm": 13.082464218139648,
984
+ "learning_rate": 2.089729777269629e-05,
985
+ "loss": 0.347,
986
+ "step": 69000
987
+ },
988
+ {
989
+ "epoch": 1.5281106396077484,
990
+ "grad_norm": 32.83438491821289,
991
+ "learning_rate": 2.0831336162353512e-05,
992
+ "loss": 0.3382,
993
+ "step": 69500
994
+ },
995
+ {
996
+ "epoch": 1.539104241331545,
997
+ "grad_norm": 19.514705657958984,
998
+ "learning_rate": 2.0765374552010733e-05,
999
+ "loss": 0.334,
1000
+ "step": 70000
1001
+ },
1002
+ {
1003
+ "epoch": 1.5500978430553418,
1004
+ "grad_norm": 11.129077911376953,
1005
+ "learning_rate": 2.069941294166795e-05,
1006
+ "loss": 0.3376,
1007
+ "step": 70500
1008
+ },
1009
+ {
1010
+ "epoch": 1.5610914447791386,
1011
+ "grad_norm": 14.449658393859863,
1012
+ "learning_rate": 2.0633451331325168e-05,
1013
+ "loss": 0.3297,
1014
+ "step": 71000
1015
+ },
1016
+ {
1017
+ "epoch": 1.5720850465029352,
1018
+ "grad_norm": 4.129580974578857,
1019
+ "learning_rate": 2.056748972098239e-05,
1020
+ "loss": 0.3405,
1021
+ "step": 71500
1022
+ },
1023
+ {
1024
+ "epoch": 1.583078648226732,
1025
+ "grad_norm": 4.104194164276123,
1026
+ "learning_rate": 2.0501528110639606e-05,
1027
+ "loss": 0.3327,
1028
+ "step": 72000
1029
+ },
1030
+ {
1031
+ "epoch": 1.5940722499505289,
1032
+ "grad_norm": 12.376803398132324,
1033
+ "learning_rate": 2.0435566500296827e-05,
1034
+ "loss": 0.3178,
1035
+ "step": 72500
1036
+ },
1037
+ {
1038
+ "epoch": 1.6050658516743255,
1039
+ "grad_norm": 18.45488739013672,
1040
+ "learning_rate": 2.0369604889954048e-05,
1041
+ "loss": 0.3457,
1042
+ "step": 73000
1043
+ },
1044
+ {
1045
+ "epoch": 1.6160594533981223,
1046
+ "grad_norm": 6.8812174797058105,
1047
+ "learning_rate": 2.030364327961127e-05,
1048
+ "loss": 0.3452,
1049
+ "step": 73500
1050
+ },
1051
+ {
1052
+ "epoch": 1.6270530551219191,
1053
+ "grad_norm": 3.4659981727600098,
1054
+ "learning_rate": 2.0237681669268486e-05,
1055
+ "loss": 0.3407,
1056
+ "step": 74000
1057
+ },
1058
+ {
1059
+ "epoch": 1.6380466568457157,
1060
+ "grad_norm": 21.697237014770508,
1061
+ "learning_rate": 2.0171720058925707e-05,
1062
+ "loss": 0.3493,
1063
+ "step": 74500
1064
+ },
1065
+ {
1066
+ "epoch": 1.6490402585695125,
1067
+ "grad_norm": 20.997262954711914,
1068
+ "learning_rate": 2.0105758448582925e-05,
1069
+ "loss": 0.3453,
1070
+ "step": 75000
1071
+ },
1072
+ {
1073
+ "epoch": 1.6600338602933093,
1074
+ "grad_norm": 8.582404136657715,
1075
+ "learning_rate": 2.0039796838240142e-05,
1076
+ "loss": 0.344,
1077
+ "step": 75500
1078
+ },
1079
+ {
1080
+ "epoch": 1.671027462017106,
1081
+ "grad_norm": 15.028887748718262,
1082
+ "learning_rate": 1.9973835227897363e-05,
1083
+ "loss": 0.3428,
1084
+ "step": 76000
1085
+ },
1086
+ {
1087
+ "epoch": 1.6820210637409028,
1088
+ "grad_norm": 15.200948715209961,
1089
+ "learning_rate": 1.9907873617554584e-05,
1090
+ "loss": 0.3531,
1091
+ "step": 76500
1092
+ },
1093
+ {
1094
+ "epoch": 1.6930146654646996,
1095
+ "grad_norm": 12.243021011352539,
1096
+ "learning_rate": 1.9841912007211805e-05,
1097
+ "loss": 0.3288,
1098
+ "step": 77000
1099
+ },
1100
+ {
1101
+ "epoch": 1.7040082671884962,
1102
+ "grad_norm": 0.7417749166488647,
1103
+ "learning_rate": 1.9775950396869022e-05,
1104
+ "loss": 0.3305,
1105
+ "step": 77500
1106
+ },
1107
+ {
1108
+ "epoch": 1.715001868912293,
1109
+ "grad_norm": 12.099386215209961,
1110
+ "learning_rate": 1.9709988786526243e-05,
1111
+ "loss": 0.3521,
1112
+ "step": 78000
1113
+ },
1114
+ {
1115
+ "epoch": 1.7259954706360898,
1116
+ "grad_norm": 10.566434860229492,
1117
+ "learning_rate": 1.9644027176183464e-05,
1118
+ "loss": 0.3466,
1119
+ "step": 78500
1120
+ },
1121
+ {
1122
+ "epoch": 1.7369890723598864,
1123
+ "grad_norm": 1.6488581895828247,
1124
+ "learning_rate": 1.957806556584068e-05,
1125
+ "loss": 0.3453,
1126
+ "step": 79000
1127
+ },
1128
+ {
1129
+ "epoch": 1.7479826740836832,
1130
+ "grad_norm": 15.446043968200684,
1131
+ "learning_rate": 1.95121039554979e-05,
1132
+ "loss": 0.3547,
1133
+ "step": 79500
1134
+ },
1135
+ {
1136
+ "epoch": 1.75897627580748,
1137
+ "grad_norm": 3.6907153129577637,
1138
+ "learning_rate": 1.944614234515512e-05,
1139
+ "loss": 0.3346,
1140
+ "step": 80000
1141
+ },
1142
+ {
1143
+ "epoch": 1.7699698775312767,
1144
+ "grad_norm": 13.95593547821045,
1145
+ "learning_rate": 1.938018073481234e-05,
1146
+ "loss": 0.3325,
1147
+ "step": 80500
1148
+ },
1149
+ {
1150
+ "epoch": 1.7809634792550737,
1151
+ "grad_norm": 7.613198757171631,
1152
+ "learning_rate": 1.9314219124469558e-05,
1153
+ "loss": 0.3302,
1154
+ "step": 81000
1155
+ },
1156
+ {
1157
+ "epoch": 1.7919570809788703,
1158
+ "grad_norm": 17.56180191040039,
1159
+ "learning_rate": 1.924825751412678e-05,
1160
+ "loss": 0.3303,
1161
+ "step": 81500
1162
+ },
1163
+ {
1164
+ "epoch": 1.802950682702667,
1165
+ "grad_norm": 30.033525466918945,
1166
+ "learning_rate": 1.9182295903784e-05,
1167
+ "loss": 0.327,
1168
+ "step": 82000
1169
+ },
1170
+ {
1171
+ "epoch": 1.813944284426464,
1172
+ "grad_norm": 2.658094644546509,
1173
+ "learning_rate": 1.911633429344122e-05,
1174
+ "loss": 0.3462,
1175
+ "step": 82500
1176
+ },
1177
+ {
1178
+ "epoch": 1.8249378861502605,
1179
+ "grad_norm": 8.311567306518555,
1180
+ "learning_rate": 1.9050372683098434e-05,
1181
+ "loss": 0.3347,
1182
+ "step": 83000
1183
+ },
1184
+ {
1185
+ "epoch": 1.8359314878740571,
1186
+ "grad_norm": 17.150461196899414,
1187
+ "learning_rate": 1.8984411072755655e-05,
1188
+ "loss": 0.3282,
1189
+ "step": 83500
1190
+ },
1191
+ {
1192
+ "epoch": 1.8469250895978542,
1193
+ "grad_norm": 10.157220840454102,
1194
+ "learning_rate": 1.8918449462412876e-05,
1195
+ "loss": 0.3193,
1196
+ "step": 84000
1197
+ },
1198
+ {
1199
+ "epoch": 1.8579186913216508,
1200
+ "grad_norm": 4.80257511138916,
1201
+ "learning_rate": 1.8852487852070097e-05,
1202
+ "loss": 0.3541,
1203
+ "step": 84500
1204
+ },
1205
+ {
1206
+ "epoch": 1.8689122930454476,
1207
+ "grad_norm": 3.8798446655273438,
1208
+ "learning_rate": 1.8786526241727314e-05,
1209
+ "loss": 0.3483,
1210
+ "step": 85000
1211
+ },
1212
+ {
1213
+ "epoch": 1.8799058947692444,
1214
+ "grad_norm": 8.881115913391113,
1215
+ "learning_rate": 1.8720564631384535e-05,
1216
+ "loss": 0.3302,
1217
+ "step": 85500
1218
+ },
1219
+ {
1220
+ "epoch": 1.890899496493041,
1221
+ "grad_norm": 0.945717453956604,
1222
+ "learning_rate": 1.8654603021041756e-05,
1223
+ "loss": 0.336,
1224
+ "step": 86000
1225
+ },
1226
+ {
1227
+ "epoch": 1.9018930982168378,
1228
+ "grad_norm": 5.144163608551025,
1229
+ "learning_rate": 1.8588641410698974e-05,
1230
+ "loss": 0.3148,
1231
+ "step": 86500
1232
+ },
1233
+ {
1234
+ "epoch": 1.9128866999406346,
1235
+ "grad_norm": 1.5305918455123901,
1236
+ "learning_rate": 1.852267980035619e-05,
1237
+ "loss": 0.3395,
1238
+ "step": 87000
1239
+ },
1240
+ {
1241
+ "epoch": 1.9238803016644312,
1242
+ "grad_norm": 15.06664752960205,
1243
+ "learning_rate": 1.8456718190013412e-05,
1244
+ "loss": 0.341,
1245
+ "step": 87500
1246
+ },
1247
+ {
1248
+ "epoch": 1.934873903388228,
1249
+ "grad_norm": 33.20983123779297,
1250
+ "learning_rate": 1.8390756579670633e-05,
1251
+ "loss": 0.3619,
1252
+ "step": 88000
1253
+ },
1254
+ {
1255
+ "epoch": 1.9458675051120249,
1256
+ "grad_norm": 11.427024841308594,
1257
+ "learning_rate": 1.832479496932785e-05,
1258
+ "loss": 0.3474,
1259
+ "step": 88500
1260
+ },
1261
+ {
1262
+ "epoch": 1.9568611068358215,
1263
+ "grad_norm": 23.793506622314453,
1264
+ "learning_rate": 1.825883335898507e-05,
1265
+ "loss": 0.321,
1266
+ "step": 89000
1267
+ },
1268
+ {
1269
+ "epoch": 1.9678547085596183,
1270
+ "grad_norm": 3.9075679779052734,
1271
+ "learning_rate": 1.8192871748642292e-05,
1272
+ "loss": 0.33,
1273
+ "step": 89500
1274
+ },
1275
+ {
1276
+ "epoch": 1.9788483102834151,
1277
+ "grad_norm": 1.7106132507324219,
1278
+ "learning_rate": 1.8126910138299513e-05,
1279
+ "loss": 0.3562,
1280
+ "step": 90000
1281
+ },
1282
+ {
1283
+ "epoch": 1.9898419120072117,
1284
+ "grad_norm": 1.6460707187652588,
1285
+ "learning_rate": 1.806094852795673e-05,
1286
+ "loss": 0.3378,
1287
+ "step": 90500
1288
+ },
1289
+ {
1290
+ "epoch": 2.0,
1291
+ "eval_accuracy": 0.8638139963150024,
1292
+ "eval_f1": 0.8192264758027448,
1293
+ "eval_loss": 0.3989393711090088,
1294
+ "eval_mcc": 0.7101352338901957,
1295
+ "eval_runtime": 29.2332,
1296
+ "eval_samples_per_second": 691.508,
1297
+ "eval_steps_per_second": 86.443,
1298
+ "step": 90962
1299
+ },
1300
+ {
1301
+ "epoch": 2.0008355137310088,
1302
+ "grad_norm": 0.9355267882347107,
1303
+ "learning_rate": 1.7994986917613948e-05,
1304
+ "loss": 0.3212,
1305
+ "step": 91000
1306
+ },
1307
+ {
1308
+ "epoch": 2.0118291154548054,
1309
+ "grad_norm": 11.889479637145996,
1310
+ "learning_rate": 1.792902530727117e-05,
1311
+ "loss": 0.3003,
1312
+ "step": 91500
1313
+ },
1314
+ {
1315
+ "epoch": 2.022822717178602,
1316
+ "grad_norm": 5.802761077880859,
1317
+ "learning_rate": 1.7863063696928386e-05,
1318
+ "loss": 0.2923,
1319
+ "step": 92000
1320
+ },
1321
+ {
1322
+ "epoch": 2.033816318902399,
1323
+ "grad_norm": 7.432724475860596,
1324
+ "learning_rate": 1.7797102086585607e-05,
1325
+ "loss": 0.293,
1326
+ "step": 92500
1327
+ },
1328
+ {
1329
+ "epoch": 2.0448099206261956,
1330
+ "grad_norm": 4.792222499847412,
1331
+ "learning_rate": 1.7731140476242828e-05,
1332
+ "loss": 0.3043,
1333
+ "step": 93000
1334
+ },
1335
+ {
1336
+ "epoch": 2.055803522349992,
1337
+ "grad_norm": 8.417468070983887,
1338
+ "learning_rate": 1.766517886590005e-05,
1339
+ "loss": 0.2916,
1340
+ "step": 93500
1341
+ },
1342
+ {
1343
+ "epoch": 2.0667971240737892,
1344
+ "grad_norm": 1.0828003883361816,
1345
+ "learning_rate": 1.7599217255557266e-05,
1346
+ "loss": 0.3112,
1347
+ "step": 94000
1348
+ },
1349
+ {
1350
+ "epoch": 2.077790725797586,
1351
+ "grad_norm": 3.0800647735595703,
1352
+ "learning_rate": 1.7533255645214487e-05,
1353
+ "loss": 0.2804,
1354
+ "step": 94500
1355
+ },
1356
+ {
1357
+ "epoch": 2.0887843275213824,
1358
+ "grad_norm": 3.254809617996216,
1359
+ "learning_rate": 1.7467294034871704e-05,
1360
+ "loss": 0.2909,
1361
+ "step": 95000
1362
+ },
1363
+ {
1364
+ "epoch": 2.0997779292451795,
1365
+ "grad_norm": 2.6388871669769287,
1366
+ "learning_rate": 1.7401332424528925e-05,
1367
+ "loss": 0.305,
1368
+ "step": 95500
1369
+ },
1370
+ {
1371
+ "epoch": 2.110771530968976,
1372
+ "grad_norm": 16.700735092163086,
1373
+ "learning_rate": 1.7335370814186143e-05,
1374
+ "loss": 0.2901,
1375
+ "step": 96000
1376
+ },
1377
+ {
1378
+ "epoch": 2.1217651326927727,
1379
+ "grad_norm": 17.04293441772461,
1380
+ "learning_rate": 1.7269409203843363e-05,
1381
+ "loss": 0.3217,
1382
+ "step": 96500
1383
+ },
1384
+ {
1385
+ "epoch": 2.1327587344165697,
1386
+ "grad_norm": 1.1329630613327026,
1387
+ "learning_rate": 1.7203447593500584e-05,
1388
+ "loss": 0.2898,
1389
+ "step": 97000
1390
+ },
1391
+ {
1392
+ "epoch": 2.1437523361403663,
1393
+ "grad_norm": 36.23415756225586,
1394
+ "learning_rate": 1.7137485983157802e-05,
1395
+ "loss": 0.2864,
1396
+ "step": 97500
1397
+ },
1398
+ {
1399
+ "epoch": 2.154745937864163,
1400
+ "grad_norm": 106.94963836669922,
1401
+ "learning_rate": 1.7071524372815023e-05,
1402
+ "loss": 0.3083,
1403
+ "step": 98000
1404
+ },
1405
+ {
1406
+ "epoch": 2.16573953958796,
1407
+ "grad_norm": 0.37686920166015625,
1408
+ "learning_rate": 1.7005562762472243e-05,
1409
+ "loss": 0.3238,
1410
+ "step": 98500
1411
+ },
1412
+ {
1413
+ "epoch": 2.1767331413117565,
1414
+ "grad_norm": 36.30667495727539,
1415
+ "learning_rate": 1.693960115212946e-05,
1416
+ "loss": 0.2917,
1417
+ "step": 99000
1418
+ },
1419
+ {
1420
+ "epoch": 2.187726743035553,
1421
+ "grad_norm": 35.45988082885742,
1422
+ "learning_rate": 1.687363954178668e-05,
1423
+ "loss": 0.3009,
1424
+ "step": 99500
1425
+ },
1426
+ {
1427
+ "epoch": 2.19872034475935,
1428
+ "grad_norm": 0.25279441475868225,
1429
+ "learning_rate": 1.68076779314439e-05,
1430
+ "loss": 0.3158,
1431
+ "step": 100000
1432
+ },
1433
+ {
1434
+ "epoch": 2.209713946483147,
1435
+ "grad_norm": 10.676984786987305,
1436
+ "learning_rate": 1.674171632110112e-05,
1437
+ "loss": 0.3005,
1438
+ "step": 100500
1439
+ },
1440
+ {
1441
+ "epoch": 2.2207075482069434,
1442
+ "grad_norm": 19.04880714416504,
1443
+ "learning_rate": 1.6675754710758337e-05,
1444
+ "loss": 0.3018,
1445
+ "step": 101000
1446
+ },
1447
+ {
1448
+ "epoch": 2.2317011499307404,
1449
+ "grad_norm": 35.431583404541016,
1450
+ "learning_rate": 1.660979310041556e-05,
1451
+ "loss": 0.3135,
1452
+ "step": 101500
1453
+ },
1454
+ {
1455
+ "epoch": 2.242694751654537,
1456
+ "grad_norm": 0.3378468155860901,
1457
+ "learning_rate": 1.654383149007278e-05,
1458
+ "loss": 0.2779,
1459
+ "step": 102000
1460
+ },
1461
+ {
1462
+ "epoch": 2.2536883533783336,
1463
+ "grad_norm": 46.81476974487305,
1464
+ "learning_rate": 1.647786987973e-05,
1465
+ "loss": 0.279,
1466
+ "step": 102500
1467
+ },
1468
+ {
1469
+ "epoch": 2.2646819551021307,
1470
+ "grad_norm": 36.49277877807617,
1471
+ "learning_rate": 1.6411908269387214e-05,
1472
+ "loss": 0.3184,
1473
+ "step": 103000
1474
+ },
1475
+ {
1476
+ "epoch": 2.2756755568259273,
1477
+ "grad_norm": 12.877152442932129,
1478
+ "learning_rate": 1.6345946659044435e-05,
1479
+ "loss": 0.3024,
1480
+ "step": 103500
1481
+ },
1482
+ {
1483
+ "epoch": 2.2866691585497243,
1484
+ "grad_norm": 4.798713684082031,
1485
+ "learning_rate": 1.6279985048701656e-05,
1486
+ "loss": 0.3014,
1487
+ "step": 104000
1488
+ },
1489
+ {
1490
+ "epoch": 2.297662760273521,
1491
+ "grad_norm": 6.63606071472168,
1492
+ "learning_rate": 1.6214023438358877e-05,
1493
+ "loss": 0.3214,
1494
+ "step": 104500
1495
+ },
1496
+ {
1497
+ "epoch": 2.3086563619973175,
1498
+ "grad_norm": 13.403897285461426,
1499
+ "learning_rate": 1.6148061828016094e-05,
1500
+ "loss": 0.2943,
1501
+ "step": 105000
1502
+ },
1503
+ {
1504
+ "epoch": 2.3196499637211145,
1505
+ "grad_norm": 33.9350471496582,
1506
+ "learning_rate": 1.6082100217673315e-05,
1507
+ "loss": 0.302,
1508
+ "step": 105500
1509
+ },
1510
+ {
1511
+ "epoch": 2.330643565444911,
1512
+ "grad_norm": 3.330829620361328,
1513
+ "learning_rate": 1.6016138607330536e-05,
1514
+ "loss": 0.3087,
1515
+ "step": 106000
1516
+ },
1517
+ {
1518
+ "epoch": 2.3416371671687077,
1519
+ "grad_norm": 1.2686516046524048,
1520
+ "learning_rate": 1.5950176996987753e-05,
1521
+ "loss": 0.3007,
1522
+ "step": 106500
1523
+ },
1524
+ {
1525
+ "epoch": 2.3526307688925048,
1526
+ "grad_norm": 20.976926803588867,
1527
+ "learning_rate": 1.5884215386644974e-05,
1528
+ "loss": 0.3094,
1529
+ "step": 107000
1530
+ },
1531
+ {
1532
+ "epoch": 2.3636243706163014,
1533
+ "grad_norm": 0.7142143249511719,
1534
+ "learning_rate": 1.581825377630219e-05,
1535
+ "loss": 0.3169,
1536
+ "step": 107500
1537
+ },
1538
+ {
1539
+ "epoch": 2.374617972340098,
1540
+ "grad_norm": 6.738494873046875,
1541
+ "learning_rate": 1.5752292165959412e-05,
1542
+ "loss": 0.3101,
1543
+ "step": 108000
1544
+ },
1545
+ {
1546
+ "epoch": 2.385611574063895,
1547
+ "grad_norm": 0.8053629398345947,
1548
+ "learning_rate": 1.568633055561663e-05,
1549
+ "loss": 0.3208,
1550
+ "step": 108500
1551
+ },
1552
+ {
1553
+ "epoch": 2.3966051757876916,
1554
+ "grad_norm": 0.35285481810569763,
1555
+ "learning_rate": 1.562036894527385e-05,
1556
+ "loss": 0.2903,
1557
+ "step": 109000
1558
+ },
1559
+ {
1560
+ "epoch": 2.407598777511488,
1561
+ "grad_norm": 0.9598795771598816,
1562
+ "learning_rate": 1.555440733493107e-05,
1563
+ "loss": 0.3189,
1564
+ "step": 109500
1565
+ },
1566
+ {
1567
+ "epoch": 2.4185923792352853,
1568
+ "grad_norm": 8.283425331115723,
1569
+ "learning_rate": 1.5488445724588292e-05,
1570
+ "loss": 0.2922,
1571
+ "step": 110000
1572
+ },
1573
+ {
1574
+ "epoch": 2.429585980959082,
1575
+ "grad_norm": 2.2365481853485107,
1576
+ "learning_rate": 1.542248411424551e-05,
1577
+ "loss": 0.2865,
1578
+ "step": 110500
1579
+ },
1580
+ {
1581
+ "epoch": 2.4405795826828784,
1582
+ "grad_norm": 22.584705352783203,
1583
+ "learning_rate": 1.535652250390273e-05,
1584
+ "loss": 0.2883,
1585
+ "step": 111000
1586
+ },
1587
+ {
1588
+ "epoch": 2.4515731844066755,
1589
+ "grad_norm": 1.3138020038604736,
1590
+ "learning_rate": 1.5290560893559948e-05,
1591
+ "loss": 0.3233,
1592
+ "step": 111500
1593
+ },
1594
+ {
1595
+ "epoch": 2.462566786130472,
1596
+ "grad_norm": 17.076557159423828,
1597
+ "learning_rate": 1.5224599283217167e-05,
1598
+ "loss": 0.3017,
1599
+ "step": 112000
1600
+ },
1601
+ {
1602
+ "epoch": 2.4735603878542687,
1603
+ "grad_norm": 139.9231719970703,
1604
+ "learning_rate": 1.5158637672874386e-05,
1605
+ "loss": 0.3033,
1606
+ "step": 112500
1607
+ },
1608
+ {
1609
+ "epoch": 2.4845539895780657,
1610
+ "grad_norm": 8.334077835083008,
1611
+ "learning_rate": 1.5092676062531607e-05,
1612
+ "loss": 0.2925,
1613
+ "step": 113000
1614
+ },
1615
+ {
1616
+ "epoch": 2.4955475913018623,
1617
+ "grad_norm": 0.4488193094730377,
1618
+ "learning_rate": 1.5026714452188828e-05,
1619
+ "loss": 0.314,
1620
+ "step": 113500
1621
+ },
1622
+ {
1623
+ "epoch": 2.506541193025659,
1624
+ "grad_norm": 18.986644744873047,
1625
+ "learning_rate": 1.4960752841846047e-05,
1626
+ "loss": 0.3011,
1627
+ "step": 114000
1628
+ },
1629
+ {
1630
+ "epoch": 2.517534794749456,
1631
+ "grad_norm": 0.16863927245140076,
1632
+ "learning_rate": 1.4894791231503265e-05,
1633
+ "loss": 0.2845,
1634
+ "step": 114500
1635
+ },
1636
+ {
1637
+ "epoch": 2.5285283964732526,
1638
+ "grad_norm": 19.12157440185547,
1639
+ "learning_rate": 1.4828829621160486e-05,
1640
+ "loss": 0.3092,
1641
+ "step": 115000
1642
+ },
1643
+ {
1644
+ "epoch": 2.539521998197049,
1645
+ "grad_norm": 6.872998237609863,
1646
+ "learning_rate": 1.4762868010817705e-05,
1647
+ "loss": 0.3072,
1648
+ "step": 115500
1649
+ },
1650
+ {
1651
+ "epoch": 2.550515599920846,
1652
+ "grad_norm": 0.4193851947784424,
1653
+ "learning_rate": 1.4696906400474924e-05,
1654
+ "loss": 0.3004,
1655
+ "step": 116000
1656
+ },
1657
+ {
1658
+ "epoch": 2.561509201644643,
1659
+ "grad_norm": 0.6917738318443298,
1660
+ "learning_rate": 1.4630944790132143e-05,
1661
+ "loss": 0.2967,
1662
+ "step": 116500
1663
+ },
1664
+ {
1665
+ "epoch": 2.5725028033684394,
1666
+ "grad_norm": 10.825478553771973,
1667
+ "learning_rate": 1.4564983179789362e-05,
1668
+ "loss": 0.3086,
1669
+ "step": 117000
1670
+ },
1671
+ {
1672
+ "epoch": 2.5834964050922364,
1673
+ "grad_norm": 68.07927703857422,
1674
+ "learning_rate": 1.4499021569446583e-05,
1675
+ "loss": 0.2964,
1676
+ "step": 117500
1677
+ },
1678
+ {
1679
+ "epoch": 2.594490006816033,
1680
+ "grad_norm": 5.563518047332764,
1681
+ "learning_rate": 1.4433059959103802e-05,
1682
+ "loss": 0.3067,
1683
+ "step": 118000
1684
+ },
1685
+ {
1686
+ "epoch": 2.6054836085398296,
1687
+ "grad_norm": 4.1622633934021,
1688
+ "learning_rate": 1.4367098348761021e-05,
1689
+ "loss": 0.3019,
1690
+ "step": 118500
1691
+ },
1692
+ {
1693
+ "epoch": 2.6164772102636267,
1694
+ "grad_norm": 20.468860626220703,
1695
+ "learning_rate": 1.430113673841824e-05,
1696
+ "loss": 0.2857,
1697
+ "step": 119000
1698
+ },
1699
+ {
1700
+ "epoch": 2.6274708119874233,
1701
+ "grad_norm": 19.43634605407715,
1702
+ "learning_rate": 1.4235175128075461e-05,
1703
+ "loss": 0.3079,
1704
+ "step": 119500
1705
+ },
1706
+ {
1707
+ "epoch": 2.63846441371122,
1708
+ "grad_norm": 6.021149158477783,
1709
+ "learning_rate": 1.416921351773268e-05,
1710
+ "loss": 0.2901,
1711
+ "step": 120000
1712
+ },
1713
+ {
1714
+ "epoch": 2.649458015435017,
1715
+ "grad_norm": 8.589285850524902,
1716
+ "learning_rate": 1.41032519073899e-05,
1717
+ "loss": 0.3109,
1718
+ "step": 120500
1719
+ },
1720
+ {
1721
+ "epoch": 2.6604516171588135,
1722
+ "grad_norm": 16.921823501586914,
1723
+ "learning_rate": 1.4037290297047119e-05,
1724
+ "loss": 0.3002,
1725
+ "step": 121000
1726
+ },
1727
+ {
1728
+ "epoch": 2.67144521888261,
1729
+ "grad_norm": 16.486186981201172,
1730
+ "learning_rate": 1.3971328686704338e-05,
1731
+ "loss": 0.306,
1732
+ "step": 121500
1733
+ },
1734
+ {
1735
+ "epoch": 2.682438820606407,
1736
+ "grad_norm": 8.290379524230957,
1737
+ "learning_rate": 1.3905367076361559e-05,
1738
+ "loss": 0.3005,
1739
+ "step": 122000
1740
+ },
1741
+ {
1742
+ "epoch": 2.6934324223302037,
1743
+ "grad_norm": 0.8587543964385986,
1744
+ "learning_rate": 1.3839405466018776e-05,
1745
+ "loss": 0.29,
1746
+ "step": 122500
1747
+ },
1748
+ {
1749
+ "epoch": 2.7044260240540003,
1750
+ "grad_norm": 45.68854904174805,
1751
+ "learning_rate": 1.3773443855675997e-05,
1752
+ "loss": 0.3037,
1753
+ "step": 123000
1754
+ },
1755
+ {
1756
+ "epoch": 2.7154196257777974,
1757
+ "grad_norm": 13.316100120544434,
1758
+ "learning_rate": 1.3707482245333216e-05,
1759
+ "loss": 0.2717,
1760
+ "step": 123500
1761
+ },
1762
+ {
1763
+ "epoch": 2.726413227501594,
1764
+ "grad_norm": 5.796350479125977,
1765
+ "learning_rate": 1.3641520634990437e-05,
1766
+ "loss": 0.3116,
1767
+ "step": 124000
1768
+ },
1769
+ {
1770
+ "epoch": 2.7374068292253906,
1771
+ "grad_norm": 10.975761413574219,
1772
+ "learning_rate": 1.3575559024647655e-05,
1773
+ "loss": 0.3089,
1774
+ "step": 124500
1775
+ },
1776
+ {
1777
+ "epoch": 2.7484004309491876,
1778
+ "grad_norm": 99.86316680908203,
1779
+ "learning_rate": 1.3509597414304875e-05,
1780
+ "loss": 0.3071,
1781
+ "step": 125000
1782
+ },
1783
+ {
1784
+ "epoch": 2.759394032672984,
1785
+ "grad_norm": 92.33716583251953,
1786
+ "learning_rate": 1.3443635803962095e-05,
1787
+ "loss": 0.2881,
1788
+ "step": 125500
1789
+ },
1790
+ {
1791
+ "epoch": 2.770387634396781,
1792
+ "grad_norm": 20.75370979309082,
1793
+ "learning_rate": 1.3377674193619314e-05,
1794
+ "loss": 0.2922,
1795
+ "step": 126000
1796
+ },
1797
+ {
1798
+ "epoch": 2.781381236120578,
1799
+ "grad_norm": 63.51997756958008,
1800
+ "learning_rate": 1.3311712583276533e-05,
1801
+ "loss": 0.3016,
1802
+ "step": 126500
1803
+ },
1804
+ {
1805
+ "epoch": 2.7923748378443745,
1806
+ "grad_norm": 12.819772720336914,
1807
+ "learning_rate": 1.3245750972933752e-05,
1808
+ "loss": 0.3005,
1809
+ "step": 127000
1810
+ },
1811
+ {
1812
+ "epoch": 2.803368439568171,
1813
+ "grad_norm": 14.167094230651855,
1814
+ "learning_rate": 1.3179789362590973e-05,
1815
+ "loss": 0.3099,
1816
+ "step": 127500
1817
+ },
1818
+ {
1819
+ "epoch": 2.814362041291968,
1820
+ "grad_norm": 14.828591346740723,
1821
+ "learning_rate": 1.3113827752248192e-05,
1822
+ "loss": 0.2759,
1823
+ "step": 128000
1824
+ },
1825
+ {
1826
+ "epoch": 2.8253556430157647,
1827
+ "grad_norm": 9.91226577758789,
1828
+ "learning_rate": 1.3047866141905411e-05,
1829
+ "loss": 0.3025,
1830
+ "step": 128500
1831
+ },
1832
+ {
1833
+ "epoch": 2.8363492447395617,
1834
+ "grad_norm": 38.544525146484375,
1835
+ "learning_rate": 1.298190453156263e-05,
1836
+ "loss": 0.3038,
1837
+ "step": 129000
1838
+ },
1839
+ {
1840
+ "epoch": 2.8473428464633583,
1841
+ "grad_norm": 5.008056640625,
1842
+ "learning_rate": 1.2915942921219851e-05,
1843
+ "loss": 0.2947,
1844
+ "step": 129500
1845
+ },
1846
+ {
1847
+ "epoch": 2.858336448187155,
1848
+ "grad_norm": 14.466870307922363,
1849
+ "learning_rate": 1.284998131087707e-05,
1850
+ "loss": 0.2989,
1851
+ "step": 130000
1852
+ },
1853
+ {
1854
+ "epoch": 2.869330049910952,
1855
+ "grad_norm": 0.3647148907184601,
1856
+ "learning_rate": 1.278401970053429e-05,
1857
+ "loss": 0.2864,
1858
+ "step": 130500
1859
+ },
1860
+ {
1861
+ "epoch": 2.8803236516347486,
1862
+ "grad_norm": 0.18057258427143097,
1863
+ "learning_rate": 1.2718058090191509e-05,
1864
+ "loss": 0.2894,
1865
+ "step": 131000
1866
+ },
1867
+ {
1868
+ "epoch": 2.891317253358545,
1869
+ "grad_norm": 0.5057438015937805,
1870
+ "learning_rate": 1.2652096479848728e-05,
1871
+ "loss": 0.302,
1872
+ "step": 131500
1873
+ },
1874
+ {
1875
+ "epoch": 2.902310855082342,
1876
+ "grad_norm": 10.934133529663086,
1877
+ "learning_rate": 1.2586134869505949e-05,
1878
+ "loss": 0.3047,
1879
+ "step": 132000
1880
+ },
1881
+ {
1882
+ "epoch": 2.913304456806139,
1883
+ "grad_norm": 2.3341269493103027,
1884
+ "learning_rate": 1.2520173259163166e-05,
1885
+ "loss": 0.3011,
1886
+ "step": 132500
1887
+ },
1888
+ {
1889
+ "epoch": 2.924298058529936,
1890
+ "grad_norm": 0.3195688724517822,
1891
+ "learning_rate": 1.2454211648820387e-05,
1892
+ "loss": 0.2939,
1893
+ "step": 133000
1894
+ },
1895
+ {
1896
+ "epoch": 2.9352916602537324,
1897
+ "grad_norm": 8.257743835449219,
1898
+ "learning_rate": 1.2388250038477606e-05,
1899
+ "loss": 0.3057,
1900
+ "step": 133500
1901
+ },
1902
+ {
1903
+ "epoch": 2.946285261977529,
1904
+ "grad_norm": 20.577478408813477,
1905
+ "learning_rate": 1.2322288428134827e-05,
1906
+ "loss": 0.2966,
1907
+ "step": 134000
1908
+ },
1909
+ {
1910
+ "epoch": 2.957278863701326,
1911
+ "grad_norm": 0.777562141418457,
1912
+ "learning_rate": 1.2256326817792044e-05,
1913
+ "loss": 0.3013,
1914
+ "step": 134500
1915
+ },
1916
+ {
1917
+ "epoch": 2.9682724654251227,
1918
+ "grad_norm": 58.6212158203125,
1919
+ "learning_rate": 1.2190365207449265e-05,
1920
+ "loss": 0.2874,
1921
+ "step": 135000
1922
+ },
1923
+ {
1924
+ "epoch": 2.9792660671489193,
1925
+ "grad_norm": 69.42217254638672,
1926
+ "learning_rate": 1.2124403597106484e-05,
1927
+ "loss": 0.293,
1928
+ "step": 135500
1929
+ },
1930
+ {
1931
+ "epoch": 2.9902596688727163,
1932
+ "grad_norm": 4.408263683319092,
1933
+ "learning_rate": 1.2058441986763704e-05,
1934
+ "loss": 0.3005,
1935
+ "step": 136000
1936
+ },
1937
+ {
1938
+ "epoch": 3.0,
1939
+ "eval_accuracy": 0.8718278408050537,
1940
+ "eval_f1": 0.8299757201916136,
1941
+ "eval_loss": 0.42042940855026245,
1942
+ "eval_mcc": 0.7272909835972381,
1943
+ "eval_runtime": 28.09,
1944
+ "eval_samples_per_second": 719.65,
1945
+ "eval_steps_per_second": 89.961,
1946
+ "step": 136443
1947
+ },
1948
+ {
1949
+ "epoch": 3.001253270596513,
1950
+ "grad_norm": 6.014369010925293,
1951
+ "learning_rate": 1.1992480376420923e-05,
1952
+ "loss": 0.281,
1953
+ "step": 136500
1954
+ },
1955
+ {
1956
+ "epoch": 3.0122468723203095,
1957
+ "grad_norm": 10.639359474182129,
1958
+ "learning_rate": 1.1926518766078142e-05,
1959
+ "loss": 0.2556,
1960
+ "step": 137000
1961
+ },
1962
+ {
1963
+ "epoch": 3.023240474044106,
1964
+ "grad_norm": 3.0724806785583496,
1965
+ "learning_rate": 1.1860557155735363e-05,
1966
+ "loss": 0.2414,
1967
+ "step": 137500
1968
+ },
1969
+ {
1970
+ "epoch": 3.034234075767903,
1971
+ "grad_norm": 0.3316449522972107,
1972
+ "learning_rate": 1.1794595545392582e-05,
1973
+ "loss": 0.2539,
1974
+ "step": 138000
1975
+ },
1976
+ {
1977
+ "epoch": 3.0452276774916998,
1978
+ "grad_norm": 23.327177047729492,
1979
+ "learning_rate": 1.1728633935049801e-05,
1980
+ "loss": 0.2374,
1981
+ "step": 138500
1982
+ },
1983
+ {
1984
+ "epoch": 3.056221279215497,
1985
+ "grad_norm": 0.7128089666366577,
1986
+ "learning_rate": 1.166267232470702e-05,
1987
+ "loss": 0.2476,
1988
+ "step": 139000
1989
+ },
1990
+ {
1991
+ "epoch": 3.0672148809392934,
1992
+ "grad_norm": 189.15638732910156,
1993
+ "learning_rate": 1.1596710714364241e-05,
1994
+ "loss": 0.2431,
1995
+ "step": 139500
1996
+ },
1997
+ {
1998
+ "epoch": 3.07820848266309,
1999
+ "grad_norm": 17.80859375,
2000
+ "learning_rate": 1.153074910402146e-05,
2001
+ "loss": 0.225,
2002
+ "step": 140000
2003
+ },
2004
+ {
2005
+ "epoch": 3.089202084386887,
2006
+ "grad_norm": 0.14886409044265747,
2007
+ "learning_rate": 1.146478749367868e-05,
2008
+ "loss": 0.2495,
2009
+ "step": 140500
2010
+ },
2011
+ {
2012
+ "epoch": 3.1001956861106836,
2013
+ "grad_norm": 0.5925188064575195,
2014
+ "learning_rate": 1.1398825883335899e-05,
2015
+ "loss": 0.2541,
2016
+ "step": 141000
2017
+ },
2018
+ {
2019
+ "epoch": 3.1111892878344802,
2020
+ "grad_norm": 9.857983589172363,
2021
+ "learning_rate": 1.1332864272993118e-05,
2022
+ "loss": 0.2565,
2023
+ "step": 141500
2024
+ },
2025
+ {
2026
+ "epoch": 3.1221828895582773,
2027
+ "grad_norm": 0.7951391339302063,
2028
+ "learning_rate": 1.1266902662650339e-05,
2029
+ "loss": 0.2561,
2030
+ "step": 142000
2031
+ },
2032
+ {
2033
+ "epoch": 3.133176491282074,
2034
+ "grad_norm": 61.58017349243164,
2035
+ "learning_rate": 1.1200941052307556e-05,
2036
+ "loss": 0.2361,
2037
+ "step": 142500
2038
+ },
2039
+ {
2040
+ "epoch": 3.1441700930058705,
2041
+ "grad_norm": 9.199590682983398,
2042
+ "learning_rate": 1.1134979441964777e-05,
2043
+ "loss": 0.2559,
2044
+ "step": 143000
2045
+ },
2046
+ {
2047
+ "epoch": 3.1551636947296675,
2048
+ "grad_norm": 1.7396503686904907,
2049
+ "learning_rate": 1.1069017831621996e-05,
2050
+ "loss": 0.2543,
2051
+ "step": 143500
2052
+ },
2053
+ {
2054
+ "epoch": 3.166157296453464,
2055
+ "grad_norm": 185.94760131835938,
2056
+ "learning_rate": 1.1003056221279217e-05,
2057
+ "loss": 0.2309,
2058
+ "step": 144000
2059
+ },
2060
+ {
2061
+ "epoch": 3.1771508981772607,
2062
+ "grad_norm": 42.58454132080078,
2063
+ "learning_rate": 1.0937094610936434e-05,
2064
+ "loss": 0.2634,
2065
+ "step": 144500
2066
+ },
2067
+ {
2068
+ "epoch": 3.1881444999010577,
2069
+ "grad_norm": 0.19487299025058746,
2070
+ "learning_rate": 1.0871133000593655e-05,
2071
+ "loss": 0.2668,
2072
+ "step": 145000
2073
+ },
2074
+ {
2075
+ "epoch": 3.1991381016248543,
2076
+ "grad_norm": 0.11774999648332596,
2077
+ "learning_rate": 1.0805171390250874e-05,
2078
+ "loss": 0.2531,
2079
+ "step": 145500
2080
+ },
2081
+ {
2082
+ "epoch": 3.210131703348651,
2083
+ "grad_norm": 0.8709030747413635,
2084
+ "learning_rate": 1.0739209779908093e-05,
2085
+ "loss": 0.2579,
2086
+ "step": 146000
2087
+ },
2088
+ {
2089
+ "epoch": 3.221125305072448,
2090
+ "grad_norm": 0.26620733737945557,
2091
+ "learning_rate": 1.0673248169565313e-05,
2092
+ "loss": 0.2456,
2093
+ "step": 146500
2094
+ },
2095
+ {
2096
+ "epoch": 3.2321189067962446,
2097
+ "grad_norm": 30.161376953125,
2098
+ "learning_rate": 1.0607286559222532e-05,
2099
+ "loss": 0.2588,
2100
+ "step": 147000
2101
+ },
2102
+ {
2103
+ "epoch": 3.243112508520041,
2104
+ "grad_norm": 14.72189998626709,
2105
+ "learning_rate": 1.0541324948879753e-05,
2106
+ "loss": 0.2538,
2107
+ "step": 147500
2108
+ },
2109
+ {
2110
+ "epoch": 3.2541061102438382,
2111
+ "grad_norm": 22.82953453063965,
2112
+ "learning_rate": 1.0475363338536972e-05,
2113
+ "loss": 0.2398,
2114
+ "step": 148000
2115
+ },
2116
+ {
2117
+ "epoch": 3.265099711967635,
2118
+ "grad_norm": 1.3340407609939575,
2119
+ "learning_rate": 1.0409401728194191e-05,
2120
+ "loss": 0.2619,
2121
+ "step": 148500
2122
+ },
2123
+ {
2124
+ "epoch": 3.2760933136914314,
2125
+ "grad_norm": 4.700684070587158,
2126
+ "learning_rate": 1.034344011785141e-05,
2127
+ "loss": 0.2563,
2128
+ "step": 149000
2129
+ },
2130
+ {
2131
+ "epoch": 3.2870869154152285,
2132
+ "grad_norm": 49.13290786743164,
2133
+ "learning_rate": 1.0277478507508631e-05,
2134
+ "loss": 0.2756,
2135
+ "step": 149500
2136
+ },
2137
+ {
2138
+ "epoch": 3.298080517139025,
2139
+ "grad_norm": 0.5340966582298279,
2140
+ "learning_rate": 1.021151689716585e-05,
2141
+ "loss": 0.249,
2142
+ "step": 150000
2143
+ },
2144
+ {
2145
+ "epoch": 3.3090741188628217,
2146
+ "grad_norm": 156.9650115966797,
2147
+ "learning_rate": 1.014555528682307e-05,
2148
+ "loss": 0.237,
2149
+ "step": 150500
2150
+ },
2151
+ {
2152
+ "epoch": 3.3200677205866187,
2153
+ "grad_norm": 0.09667583554983139,
2154
+ "learning_rate": 1.0079593676480288e-05,
2155
+ "loss": 0.2621,
2156
+ "step": 151000
2157
+ },
2158
+ {
2159
+ "epoch": 3.3310613223104153,
2160
+ "grad_norm": 9.222663879394531,
2161
+ "learning_rate": 1.0013632066137508e-05,
2162
+ "loss": 0.2457,
2163
+ "step": 151500
2164
+ },
2165
+ {
2166
+ "epoch": 3.342054924034212,
2167
+ "grad_norm": 14.612710952758789,
2168
+ "learning_rate": 9.947670455794728e-06,
2169
+ "loss": 0.2555,
2170
+ "step": 152000
2171
+ },
2172
+ {
2173
+ "epoch": 3.353048525758009,
2174
+ "grad_norm": 50.92832565307617,
2175
+ "learning_rate": 9.881708845451946e-06,
2176
+ "loss": 0.2394,
2177
+ "step": 152500
2178
+ },
2179
+ {
2180
+ "epoch": 3.3640421274818055,
2181
+ "grad_norm": 1.5905165672302246,
2182
+ "learning_rate": 9.815747235109167e-06,
2183
+ "loss": 0.2408,
2184
+ "step": 153000
2185
+ },
2186
+ {
2187
+ "epoch": 3.375035729205602,
2188
+ "grad_norm": 34.99452209472656,
2189
+ "learning_rate": 9.749785624766386e-06,
2190
+ "loss": 0.2351,
2191
+ "step": 153500
2192
+ },
2193
+ {
2194
+ "epoch": 3.386029330929399,
2195
+ "grad_norm": 1.3218666315078735,
2196
+ "learning_rate": 9.683824014423607e-06,
2197
+ "loss": 0.2494,
2198
+ "step": 154000
2199
+ },
2200
+ {
2201
+ "epoch": 3.3970229326531958,
2202
+ "grad_norm": 19.163127899169922,
2203
+ "learning_rate": 9.617862404080824e-06,
2204
+ "loss": 0.2716,
2205
+ "step": 154500
2206
+ },
2207
+ {
2208
+ "epoch": 3.4080165343769924,
2209
+ "grad_norm": 0.3468831479549408,
2210
+ "learning_rate": 9.551900793738045e-06,
2211
+ "loss": 0.2617,
2212
+ "step": 155000
2213
+ },
2214
+ {
2215
+ "epoch": 3.4190101361007894,
2216
+ "grad_norm": 19.626012802124023,
2217
+ "learning_rate": 9.485939183395264e-06,
2218
+ "loss": 0.2651,
2219
+ "step": 155500
2220
+ },
2221
+ {
2222
+ "epoch": 3.430003737824586,
2223
+ "grad_norm": 17.755313873291016,
2224
+ "learning_rate": 9.419977573052483e-06,
2225
+ "loss": 0.2487,
2226
+ "step": 156000
2227
+ },
2228
+ {
2229
+ "epoch": 3.4409973395483826,
2230
+ "grad_norm": 14.6954984664917,
2231
+ "learning_rate": 9.354015962709702e-06,
2232
+ "loss": 0.2579,
2233
+ "step": 156500
2234
+ },
2235
+ {
2236
+ "epoch": 3.4519909412721796,
2237
+ "grad_norm": 24.834569931030273,
2238
+ "learning_rate": 9.288054352366922e-06,
2239
+ "loss": 0.2343,
2240
+ "step": 157000
2241
+ },
2242
+ {
2243
+ "epoch": 3.4629845429959762,
2244
+ "grad_norm": 11.748075485229492,
2245
+ "learning_rate": 9.222092742024142e-06,
2246
+ "loss": 0.2493,
2247
+ "step": 157500
2248
+ },
2249
+ {
2250
+ "epoch": 3.473978144719773,
2251
+ "grad_norm": 0.26250067353248596,
2252
+ "learning_rate": 9.156131131681362e-06,
2253
+ "loss": 0.2518,
2254
+ "step": 158000
2255
+ },
2256
+ {
2257
+ "epoch": 3.48497174644357,
2258
+ "grad_norm": 0.31238773465156555,
2259
+ "learning_rate": 9.09016952133858e-06,
2260
+ "loss": 0.2563,
2261
+ "step": 158500
2262
+ },
2263
+ {
2264
+ "epoch": 3.4959653481673665,
2265
+ "grad_norm": 0.38414067029953003,
2266
+ "learning_rate": 9.0242079109958e-06,
2267
+ "loss": 0.2605,
2268
+ "step": 159000
2269
+ },
2270
+ {
2271
+ "epoch": 3.506958949891163,
2272
+ "grad_norm": 0.26335904002189636,
2273
+ "learning_rate": 8.95824630065302e-06,
2274
+ "loss": 0.25,
2275
+ "step": 159500
2276
+ },
2277
+ {
2278
+ "epoch": 3.51795255161496,
2279
+ "grad_norm": 11.267284393310547,
2280
+ "learning_rate": 8.89228469031024e-06,
2281
+ "loss": 0.2446,
2282
+ "step": 160000
2283
+ },
2284
+ {
2285
+ "epoch": 3.5289461533387567,
2286
+ "grad_norm": 13.036714553833008,
2287
+ "learning_rate": 8.826323079967459e-06,
2288
+ "loss": 0.2341,
2289
+ "step": 160500
2290
+ },
2291
+ {
2292
+ "epoch": 3.5399397550625533,
2293
+ "grad_norm": 9.3615140914917,
2294
+ "learning_rate": 8.760361469624678e-06,
2295
+ "loss": 0.2632,
2296
+ "step": 161000
2297
+ },
2298
+ {
2299
+ "epoch": 3.5509333567863504,
2300
+ "grad_norm": 0.3549996018409729,
2301
+ "learning_rate": 8.694399859281897e-06,
2302
+ "loss": 0.2507,
2303
+ "step": 161500
2304
+ },
2305
+ {
2306
+ "epoch": 3.561926958510147,
2307
+ "grad_norm": 0.46619582176208496,
2308
+ "learning_rate": 8.628438248939118e-06,
2309
+ "loss": 0.2543,
2310
+ "step": 162000
2311
+ },
2312
+ {
2313
+ "epoch": 3.572920560233944,
2314
+ "grad_norm": 0.9738485217094421,
2315
+ "learning_rate": 8.562476638596337e-06,
2316
+ "loss": 0.2672,
2317
+ "step": 162500
2318
+ },
2319
+ {
2320
+ "epoch": 3.5839141619577406,
2321
+ "grad_norm": 12.682645797729492,
2322
+ "learning_rate": 8.496515028253557e-06,
2323
+ "loss": 0.2422,
2324
+ "step": 163000
2325
+ },
2326
+ {
2327
+ "epoch": 3.594907763681537,
2328
+ "grad_norm": 0.33584246039390564,
2329
+ "learning_rate": 8.430553417910776e-06,
2330
+ "loss": 0.2597,
2331
+ "step": 163500
2332
+ },
2333
+ {
2334
+ "epoch": 3.6059013654053342,
2335
+ "grad_norm": 8.06340217590332,
2336
+ "learning_rate": 8.364591807567997e-06,
2337
+ "loss": 0.271,
2338
+ "step": 164000
2339
+ },
2340
+ {
2341
+ "epoch": 3.616894967129131,
2342
+ "grad_norm": 0.4343748688697815,
2343
+ "learning_rate": 8.298630197225216e-06,
2344
+ "loss": 0.2686,
2345
+ "step": 164500
2346
+ },
2347
+ {
2348
+ "epoch": 3.6278885688529274,
2349
+ "grad_norm": 38.23839569091797,
2350
+ "learning_rate": 8.232668586882435e-06,
2351
+ "loss": 0.2605,
2352
+ "step": 165000
2353
+ },
2354
+ {
2355
+ "epoch": 3.6388821705767245,
2356
+ "grad_norm": 20.085224151611328,
2357
+ "learning_rate": 8.166706976539654e-06,
2358
+ "loss": 0.2449,
2359
+ "step": 165500
2360
+ },
2361
+ {
2362
+ "epoch": 3.649875772300521,
2363
+ "grad_norm": 0.3538534641265869,
2364
+ "learning_rate": 8.100745366196875e-06,
2365
+ "loss": 0.2436,
2366
+ "step": 166000
2367
+ },
2368
+ {
2369
+ "epoch": 3.660869374024318,
2370
+ "grad_norm": 0.3242553174495697,
2371
+ "learning_rate": 8.034783755854094e-06,
2372
+ "loss": 0.2468,
2373
+ "step": 166500
2374
+ },
2375
+ {
2376
+ "epoch": 3.6718629757481147,
2377
+ "grad_norm": 28.696617126464844,
2378
+ "learning_rate": 7.968822145511311e-06,
2379
+ "loss": 0.2621,
2380
+ "step": 167000
2381
+ },
2382
+ {
2383
+ "epoch": 3.6828565774719113,
2384
+ "grad_norm": 0.26111406087875366,
2385
+ "learning_rate": 7.902860535168532e-06,
2386
+ "loss": 0.2519,
2387
+ "step": 167500
2388
+ },
2389
+ {
2390
+ "epoch": 3.6938501791957083,
2391
+ "grad_norm": 0.24540553987026215,
2392
+ "learning_rate": 7.836898924825751e-06,
2393
+ "loss": 0.2515,
2394
+ "step": 168000
2395
+ },
2396
+ {
2397
+ "epoch": 3.704843780919505,
2398
+ "grad_norm": 0.4676073491573334,
2399
+ "learning_rate": 7.770937314482972e-06,
2400
+ "loss": 0.256,
2401
+ "step": 168500
2402
+ },
2403
+ {
2404
+ "epoch": 3.7158373826433015,
2405
+ "grad_norm": 87.25594329833984,
2406
+ "learning_rate": 7.70497570414019e-06,
2407
+ "loss": 0.2354,
2408
+ "step": 169000
2409
+ },
2410
+ {
2411
+ "epoch": 3.7268309843670986,
2412
+ "grad_norm": 1.1010403633117676,
2413
+ "learning_rate": 7.63901409379741e-06,
2414
+ "loss": 0.2394,
2415
+ "step": 169500
2416
+ },
2417
+ {
2418
+ "epoch": 3.737824586090895,
2419
+ "grad_norm": 0.1542312502861023,
2420
+ "learning_rate": 7.57305248345463e-06,
2421
+ "loss": 0.2491,
2422
+ "step": 170000
2423
+ },
2424
+ {
2425
+ "epoch": 3.748818187814692,
2426
+ "grad_norm": 2.4090046882629395,
2427
+ "learning_rate": 7.50709087311185e-06,
2428
+ "loss": 0.2337,
2429
+ "step": 170500
2430
+ },
2431
+ {
2432
+ "epoch": 3.759811789538489,
2433
+ "grad_norm": 6.501917362213135,
2434
+ "learning_rate": 7.441129262769069e-06,
2435
+ "loss": 0.2406,
2436
+ "step": 171000
2437
+ },
2438
+ {
2439
+ "epoch": 3.7708053912622854,
2440
+ "grad_norm": 19.246479034423828,
2441
+ "learning_rate": 7.375167652426288e-06,
2442
+ "loss": 0.2547,
2443
+ "step": 171500
2444
+ },
2445
+ {
2446
+ "epoch": 3.781798992986082,
2447
+ "grad_norm": 0.10231161117553711,
2448
+ "learning_rate": 7.309206042083508e-06,
2449
+ "loss": 0.2379,
2450
+ "step": 172000
2451
+ },
2452
+ {
2453
+ "epoch": 3.792792594709879,
2454
+ "grad_norm": 10.832609176635742,
2455
+ "learning_rate": 7.243244431740727e-06,
2456
+ "loss": 0.2711,
2457
+ "step": 172500
2458
+ },
2459
+ {
2460
+ "epoch": 3.8037861964336757,
2461
+ "grad_norm": 18.556346893310547,
2462
+ "learning_rate": 7.177282821397947e-06,
2463
+ "loss": 0.2265,
2464
+ "step": 173000
2465
+ },
2466
+ {
2467
+ "epoch": 3.8147797981574723,
2468
+ "grad_norm": 1.0246055126190186,
2469
+ "learning_rate": 7.111321211055166e-06,
2470
+ "loss": 0.2334,
2471
+ "step": 173500
2472
+ },
2473
+ {
2474
+ "epoch": 3.8257733998812693,
2475
+ "grad_norm": 1.1454087495803833,
2476
+ "learning_rate": 7.0453596007123855e-06,
2477
+ "loss": 0.2491,
2478
+ "step": 174000
2479
+ },
2480
+ {
2481
+ "epoch": 3.836767001605066,
2482
+ "grad_norm": 11.247049331665039,
2483
+ "learning_rate": 6.979397990369605e-06,
2484
+ "loss": 0.2632,
2485
+ "step": 174500
2486
+ },
2487
+ {
2488
+ "epoch": 3.8477606033288625,
2489
+ "grad_norm": 14.466601371765137,
2490
+ "learning_rate": 6.913436380026825e-06,
2491
+ "loss": 0.2639,
2492
+ "step": 175000
2493
+ },
2494
+ {
2495
+ "epoch": 3.8587542050526595,
2496
+ "grad_norm": 7.91213321685791,
2497
+ "learning_rate": 6.847474769684044e-06,
2498
+ "loss": 0.2527,
2499
+ "step": 175500
2500
+ },
2501
+ {
2502
+ "epoch": 3.869747806776456,
2503
+ "grad_norm": 26.528411865234375,
2504
+ "learning_rate": 6.781513159341264e-06,
2505
+ "loss": 0.2438,
2506
+ "step": 176000
2507
+ },
2508
+ {
2509
+ "epoch": 3.8807414085002527,
2510
+ "grad_norm": 0.7833952903747559,
2511
+ "learning_rate": 6.715551548998483e-06,
2512
+ "loss": 0.2585,
2513
+ "step": 176500
2514
+ },
2515
+ {
2516
+ "epoch": 3.8917350102240498,
2517
+ "grad_norm": 53.77830123901367,
2518
+ "learning_rate": 6.649589938655703e-06,
2519
+ "loss": 0.2615,
2520
+ "step": 177000
2521
+ },
2522
+ {
2523
+ "epoch": 3.9027286119478464,
2524
+ "grad_norm": 0.6139953136444092,
2525
+ "learning_rate": 6.583628328312922e-06,
2526
+ "loss": 0.2644,
2527
+ "step": 177500
2528
+ },
2529
+ {
2530
+ "epoch": 3.913722213671643,
2531
+ "grad_norm": 1.4486163854599,
2532
+ "learning_rate": 6.517666717970142e-06,
2533
+ "loss": 0.2302,
2534
+ "step": 178000
2535
+ },
2536
+ {
2537
+ "epoch": 3.92471581539544,
2538
+ "grad_norm": 5.287415504455566,
2539
+ "learning_rate": 6.451705107627361e-06,
2540
+ "loss": 0.2727,
2541
+ "step": 178500
2542
+ },
2543
+ {
2544
+ "epoch": 3.9357094171192366,
2545
+ "grad_norm": 26.611614227294922,
2546
+ "learning_rate": 6.3857434972845804e-06,
2547
+ "loss": 0.2514,
2548
+ "step": 179000
2549
+ },
2550
+ {
2551
+ "epoch": 3.946703018843033,
2552
+ "grad_norm": 14.361977577209473,
2553
+ "learning_rate": 6.3197818869418e-06,
2554
+ "loss": 0.2476,
2555
+ "step": 179500
2556
+ },
2557
+ {
2558
+ "epoch": 3.9576966205668302,
2559
+ "grad_norm": 1.3597434759140015,
2560
+ "learning_rate": 6.25382027659902e-06,
2561
+ "loss": 0.2406,
2562
+ "step": 180000
2563
+ },
2564
+ {
2565
+ "epoch": 3.968690222290627,
2566
+ "grad_norm": 10.218100547790527,
2567
+ "learning_rate": 6.187858666256239e-06,
2568
+ "loss": 0.254,
2569
+ "step": 180500
2570
+ },
2571
+ {
2572
+ "epoch": 3.9796838240144234,
2573
+ "grad_norm": 0.7666225433349609,
2574
+ "learning_rate": 6.121897055913459e-06,
2575
+ "loss": 0.2741,
2576
+ "step": 181000
2577
+ },
2578
+ {
2579
+ "epoch": 3.9906774257382205,
2580
+ "grad_norm": 36.5604133605957,
2581
+ "learning_rate": 6.055935445570678e-06,
2582
+ "loss": 0.2374,
2583
+ "step": 181500
2584
+ },
2585
+ {
2586
+ "epoch": 4.0,
2587
+ "eval_accuracy": 0.8765273094177246,
2588
+ "eval_f1": 0.8365850464842216,
2589
+ "eval_loss": 0.5333936214447021,
2590
+ "eval_mcc": 0.7376033359055921,
2591
+ "eval_runtime": 27.772,
2592
+ "eval_samples_per_second": 727.891,
2593
+ "eval_steps_per_second": 90.991,
2594
+ "step": 181924
2595
+ },
2596
+ {
2597
+ "epoch": 4.0016710274620175,
2598
+ "grad_norm": 0.4658304750919342,
2599
+ "learning_rate": 5.989973835227898e-06,
2600
+ "loss": 0.2447,
2601
+ "step": 182000
2602
+ },
2603
+ {
2604
+ "epoch": 4.012664629185814,
2605
+ "grad_norm": 0.2597205340862274,
2606
+ "learning_rate": 5.924012224885117e-06,
2607
+ "loss": 0.1824,
2608
+ "step": 182500
2609
+ },
2610
+ {
2611
+ "epoch": 4.023658230909611,
2612
+ "grad_norm": 0.4755733907222748,
2613
+ "learning_rate": 5.858050614542337e-06,
2614
+ "loss": 0.2266,
2615
+ "step": 183000
2616
+ },
2617
+ {
2618
+ "epoch": 4.034651832633408,
2619
+ "grad_norm": 0.3996201753616333,
2620
+ "learning_rate": 5.792089004199556e-06,
2621
+ "loss": 0.1901,
2622
+ "step": 183500
2623
+ },
2624
+ {
2625
+ "epoch": 4.045645434357204,
2626
+ "grad_norm": 0.8636412620544434,
2627
+ "learning_rate": 5.726127393856775e-06,
2628
+ "loss": 0.1955,
2629
+ "step": 184000
2630
+ },
2631
+ {
2632
+ "epoch": 4.056639036081001,
2633
+ "grad_norm": 0.3265284597873688,
2634
+ "learning_rate": 5.6601657835139945e-06,
2635
+ "loss": 0.1979,
2636
+ "step": 184500
2637
+ },
2638
+ {
2639
+ "epoch": 4.067632637804798,
2640
+ "grad_norm": 0.1188616007566452,
2641
+ "learning_rate": 5.5942041731712145e-06,
2642
+ "loss": 0.2066,
2643
+ "step": 185000
2644
+ },
2645
+ {
2646
+ "epoch": 4.078626239528594,
2647
+ "grad_norm": 0.7546807527542114,
2648
+ "learning_rate": 5.528242562828434e-06,
2649
+ "loss": 0.1959,
2650
+ "step": 185500
2651
+ },
2652
+ {
2653
+ "epoch": 4.089619841252391,
2654
+ "grad_norm": 0.12139397114515305,
2655
+ "learning_rate": 5.462280952485654e-06,
2656
+ "loss": 0.1969,
2657
+ "step": 186000
2658
+ },
2659
+ {
2660
+ "epoch": 4.100613442976188,
2661
+ "grad_norm": 0.13494807481765747,
2662
+ "learning_rate": 5.396319342142873e-06,
2663
+ "loss": 0.1814,
2664
+ "step": 186500
2665
+ },
2666
+ {
2667
+ "epoch": 4.111607044699984,
2668
+ "grad_norm": 0.023194080218672752,
2669
+ "learning_rate": 5.330357731800093e-06,
2670
+ "loss": 0.1877,
2671
+ "step": 187000
2672
+ },
2673
+ {
2674
+ "epoch": 4.122600646423781,
2675
+ "grad_norm": 0.07898598164319992,
2676
+ "learning_rate": 5.264396121457312e-06,
2677
+ "loss": 0.209,
2678
+ "step": 187500
2679
+ },
2680
+ {
2681
+ "epoch": 4.1335942481475785,
2682
+ "grad_norm": 0.11429109424352646,
2683
+ "learning_rate": 5.198434511114532e-06,
2684
+ "loss": 0.1794,
2685
+ "step": 188000
2686
+ },
2687
+ {
2688
+ "epoch": 4.144587849871375,
2689
+ "grad_norm": 0.1126711368560791,
2690
+ "learning_rate": 5.132472900771751e-06,
2691
+ "loss": 0.2143,
2692
+ "step": 188500
2693
+ },
2694
+ {
2695
+ "epoch": 4.155581451595172,
2696
+ "grad_norm": 36.669212341308594,
2697
+ "learning_rate": 5.06651129042897e-06,
2698
+ "loss": 0.1995,
2699
+ "step": 189000
2700
+ },
2701
+ {
2702
+ "epoch": 4.166575053318969,
2703
+ "grad_norm": 0.0557066835463047,
2704
+ "learning_rate": 5.0005496800861894e-06,
2705
+ "loss": 0.1977,
2706
+ "step": 189500
2707
+ },
2708
+ {
2709
+ "epoch": 4.177568655042765,
2710
+ "grad_norm": 0.11854979395866394,
2711
+ "learning_rate": 4.9345880697434094e-06,
2712
+ "loss": 0.203,
2713
+ "step": 190000
2714
+ },
2715
+ {
2716
+ "epoch": 4.188562256766562,
2717
+ "grad_norm": 47.56736755371094,
2718
+ "learning_rate": 4.868626459400629e-06,
2719
+ "loss": 0.1673,
2720
+ "step": 190500
2721
+ },
2722
+ {
2723
+ "epoch": 4.199555858490359,
2724
+ "grad_norm": 1.5440220832824707,
2725
+ "learning_rate": 4.802664849057849e-06,
2726
+ "loss": 0.1998,
2727
+ "step": 191000
2728
+ },
2729
+ {
2730
+ "epoch": 4.210549460214155,
2731
+ "grad_norm": 0.11512400209903717,
2732
+ "learning_rate": 4.736703238715068e-06,
2733
+ "loss": 0.2027,
2734
+ "step": 191500
2735
+ },
2736
+ {
2737
+ "epoch": 4.221543061937952,
2738
+ "grad_norm": 13.000309944152832,
2739
+ "learning_rate": 4.670741628372288e-06,
2740
+ "loss": 0.2268,
2741
+ "step": 192000
2742
+ },
2743
+ {
2744
+ "epoch": 4.232536663661749,
2745
+ "grad_norm": 0.053511910140514374,
2746
+ "learning_rate": 4.604780018029507e-06,
2747
+ "loss": 0.2119,
2748
+ "step": 192500
2749
+ },
2750
+ {
2751
+ "epoch": 4.243530265385545,
2752
+ "grad_norm": 1.0577130317687988,
2753
+ "learning_rate": 4.538818407686727e-06,
2754
+ "loss": 0.207,
2755
+ "step": 193000
2756
+ },
2757
+ {
2758
+ "epoch": 4.254523867109342,
2759
+ "grad_norm": 0.5129163861274719,
2760
+ "learning_rate": 4.472856797343946e-06,
2761
+ "loss": 0.1971,
2762
+ "step": 193500
2763
+ },
2764
+ {
2765
+ "epoch": 4.265517468833139,
2766
+ "grad_norm": 38.92678451538086,
2767
+ "learning_rate": 4.406895187001165e-06,
2768
+ "loss": 0.1915,
2769
+ "step": 194000
2770
+ },
2771
+ {
2772
+ "epoch": 4.276511070556936,
2773
+ "grad_norm": 0.2508489489555359,
2774
+ "learning_rate": 4.340933576658384e-06,
2775
+ "loss": 0.2076,
2776
+ "step": 194500
2777
+ },
2778
+ {
2779
+ "epoch": 4.287504672280733,
2780
+ "grad_norm": 0.8289797306060791,
2781
+ "learning_rate": 4.274971966315604e-06,
2782
+ "loss": 0.1906,
2783
+ "step": 195000
2784
+ },
2785
+ {
2786
+ "epoch": 4.29849827400453,
2787
+ "grad_norm": 0.1511843502521515,
2788
+ "learning_rate": 4.2090103559728235e-06,
2789
+ "loss": 0.1908,
2790
+ "step": 195500
2791
+ },
2792
+ {
2793
+ "epoch": 4.309491875728326,
2794
+ "grad_norm": 36.47195053100586,
2795
+ "learning_rate": 4.1430487456300435e-06,
2796
+ "loss": 0.2198,
2797
+ "step": 196000
2798
+ },
2799
+ {
2800
+ "epoch": 4.320485477452123,
2801
+ "grad_norm": 59.39978790283203,
2802
+ "learning_rate": 4.077087135287263e-06,
2803
+ "loss": 0.1958,
2804
+ "step": 196500
2805
+ },
2806
+ {
2807
+ "epoch": 4.33147907917592,
2808
+ "grad_norm": 25.194355010986328,
2809
+ "learning_rate": 4.011125524944483e-06,
2810
+ "loss": 0.185,
2811
+ "step": 197000
2812
+ },
2813
+ {
2814
+ "epoch": 4.342472680899716,
2815
+ "grad_norm": 20.661163330078125,
2816
+ "learning_rate": 3.945163914601702e-06,
2817
+ "loss": 0.2032,
2818
+ "step": 197500
2819
+ },
2820
+ {
2821
+ "epoch": 4.353466282623513,
2822
+ "grad_norm": 0.04815911129117012,
2823
+ "learning_rate": 3.879202304258922e-06,
2824
+ "loss": 0.194,
2825
+ "step": 198000
2826
+ },
2827
+ {
2828
+ "epoch": 4.36445988434731,
2829
+ "grad_norm": 0.18730510771274567,
2830
+ "learning_rate": 3.8132406939161414e-06,
2831
+ "loss": 0.236,
2832
+ "step": 198500
2833
+ },
2834
+ {
2835
+ "epoch": 4.375453486071106,
2836
+ "grad_norm": 15.972749710083008,
2837
+ "learning_rate": 3.7472790835733606e-06,
2838
+ "loss": 0.196,
2839
+ "step": 199000
2840
+ },
2841
+ {
2842
+ "epoch": 4.386447087794903,
2843
+ "grad_norm": 0.25309285521507263,
2844
+ "learning_rate": 3.68131747323058e-06,
2845
+ "loss": 0.2161,
2846
+ "step": 199500
2847
+ },
2848
+ {
2849
+ "epoch": 4.3974406895187,
2850
+ "grad_norm": 0.17074181139469147,
2851
+ "learning_rate": 3.6153558628877997e-06,
2852
+ "loss": 0.1836,
2853
+ "step": 200000
2854
+ },
2855
+ {
2856
+ "epoch": 4.4084342912424965,
2857
+ "grad_norm": 20.413162231445312,
2858
+ "learning_rate": 3.549394252545019e-06,
2859
+ "loss": 0.1911,
2860
+ "step": 200500
2861
+ },
2862
+ {
2863
+ "epoch": 4.419427892966294,
2864
+ "grad_norm": 0.5931562781333923,
2865
+ "learning_rate": 3.4834326422022384e-06,
2866
+ "loss": 0.1847,
2867
+ "step": 201000
2868
+ },
2869
+ {
2870
+ "epoch": 4.430421494690091,
2871
+ "grad_norm": 37.10576248168945,
2872
+ "learning_rate": 3.417471031859458e-06,
2873
+ "loss": 0.1657,
2874
+ "step": 201500
2875
+ },
2876
+ {
2877
+ "epoch": 4.441415096413887,
2878
+ "grad_norm": 0.06108024716377258,
2879
+ "learning_rate": 3.3515094215166776e-06,
2880
+ "loss": 0.1949,
2881
+ "step": 202000
2882
+ },
2883
+ {
2884
+ "epoch": 4.452408698137684,
2885
+ "grad_norm": 14.7476224899292,
2886
+ "learning_rate": 3.285547811173897e-06,
2887
+ "loss": 0.2052,
2888
+ "step": 202500
2889
+ },
2890
+ {
2891
+ "epoch": 4.463402299861481,
2892
+ "grad_norm": 0.4280465841293335,
2893
+ "learning_rate": 3.2195862008311163e-06,
2894
+ "loss": 0.2127,
2895
+ "step": 203000
2896
+ },
2897
+ {
2898
+ "epoch": 4.474395901585277,
2899
+ "grad_norm": 0.38156208395957947,
2900
+ "learning_rate": 3.153624590488336e-06,
2901
+ "loss": 0.1949,
2902
+ "step": 203500
2903
+ },
2904
+ {
2905
+ "epoch": 4.485389503309074,
2906
+ "grad_norm": 325.33026123046875,
2907
+ "learning_rate": 3.0876629801455555e-06,
2908
+ "loss": 0.1976,
2909
+ "step": 204000
2910
+ },
2911
+ {
2912
+ "epoch": 4.496383105032871,
2913
+ "grad_norm": 99.75337982177734,
2914
+ "learning_rate": 3.021701369802775e-06,
2915
+ "loss": 0.2031,
2916
+ "step": 204500
2917
+ },
2918
+ {
2919
+ "epoch": 4.507376706756667,
2920
+ "grad_norm": 0.17061945796012878,
2921
+ "learning_rate": 2.9557397594599946e-06,
2922
+ "loss": 0.1964,
2923
+ "step": 205000
2924
+ },
2925
+ {
2926
+ "epoch": 4.518370308480464,
2927
+ "grad_norm": 25.07261085510254,
2928
+ "learning_rate": 2.8897781491172138e-06,
2929
+ "loss": 0.1875,
2930
+ "step": 205500
2931
+ },
2932
+ {
2933
+ "epoch": 4.529363910204261,
2934
+ "grad_norm": 0.2692670226097107,
2935
+ "learning_rate": 2.8238165387744334e-06,
2936
+ "loss": 0.1978,
2937
+ "step": 206000
2938
+ },
2939
+ {
2940
+ "epoch": 4.5403575119280575,
2941
+ "grad_norm": 2.56193470954895,
2942
+ "learning_rate": 2.757854928431653e-06,
2943
+ "loss": 0.207,
2944
+ "step": 206500
2945
+ },
2946
+ {
2947
+ "epoch": 4.5513511136518545,
2948
+ "grad_norm": 1.1347905397415161,
2949
+ "learning_rate": 2.6918933180888725e-06,
2950
+ "loss": 0.2049,
2951
+ "step": 207000
2952
+ },
2953
+ {
2954
+ "epoch": 4.562344715375652,
2955
+ "grad_norm": 0.9405034184455872,
2956
+ "learning_rate": 2.625931707746092e-06,
2957
+ "loss": 0.182,
2958
+ "step": 207500
2959
+ },
2960
+ {
2961
+ "epoch": 4.573338317099449,
2962
+ "grad_norm": 0.10386385023593903,
2963
+ "learning_rate": 2.5599700974033112e-06,
2964
+ "loss": 0.1816,
2965
+ "step": 208000
2966
+ },
2967
+ {
2968
+ "epoch": 4.584331918823245,
2969
+ "grad_norm": 1.0305184125900269,
2970
+ "learning_rate": 2.494008487060531e-06,
2971
+ "loss": 0.208,
2972
+ "step": 208500
2973
+ },
2974
+ {
2975
+ "epoch": 4.595325520547042,
2976
+ "grad_norm": 5.062295913696289,
2977
+ "learning_rate": 2.4280468767177504e-06,
2978
+ "loss": 0.1918,
2979
+ "step": 209000
2980
+ },
2981
+ {
2982
+ "epoch": 4.606319122270838,
2983
+ "grad_norm": 13.542932510375977,
2984
+ "learning_rate": 2.36208526637497e-06,
2985
+ "loss": 0.2016,
2986
+ "step": 209500
2987
+ },
2988
+ {
2989
+ "epoch": 4.617312723994635,
2990
+ "grad_norm": 28.13912582397461,
2991
+ "learning_rate": 2.2961236560321896e-06,
2992
+ "loss": 0.2065,
2993
+ "step": 210000
2994
+ },
2995
+ {
2996
+ "epoch": 4.628306325718432,
2997
+ "grad_norm": 38.89891052246094,
2998
+ "learning_rate": 2.2301620456894087e-06,
2999
+ "loss": 0.1951,
3000
+ "step": 210500
3001
+ },
3002
+ {
3003
+ "epoch": 4.639299927442229,
3004
+ "grad_norm": 220.25010681152344,
3005
+ "learning_rate": 2.1642004353466283e-06,
3006
+ "loss": 0.2243,
3007
+ "step": 211000
3008
+ },
3009
+ {
3010
+ "epoch": 4.650293529166025,
3011
+ "grad_norm": 0.11063925921916962,
3012
+ "learning_rate": 2.098238825003848e-06,
3013
+ "loss": 0.1862,
3014
+ "step": 211500
3015
+ },
3016
+ {
3017
+ "epoch": 4.661287130889822,
3018
+ "grad_norm": 0.9656747579574585,
3019
+ "learning_rate": 2.0322772146610674e-06,
3020
+ "loss": 0.1796,
3021
+ "step": 212000
3022
+ },
3023
+ {
3024
+ "epoch": 4.672280732613618,
3025
+ "grad_norm": 0.03588191047310829,
3026
+ "learning_rate": 1.966315604318287e-06,
3027
+ "loss": 0.1936,
3028
+ "step": 212500
3029
+ },
3030
+ {
3031
+ "epoch": 4.6832743343374155,
3032
+ "grad_norm": 25.791149139404297,
3033
+ "learning_rate": 1.9003539939755062e-06,
3034
+ "loss": 0.2102,
3035
+ "step": 213000
3036
+ },
3037
+ {
3038
+ "epoch": 4.6942679360612125,
3039
+ "grad_norm": 1.5398284196853638,
3040
+ "learning_rate": 1.8343923836327257e-06,
3041
+ "loss": 0.1941,
3042
+ "step": 213500
3043
+ },
3044
+ {
3045
+ "epoch": 4.7052615377850096,
3046
+ "grad_norm": 0.8514572978019714,
3047
+ "learning_rate": 1.7684307732899453e-06,
3048
+ "loss": 0.2124,
3049
+ "step": 214000
3050
+ },
3051
+ {
3052
+ "epoch": 4.716255139508806,
3053
+ "grad_norm": 0.1109534353017807,
3054
+ "learning_rate": 1.7024691629471647e-06,
3055
+ "loss": 0.1896,
3056
+ "step": 214500
3057
+ },
3058
+ {
3059
+ "epoch": 4.727248741232603,
3060
+ "grad_norm": 33.977500915527344,
3061
+ "learning_rate": 1.6365075526043843e-06,
3062
+ "loss": 0.1868,
3063
+ "step": 215000
3064
+ },
3065
+ {
3066
+ "epoch": 4.738242342956399,
3067
+ "grad_norm": 0.09221459925174713,
3068
+ "learning_rate": 1.5705459422616038e-06,
3069
+ "loss": 0.2147,
3070
+ "step": 215500
3071
+ },
3072
+ {
3073
+ "epoch": 4.749235944680196,
3074
+ "grad_norm": 0.13753363490104675,
3075
+ "learning_rate": 1.5045843319188232e-06,
3076
+ "loss": 0.1805,
3077
+ "step": 216000
3078
+ },
3079
+ {
3080
+ "epoch": 4.760229546403993,
3081
+ "grad_norm": 0.03300468996167183,
3082
+ "learning_rate": 1.4386227215760428e-06,
3083
+ "loss": 0.195,
3084
+ "step": 216500
3085
+ },
3086
+ {
3087
+ "epoch": 4.77122314812779,
3088
+ "grad_norm": 52.13509750366211,
3089
+ "learning_rate": 1.3726611112332624e-06,
3090
+ "loss": 0.1934,
3091
+ "step": 217000
3092
+ },
3093
+ {
3094
+ "epoch": 4.782216749851586,
3095
+ "grad_norm": 0.05201047658920288,
3096
+ "learning_rate": 1.3066995008904817e-06,
3097
+ "loss": 0.1986,
3098
+ "step": 217500
3099
+ },
3100
+ {
3101
+ "epoch": 4.793210351575383,
3102
+ "grad_norm": 0.15796062350273132,
3103
+ "learning_rate": 1.2407378905477013e-06,
3104
+ "loss": 0.189,
3105
+ "step": 218000
3106
+ },
3107
+ {
3108
+ "epoch": 4.80420395329918,
3109
+ "grad_norm": 0.603727400302887,
3110
+ "learning_rate": 1.1747762802049207e-06,
3111
+ "loss": 0.194,
3112
+ "step": 218500
3113
+ },
3114
+ {
3115
+ "epoch": 4.815197555022976,
3116
+ "grad_norm": 19.412994384765625,
3117
+ "learning_rate": 1.1088146698621402e-06,
3118
+ "loss": 0.2022,
3119
+ "step": 219000
3120
+ },
3121
+ {
3122
+ "epoch": 4.8261911567467735,
3123
+ "grad_norm": 0.08504907041788101,
3124
+ "learning_rate": 1.0428530595193598e-06,
3125
+ "loss": 0.1858,
3126
+ "step": 219500
3127
+ },
3128
+ {
3129
+ "epoch": 4.8371847584705705,
3130
+ "grad_norm": 0.07863516360521317,
3131
+ "learning_rate": 9.768914491765792e-07,
3132
+ "loss": 0.1942,
3133
+ "step": 220000
3134
+ },
3135
+ {
3136
+ "epoch": 4.848178360194367,
3137
+ "grad_norm": 23.51129722595215,
3138
+ "learning_rate": 9.109298388337987e-07,
3139
+ "loss": 0.1912,
3140
+ "step": 220500
3141
+ },
3142
+ {
3143
+ "epoch": 4.859171961918164,
3144
+ "grad_norm": 5.780854225158691,
3145
+ "learning_rate": 8.449682284910183e-07,
3146
+ "loss": 0.2185,
3147
+ "step": 221000
3148
+ },
3149
+ {
3150
+ "epoch": 4.870165563641961,
3151
+ "grad_norm": 0.05857408419251442,
3152
+ "learning_rate": 7.790066181482378e-07,
3153
+ "loss": 0.1914,
3154
+ "step": 221500
3155
+ },
3156
+ {
3157
+ "epoch": 4.881159165365757,
3158
+ "grad_norm": 0.18249481916427612,
3159
+ "learning_rate": 7.130450078054573e-07,
3160
+ "loss": 0.1738,
3161
+ "step": 222000
3162
+ },
3163
+ {
3164
+ "epoch": 4.892152767089554,
3165
+ "grad_norm": 418.6382751464844,
3166
+ "learning_rate": 6.470833974626767e-07,
3167
+ "loss": 0.2041,
3168
+ "step": 222500
3169
+ },
3170
+ {
3171
+ "epoch": 4.903146368813351,
3172
+ "grad_norm": 0.7230046987533569,
3173
+ "learning_rate": 5.811217871198962e-07,
3174
+ "loss": 0.1957,
3175
+ "step": 223000
3176
+ },
3177
+ {
3178
+ "epoch": 4.914139970537147,
3179
+ "grad_norm": 0.05270848050713539,
3180
+ "learning_rate": 5.151601767771158e-07,
3181
+ "loss": 0.1835,
3182
+ "step": 223500
3183
+ },
3184
+ {
3185
+ "epoch": 4.925133572260944,
3186
+ "grad_norm": 1709.6539306640625,
3187
+ "learning_rate": 4.491985664343352e-07,
3188
+ "loss": 0.1921,
3189
+ "step": 224000
3190
+ },
3191
+ {
3192
+ "epoch": 4.936127173984741,
3193
+ "grad_norm": 602.2431640625,
3194
+ "learning_rate": 3.8323695609155474e-07,
3195
+ "loss": 0.1727,
3196
+ "step": 224500
3197
+ },
3198
+ {
3199
+ "epoch": 4.947120775708537,
3200
+ "grad_norm": 0.297931432723999,
3201
+ "learning_rate": 3.1727534574877426e-07,
3202
+ "loss": 0.1915,
3203
+ "step": 225000
3204
+ },
3205
+ {
3206
+ "epoch": 4.958114377432334,
3207
+ "grad_norm": 0.3502364456653595,
3208
+ "learning_rate": 2.5131373540599373e-07,
3209
+ "loss": 0.1776,
3210
+ "step": 225500
3211
+ },
3212
+ {
3213
+ "epoch": 4.9691079791561314,
3214
+ "grad_norm": 0.023652415722608566,
3215
+ "learning_rate": 1.8535212506321323e-07,
3216
+ "loss": 0.1978,
3217
+ "step": 226000
3218
+ },
3219
+ {
3220
+ "epoch": 4.980101580879928,
3221
+ "grad_norm": 0.24965056777000427,
3222
+ "learning_rate": 1.1939051472043273e-07,
3223
+ "loss": 0.1924,
3224
+ "step": 226500
3225
+ },
3226
+ {
3227
+ "epoch": 4.991095182603725,
3228
+ "grad_norm": 0.07366069406270981,
3229
+ "learning_rate": 5.342890437765221e-08,
3230
+ "loss": 0.1959,
3231
+ "step": 227000
3232
+ },
3233
+ {
3234
+ "epoch": 5.0,
3235
+ "eval_accuracy": 0.8784565925598145,
3236
+ "eval_f1": 0.8391068037456617,
3237
+ "eval_loss": 0.6183628439903259,
3238
+ "eval_mcc": 0.7416813202825935,
3239
+ "eval_runtime": 27.9497,
3240
+ "eval_samples_per_second": 723.264,
3241
+ "eval_steps_per_second": 90.412,
3242
+ "step": 227405
3243
+ }
3244
+ ],
3245
+ "logging_steps": 500,
3246
+ "max_steps": 227405,
3247
+ "num_input_tokens_seen": 0,
3248
+ "num_train_epochs": 5,
3249
+ "save_steps": 500,
3250
+ "stateful_callbacks": {
3251
+ "EarlyStoppingCallback": {
3252
+ "args": {
3253
+ "early_stopping_patience": 3,
3254
+ "early_stopping_threshold": 0.001
3255
+ },
3256
+ "attributes": {
3257
+ "early_stopping_patience_counter": 0
3258
+ }
3259
+ },
3260
+ "TrainerControl": {
3261
+ "args": {
3262
+ "should_epoch_stop": false,
3263
+ "should_evaluate": false,
3264
+ "should_log": false,
3265
+ "should_save": true,
3266
+ "should_training_stop": true
3267
+ },
3268
+ "attributes": {}
3269
+ }
3270
+ },
3271
+ "total_flos": 1.0733045580407808e+17,
3272
+ "train_batch_size": 8,
3273
+ "trial_name": null,
3274
+ "trial_params": null
3275
+ }
checkpoint-227405/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9102610016ca6c2e94e5a432dca6e3560bc70a8cee9cd206437719ad130f70a2
3
+ size 5368
config.json ADDED
@@ -0,0 +1,33 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "/home/ubuntu/utah/babylm-24/data/training/models/10M_babylm_ascii/SPM-Unigram_6144/DebertaV2-Base-10M_babylm-A",
3
+ "architectures": [
4
+ "DebertaV2ForSequenceClassification"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.1,
9
+ "hidden_size": 768,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 1536,
12
+ "label2id": {
13
+ "0": 0,
14
+ "1": 1
15
+ },
16
+ "layer_norm_eps": 1e-07,
17
+ "max_position_embeddings": 512,
18
+ "max_relative_positions": -1,
19
+ "model_type": "deberta-v2",
20
+ "num_attention_heads": 12,
21
+ "num_hidden_layers": 8,
22
+ "pad_token_id": 3,
23
+ "pooler_dropout": 0,
24
+ "pooler_hidden_act": "gelu",
25
+ "pooler_hidden_size": 768,
26
+ "pos_att_type": null,
27
+ "position_biased_input": true,
28
+ "relative_attention": false,
29
+ "torch_dtype": "float32",
30
+ "transformers_version": "4.44.2",
31
+ "type_vocab_size": 0,
32
+ "vocab_size": 6144
33
+ }
eval_results.json ADDED
@@ -0,0 +1,11 @@
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 5.0,
3
+ "eval_accuracy": 0.8784565925598145,
4
+ "eval_f1": 0.8391068037456617,
5
+ "eval_loss": 0.6183628439903259,
6
+ "eval_mcc": 0.7416813202825935,
7
+ "eval_runtime": 28.8569,
8
+ "eval_samples": 20215,
9
+ "eval_samples_per_second": 700.527,
10
+ "eval_steps_per_second": 87.57
11
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f97daf1876bf1de0982be1e49272d7991694e777d6e5e7f809ada44173ab14fc
3
+ size 174103504
predictions.txt ADDED
The diff for this file is too large to render. See raw diff
 
special_tokens_map.json ADDED
@@ -0,0 +1,30 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ }
30
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,67 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[UNK]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "[CLS]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "[SEP]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "[PAD]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "4": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ },
43
+ "5": {
44
+ "content": "[PAR]",
45
+ "lstrip": false,
46
+ "normalized": false,
47
+ "rstrip": false,
48
+ "single_word": false,
49
+ "special": true
50
+ },
51
+ "6": {
52
+ "content": "[TAB]",
53
+ "lstrip": false,
54
+ "normalized": false,
55
+ "rstrip": false,
56
+ "single_word": false,
57
+ "special": true
58
+ }
59
+ },
60
+ "clean_up_tokenization_spaces": false,
61
+ "cls_token": "[CLS]",
62
+ "mask_token": "[MASK]",
63
+ "model_max_length": 1000000000000000019884624838656,
64
+ "pad_token": "[PAD]",
65
+ "sep_token": "[SEP]",
66
+ "tokenizer_class": "PreTrainedTokenizerFast"
67
+ }
train_results.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 5.0,
3
+ "total_flos": 1.0733045580407808e+17,
4
+ "train_loss": 0.30088049875882883,
5
+ "train_runtime": 13193.5971,
6
+ "train_samples": 363846,
7
+ "train_samples_per_second": 137.887,
8
+ "train_steps_per_second": 17.236
9
+ }
trainer_state.json ADDED
@@ -0,0 +1,3284 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.8391068037456617,
3
+ "best_model_checkpoint": "/home/ubuntu/utah/babylm-24/src/evaluation/results/finetune/DebertaV2-Base-10M_babylm-A/qqp/checkpoint-227405",
4
+ "epoch": 5.0,
5
+ "eval_steps": 500,
6
+ "global_step": 227405,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.01099360172379675,
13
+ "grad_norm": 4.236701011657715,
14
+ "learning_rate": 2.993403838965722e-05,
15
+ "loss": 0.6086,
16
+ "step": 500
17
+ },
18
+ {
19
+ "epoch": 0.0219872034475935,
20
+ "grad_norm": 4.105135440826416,
21
+ "learning_rate": 2.986807677931444e-05,
22
+ "loss": 0.5618,
23
+ "step": 1000
24
+ },
25
+ {
26
+ "epoch": 0.03298080517139025,
27
+ "grad_norm": 5.613928318023682,
28
+ "learning_rate": 2.980211516897166e-05,
29
+ "loss": 0.5252,
30
+ "step": 1500
31
+ },
32
+ {
33
+ "epoch": 0.043974406895187,
34
+ "grad_norm": 12.754159927368164,
35
+ "learning_rate": 2.973615355862888e-05,
36
+ "loss": 0.5182,
37
+ "step": 2000
38
+ },
39
+ {
40
+ "epoch": 0.05496800861898375,
41
+ "grad_norm": 5.488389015197754,
42
+ "learning_rate": 2.9670191948286098e-05,
43
+ "loss": 0.505,
44
+ "step": 2500
45
+ },
46
+ {
47
+ "epoch": 0.0659616103427805,
48
+ "grad_norm": 5.46230936050415,
49
+ "learning_rate": 2.9604230337943316e-05,
50
+ "loss": 0.5044,
51
+ "step": 3000
52
+ },
53
+ {
54
+ "epoch": 0.07695521206657725,
55
+ "grad_norm": 13.249972343444824,
56
+ "learning_rate": 2.9538268727600537e-05,
57
+ "loss": 0.498,
58
+ "step": 3500
59
+ },
60
+ {
61
+ "epoch": 0.087948813790374,
62
+ "grad_norm": 13.043343544006348,
63
+ "learning_rate": 2.9472307117257757e-05,
64
+ "loss": 0.479,
65
+ "step": 4000
66
+ },
67
+ {
68
+ "epoch": 0.09894241551417075,
69
+ "grad_norm": 14.147295951843262,
70
+ "learning_rate": 2.9406345506914978e-05,
71
+ "loss": 0.4692,
72
+ "step": 4500
73
+ },
74
+ {
75
+ "epoch": 0.1099360172379675,
76
+ "grad_norm": 8.739255905151367,
77
+ "learning_rate": 2.9340383896572196e-05,
78
+ "loss": 0.4703,
79
+ "step": 5000
80
+ },
81
+ {
82
+ "epoch": 0.12092961896176425,
83
+ "grad_norm": 11.371148109436035,
84
+ "learning_rate": 2.9274422286229417e-05,
85
+ "loss": 0.4557,
86
+ "step": 5500
87
+ },
88
+ {
89
+ "epoch": 0.131923220685561,
90
+ "grad_norm": 8.44424057006836,
91
+ "learning_rate": 2.9208460675886637e-05,
92
+ "loss": 0.4635,
93
+ "step": 6000
94
+ },
95
+ {
96
+ "epoch": 0.14291682240935774,
97
+ "grad_norm": 3.9929113388061523,
98
+ "learning_rate": 2.914249906554385e-05,
99
+ "loss": 0.4651,
100
+ "step": 6500
101
+ },
102
+ {
103
+ "epoch": 0.1539104241331545,
104
+ "grad_norm": 3.4015634059906006,
105
+ "learning_rate": 2.9076537455201072e-05,
106
+ "loss": 0.4537,
107
+ "step": 7000
108
+ },
109
+ {
110
+ "epoch": 0.16490402585695124,
111
+ "grad_norm": 4.32379674911499,
112
+ "learning_rate": 2.9010575844858293e-05,
113
+ "loss": 0.4445,
114
+ "step": 7500
115
+ },
116
+ {
117
+ "epoch": 0.175897627580748,
118
+ "grad_norm": 5.210988521575928,
119
+ "learning_rate": 2.8944614234515514e-05,
120
+ "loss": 0.4326,
121
+ "step": 8000
122
+ },
123
+ {
124
+ "epoch": 0.18689122930454474,
125
+ "grad_norm": 3.908278226852417,
126
+ "learning_rate": 2.887865262417273e-05,
127
+ "loss": 0.4454,
128
+ "step": 8500
129
+ },
130
+ {
131
+ "epoch": 0.1978848310283415,
132
+ "grad_norm": 2.8256139755249023,
133
+ "learning_rate": 2.8812691013829952e-05,
134
+ "loss": 0.438,
135
+ "step": 9000
136
+ },
137
+ {
138
+ "epoch": 0.20887843275213824,
139
+ "grad_norm": 7.012328624725342,
140
+ "learning_rate": 2.8746729403487173e-05,
141
+ "loss": 0.4333,
142
+ "step": 9500
143
+ },
144
+ {
145
+ "epoch": 0.219872034475935,
146
+ "grad_norm": 5.030713081359863,
147
+ "learning_rate": 2.8680767793144394e-05,
148
+ "loss": 0.4588,
149
+ "step": 10000
150
+ },
151
+ {
152
+ "epoch": 0.23086563619973174,
153
+ "grad_norm": 10.047335624694824,
154
+ "learning_rate": 2.8614806182801608e-05,
155
+ "loss": 0.4418,
156
+ "step": 10500
157
+ },
158
+ {
159
+ "epoch": 0.2418592379235285,
160
+ "grad_norm": 5.562270164489746,
161
+ "learning_rate": 2.854884457245883e-05,
162
+ "loss": 0.4375,
163
+ "step": 11000
164
+ },
165
+ {
166
+ "epoch": 0.25285283964732524,
167
+ "grad_norm": 14.433082580566406,
168
+ "learning_rate": 2.848288296211605e-05,
169
+ "loss": 0.4278,
170
+ "step": 11500
171
+ },
172
+ {
173
+ "epoch": 0.263846441371122,
174
+ "grad_norm": 3.507910966873169,
175
+ "learning_rate": 2.8416921351773267e-05,
176
+ "loss": 0.4331,
177
+ "step": 12000
178
+ },
179
+ {
180
+ "epoch": 0.2748400430949188,
181
+ "grad_norm": 13.184822082519531,
182
+ "learning_rate": 2.8350959741430488e-05,
183
+ "loss": 0.4325,
184
+ "step": 12500
185
+ },
186
+ {
187
+ "epoch": 0.2858336448187155,
188
+ "grad_norm": 11.627528190612793,
189
+ "learning_rate": 2.828499813108771e-05,
190
+ "loss": 0.4283,
191
+ "step": 13000
192
+ },
193
+ {
194
+ "epoch": 0.29682724654251225,
195
+ "grad_norm": 4.054474830627441,
196
+ "learning_rate": 2.821903652074493e-05,
197
+ "loss": 0.4361,
198
+ "step": 13500
199
+ },
200
+ {
201
+ "epoch": 0.307820848266309,
202
+ "grad_norm": 7.193812847137451,
203
+ "learning_rate": 2.8153074910402147e-05,
204
+ "loss": 0.4251,
205
+ "step": 14000
206
+ },
207
+ {
208
+ "epoch": 0.3188144499901058,
209
+ "grad_norm": 4.036972999572754,
210
+ "learning_rate": 2.8087113300059365e-05,
211
+ "loss": 0.4233,
212
+ "step": 14500
213
+ },
214
+ {
215
+ "epoch": 0.3298080517139025,
216
+ "grad_norm": 6.451129913330078,
217
+ "learning_rate": 2.8021151689716586e-05,
218
+ "loss": 0.4407,
219
+ "step": 15000
220
+ },
221
+ {
222
+ "epoch": 0.34080165343769925,
223
+ "grad_norm": 6.5472612380981445,
224
+ "learning_rate": 2.7955190079373803e-05,
225
+ "loss": 0.4158,
226
+ "step": 15500
227
+ },
228
+ {
229
+ "epoch": 0.351795255161496,
230
+ "grad_norm": 16.589092254638672,
231
+ "learning_rate": 2.7889228469031024e-05,
232
+ "loss": 0.4261,
233
+ "step": 16000
234
+ },
235
+ {
236
+ "epoch": 0.3627888568852928,
237
+ "grad_norm": 6.696326732635498,
238
+ "learning_rate": 2.7823266858688245e-05,
239
+ "loss": 0.4111,
240
+ "step": 16500
241
+ },
242
+ {
243
+ "epoch": 0.3737824586090895,
244
+ "grad_norm": 4.396112442016602,
245
+ "learning_rate": 2.7757305248345466e-05,
246
+ "loss": 0.4236,
247
+ "step": 17000
248
+ },
249
+ {
250
+ "epoch": 0.38477606033288625,
251
+ "grad_norm": 7.1260986328125,
252
+ "learning_rate": 2.7691343638002683e-05,
253
+ "loss": 0.413,
254
+ "step": 17500
255
+ },
256
+ {
257
+ "epoch": 0.395769662056683,
258
+ "grad_norm": 8.553855895996094,
259
+ "learning_rate": 2.7625382027659904e-05,
260
+ "loss": 0.4105,
261
+ "step": 18000
262
+ },
263
+ {
264
+ "epoch": 0.4067632637804798,
265
+ "grad_norm": 1.411335825920105,
266
+ "learning_rate": 2.755942041731712e-05,
267
+ "loss": 0.3977,
268
+ "step": 18500
269
+ },
270
+ {
271
+ "epoch": 0.4177568655042765,
272
+ "grad_norm": 12.823638916015625,
273
+ "learning_rate": 2.7493458806974342e-05,
274
+ "loss": 0.4143,
275
+ "step": 19000
276
+ },
277
+ {
278
+ "epoch": 0.42875046722807325,
279
+ "grad_norm": 11.823991775512695,
280
+ "learning_rate": 2.742749719663156e-05,
281
+ "loss": 0.4002,
282
+ "step": 19500
283
+ },
284
+ {
285
+ "epoch": 0.43974406895187,
286
+ "grad_norm": 5.152065753936768,
287
+ "learning_rate": 2.736153558628878e-05,
288
+ "loss": 0.4001,
289
+ "step": 20000
290
+ },
291
+ {
292
+ "epoch": 0.4507376706756668,
293
+ "grad_norm": 2.0797653198242188,
294
+ "learning_rate": 2.7295573975946e-05,
295
+ "loss": 0.4137,
296
+ "step": 20500
297
+ },
298
+ {
299
+ "epoch": 0.4617312723994635,
300
+ "grad_norm": 5.874008655548096,
301
+ "learning_rate": 2.722961236560322e-05,
302
+ "loss": 0.4166,
303
+ "step": 21000
304
+ },
305
+ {
306
+ "epoch": 0.47272487412326025,
307
+ "grad_norm": 20.658824920654297,
308
+ "learning_rate": 2.716365075526044e-05,
309
+ "loss": 0.4072,
310
+ "step": 21500
311
+ },
312
+ {
313
+ "epoch": 0.483718475847057,
314
+ "grad_norm": 11.262660026550293,
315
+ "learning_rate": 2.709768914491766e-05,
316
+ "loss": 0.4048,
317
+ "step": 22000
318
+ },
319
+ {
320
+ "epoch": 0.4947120775708538,
321
+ "grad_norm": 8.16556167602539,
322
+ "learning_rate": 2.7031727534574878e-05,
323
+ "loss": 0.4059,
324
+ "step": 22500
325
+ },
326
+ {
327
+ "epoch": 0.5057056792946505,
328
+ "grad_norm": 12.176790237426758,
329
+ "learning_rate": 2.6965765924232095e-05,
330
+ "loss": 0.415,
331
+ "step": 23000
332
+ },
333
+ {
334
+ "epoch": 0.5166992810184473,
335
+ "grad_norm": 8.630789756774902,
336
+ "learning_rate": 2.6899804313889316e-05,
337
+ "loss": 0.4059,
338
+ "step": 23500
339
+ },
340
+ {
341
+ "epoch": 0.527692882742244,
342
+ "grad_norm": 11.014044761657715,
343
+ "learning_rate": 2.6833842703546537e-05,
344
+ "loss": 0.3804,
345
+ "step": 24000
346
+ },
347
+ {
348
+ "epoch": 0.5386864844660407,
349
+ "grad_norm": 12.287202835083008,
350
+ "learning_rate": 2.6767881093203758e-05,
351
+ "loss": 0.4046,
352
+ "step": 24500
353
+ },
354
+ {
355
+ "epoch": 0.5496800861898375,
356
+ "grad_norm": 6.118470668792725,
357
+ "learning_rate": 2.6701919482860975e-05,
358
+ "loss": 0.398,
359
+ "step": 25000
360
+ },
361
+ {
362
+ "epoch": 0.5606736879136343,
363
+ "grad_norm": 17.233190536499023,
364
+ "learning_rate": 2.6635957872518196e-05,
365
+ "loss": 0.4013,
366
+ "step": 25500
367
+ },
368
+ {
369
+ "epoch": 0.571667289637431,
370
+ "grad_norm": 15.902141571044922,
371
+ "learning_rate": 2.6569996262175417e-05,
372
+ "loss": 0.4158,
373
+ "step": 26000
374
+ },
375
+ {
376
+ "epoch": 0.5826608913612278,
377
+ "grad_norm": 6.975952625274658,
378
+ "learning_rate": 2.650403465183263e-05,
379
+ "loss": 0.3939,
380
+ "step": 26500
381
+ },
382
+ {
383
+ "epoch": 0.5936544930850245,
384
+ "grad_norm": 19.319835662841797,
385
+ "learning_rate": 2.6438073041489852e-05,
386
+ "loss": 0.4021,
387
+ "step": 27000
388
+ },
389
+ {
390
+ "epoch": 0.6046480948088213,
391
+ "grad_norm": 3.9395010471343994,
392
+ "learning_rate": 2.6372111431147073e-05,
393
+ "loss": 0.4015,
394
+ "step": 27500
395
+ },
396
+ {
397
+ "epoch": 0.615641696532618,
398
+ "grad_norm": 7.098001956939697,
399
+ "learning_rate": 2.6306149820804294e-05,
400
+ "loss": 0.3876,
401
+ "step": 28000
402
+ },
403
+ {
404
+ "epoch": 0.6266352982564147,
405
+ "grad_norm": 3.967722177505493,
406
+ "learning_rate": 2.624018821046151e-05,
407
+ "loss": 0.3935,
408
+ "step": 28500
409
+ },
410
+ {
411
+ "epoch": 0.6376288999802115,
412
+ "grad_norm": 5.257786273956299,
413
+ "learning_rate": 2.6174226600118732e-05,
414
+ "loss": 0.3959,
415
+ "step": 29000
416
+ },
417
+ {
418
+ "epoch": 0.6486225017040083,
419
+ "grad_norm": 17.10645294189453,
420
+ "learning_rate": 2.6108264989775953e-05,
421
+ "loss": 0.3948,
422
+ "step": 29500
423
+ },
424
+ {
425
+ "epoch": 0.659616103427805,
426
+ "grad_norm": 14.60950756072998,
427
+ "learning_rate": 2.6042303379433174e-05,
428
+ "loss": 0.4078,
429
+ "step": 30000
430
+ },
431
+ {
432
+ "epoch": 0.6706097051516018,
433
+ "grad_norm": 6.0776166915893555,
434
+ "learning_rate": 2.5976341769090388e-05,
435
+ "loss": 0.3831,
436
+ "step": 30500
437
+ },
438
+ {
439
+ "epoch": 0.6816033068753985,
440
+ "grad_norm": 1.830690622329712,
441
+ "learning_rate": 2.591038015874761e-05,
442
+ "loss": 0.3911,
443
+ "step": 31000
444
+ },
445
+ {
446
+ "epoch": 0.6925969085991953,
447
+ "grad_norm": 16.717496871948242,
448
+ "learning_rate": 2.584441854840483e-05,
449
+ "loss": 0.3926,
450
+ "step": 31500
451
+ },
452
+ {
453
+ "epoch": 0.703590510322992,
454
+ "grad_norm": 4.424517631530762,
455
+ "learning_rate": 2.5778456938062047e-05,
456
+ "loss": 0.3931,
457
+ "step": 32000
458
+ },
459
+ {
460
+ "epoch": 0.7145841120467887,
461
+ "grad_norm": 6.995429992675781,
462
+ "learning_rate": 2.5712495327719268e-05,
463
+ "loss": 0.3912,
464
+ "step": 32500
465
+ },
466
+ {
467
+ "epoch": 0.7255777137705856,
468
+ "grad_norm": 6.78953742980957,
469
+ "learning_rate": 2.564653371737649e-05,
470
+ "loss": 0.3858,
471
+ "step": 33000
472
+ },
473
+ {
474
+ "epoch": 0.7365713154943823,
475
+ "grad_norm": 12.592966079711914,
476
+ "learning_rate": 2.558057210703371e-05,
477
+ "loss": 0.3822,
478
+ "step": 33500
479
+ },
480
+ {
481
+ "epoch": 0.747564917218179,
482
+ "grad_norm": 1.8982641696929932,
483
+ "learning_rate": 2.5514610496690927e-05,
484
+ "loss": 0.3964,
485
+ "step": 34000
486
+ },
487
+ {
488
+ "epoch": 0.7585585189419758,
489
+ "grad_norm": 3.2166171073913574,
490
+ "learning_rate": 2.5448648886348144e-05,
491
+ "loss": 0.3902,
492
+ "step": 34500
493
+ },
494
+ {
495
+ "epoch": 0.7695521206657725,
496
+ "grad_norm": 10.258162498474121,
497
+ "learning_rate": 2.5382687276005365e-05,
498
+ "loss": 0.3691,
499
+ "step": 35000
500
+ },
501
+ {
502
+ "epoch": 0.7805457223895693,
503
+ "grad_norm": 2.9836630821228027,
504
+ "learning_rate": 2.5316725665662583e-05,
505
+ "loss": 0.3937,
506
+ "step": 35500
507
+ },
508
+ {
509
+ "epoch": 0.791539324113366,
510
+ "grad_norm": 10.085326194763184,
511
+ "learning_rate": 2.5250764055319804e-05,
512
+ "loss": 0.3897,
513
+ "step": 36000
514
+ },
515
+ {
516
+ "epoch": 0.8025329258371627,
517
+ "grad_norm": 8.519903182983398,
518
+ "learning_rate": 2.5184802444977024e-05,
519
+ "loss": 0.361,
520
+ "step": 36500
521
+ },
522
+ {
523
+ "epoch": 0.8135265275609596,
524
+ "grad_norm": 4.746450901031494,
525
+ "learning_rate": 2.5118840834634245e-05,
526
+ "loss": 0.3845,
527
+ "step": 37000
528
+ },
529
+ {
530
+ "epoch": 0.8245201292847563,
531
+ "grad_norm": 13.058253288269043,
532
+ "learning_rate": 2.5052879224291463e-05,
533
+ "loss": 0.3871,
534
+ "step": 37500
535
+ },
536
+ {
537
+ "epoch": 0.835513731008553,
538
+ "grad_norm": 2.8094441890716553,
539
+ "learning_rate": 2.4986917613948684e-05,
540
+ "loss": 0.4012,
541
+ "step": 38000
542
+ },
543
+ {
544
+ "epoch": 0.8465073327323498,
545
+ "grad_norm": 4.1435770988464355,
546
+ "learning_rate": 2.49209560036059e-05,
547
+ "loss": 0.3802,
548
+ "step": 38500
549
+ },
550
+ {
551
+ "epoch": 0.8575009344561465,
552
+ "grad_norm": 12.436211585998535,
553
+ "learning_rate": 2.4854994393263122e-05,
554
+ "loss": 0.3705,
555
+ "step": 39000
556
+ },
557
+ {
558
+ "epoch": 0.8684945361799433,
559
+ "grad_norm": 16.29452133178711,
560
+ "learning_rate": 2.478903278292034e-05,
561
+ "loss": 0.3921,
562
+ "step": 39500
563
+ },
564
+ {
565
+ "epoch": 0.87948813790374,
566
+ "grad_norm": 6.898037910461426,
567
+ "learning_rate": 2.472307117257756e-05,
568
+ "loss": 0.3925,
569
+ "step": 40000
570
+ },
571
+ {
572
+ "epoch": 0.8904817396275367,
573
+ "grad_norm": 6.402541160583496,
574
+ "learning_rate": 2.465710956223478e-05,
575
+ "loss": 0.3771,
576
+ "step": 40500
577
+ },
578
+ {
579
+ "epoch": 0.9014753413513336,
580
+ "grad_norm": 3.24283504486084,
581
+ "learning_rate": 2.4591147951892e-05,
582
+ "loss": 0.3698,
583
+ "step": 41000
584
+ },
585
+ {
586
+ "epoch": 0.9124689430751303,
587
+ "grad_norm": 7.773282527923584,
588
+ "learning_rate": 2.452518634154922e-05,
589
+ "loss": 0.3823,
590
+ "step": 41500
591
+ },
592
+ {
593
+ "epoch": 0.923462544798927,
594
+ "grad_norm": 4.645416736602783,
595
+ "learning_rate": 2.445922473120644e-05,
596
+ "loss": 0.3792,
597
+ "step": 42000
598
+ },
599
+ {
600
+ "epoch": 0.9344561465227238,
601
+ "grad_norm": 8.859955787658691,
602
+ "learning_rate": 2.4393263120863658e-05,
603
+ "loss": 0.3988,
604
+ "step": 42500
605
+ },
606
+ {
607
+ "epoch": 0.9454497482465205,
608
+ "grad_norm": 5.384950160980225,
609
+ "learning_rate": 2.4327301510520875e-05,
610
+ "loss": 0.367,
611
+ "step": 43000
612
+ },
613
+ {
614
+ "epoch": 0.9564433499703173,
615
+ "grad_norm": 21.994779586791992,
616
+ "learning_rate": 2.4261339900178096e-05,
617
+ "loss": 0.3768,
618
+ "step": 43500
619
+ },
620
+ {
621
+ "epoch": 0.967436951694114,
622
+ "grad_norm": 9.221137046813965,
623
+ "learning_rate": 2.4195378289835317e-05,
624
+ "loss": 0.3767,
625
+ "step": 44000
626
+ },
627
+ {
628
+ "epoch": 0.9784305534179107,
629
+ "grad_norm": 1.9626529216766357,
630
+ "learning_rate": 2.4129416679492538e-05,
631
+ "loss": 0.3626,
632
+ "step": 44500
633
+ },
634
+ {
635
+ "epoch": 0.9894241551417076,
636
+ "grad_norm": 19.04450798034668,
637
+ "learning_rate": 2.4063455069149755e-05,
638
+ "loss": 0.3754,
639
+ "step": 45000
640
+ },
641
+ {
642
+ "epoch": 1.0,
643
+ "eval_accuracy": 0.8456591367721558,
644
+ "eval_f1": 0.7902943944078505,
645
+ "eval_loss": 0.37383726239204407,
646
+ "eval_mcc": 0.6683280718139261,
647
+ "eval_runtime": 29.7825,
648
+ "eval_samples_per_second": 678.754,
649
+ "eval_steps_per_second": 84.848,
650
+ "step": 45481
651
+ },
652
+ {
653
+ "epoch": 1.0004177568655044,
654
+ "grad_norm": 14.85083293914795,
655
+ "learning_rate": 2.3997493458806976e-05,
656
+ "loss": 0.3783,
657
+ "step": 45500
658
+ },
659
+ {
660
+ "epoch": 1.011411358589301,
661
+ "grad_norm": 7.004974365234375,
662
+ "learning_rate": 2.3931531848464197e-05,
663
+ "loss": 0.3307,
664
+ "step": 46000
665
+ },
666
+ {
667
+ "epoch": 1.0224049603130978,
668
+ "grad_norm": 1.900647759437561,
669
+ "learning_rate": 2.386557023812141e-05,
670
+ "loss": 0.3454,
671
+ "step": 46500
672
+ },
673
+ {
674
+ "epoch": 1.0333985620368946,
675
+ "grad_norm": 13.517301559448242,
676
+ "learning_rate": 2.379960862777863e-05,
677
+ "loss": 0.3404,
678
+ "step": 47000
679
+ },
680
+ {
681
+ "epoch": 1.0443921637606912,
682
+ "grad_norm": 11.086533546447754,
683
+ "learning_rate": 2.3733647017435853e-05,
684
+ "loss": 0.344,
685
+ "step": 47500
686
+ },
687
+ {
688
+ "epoch": 1.055385765484488,
689
+ "grad_norm": 1.5423752069473267,
690
+ "learning_rate": 2.3667685407093073e-05,
691
+ "loss": 0.348,
692
+ "step": 48000
693
+ },
694
+ {
695
+ "epoch": 1.0663793672082849,
696
+ "grad_norm": 13.40974235534668,
697
+ "learning_rate": 2.360172379675029e-05,
698
+ "loss": 0.3353,
699
+ "step": 48500
700
+ },
701
+ {
702
+ "epoch": 1.0773729689320815,
703
+ "grad_norm": 8.961548805236816,
704
+ "learning_rate": 2.353576218640751e-05,
705
+ "loss": 0.3442,
706
+ "step": 49000
707
+ },
708
+ {
709
+ "epoch": 1.0883665706558783,
710
+ "grad_norm": 6.879663944244385,
711
+ "learning_rate": 2.3469800576064733e-05,
712
+ "loss": 0.331,
713
+ "step": 49500
714
+ },
715
+ {
716
+ "epoch": 1.099360172379675,
717
+ "grad_norm": 10.819347381591797,
718
+ "learning_rate": 2.3403838965721953e-05,
719
+ "loss": 0.3431,
720
+ "step": 50000
721
+ },
722
+ {
723
+ "epoch": 1.1103537741034717,
724
+ "grad_norm": 18.258974075317383,
725
+ "learning_rate": 2.3337877355379167e-05,
726
+ "loss": 0.3468,
727
+ "step": 50500
728
+ },
729
+ {
730
+ "epoch": 1.1213473758272685,
731
+ "grad_norm": 11.075167655944824,
732
+ "learning_rate": 2.3271915745036388e-05,
733
+ "loss": 0.3313,
734
+ "step": 51000
735
+ },
736
+ {
737
+ "epoch": 1.1323409775510653,
738
+ "grad_norm": 13.255118370056152,
739
+ "learning_rate": 2.320595413469361e-05,
740
+ "loss": 0.3379,
741
+ "step": 51500
742
+ },
743
+ {
744
+ "epoch": 1.1433345792748622,
745
+ "grad_norm": 9.165648460388184,
746
+ "learning_rate": 2.3139992524350827e-05,
747
+ "loss": 0.3402,
748
+ "step": 52000
749
+ },
750
+ {
751
+ "epoch": 1.1543281809986587,
752
+ "grad_norm": 20.563486099243164,
753
+ "learning_rate": 2.3074030914008047e-05,
754
+ "loss": 0.3429,
755
+ "step": 52500
756
+ },
757
+ {
758
+ "epoch": 1.1653217827224556,
759
+ "grad_norm": 23.879840850830078,
760
+ "learning_rate": 2.3008069303665268e-05,
761
+ "loss": 0.3437,
762
+ "step": 53000
763
+ },
764
+ {
765
+ "epoch": 1.1763153844462524,
766
+ "grad_norm": 16.95256996154785,
767
+ "learning_rate": 2.294210769332249e-05,
768
+ "loss": 0.3484,
769
+ "step": 53500
770
+ },
771
+ {
772
+ "epoch": 1.187308986170049,
773
+ "grad_norm": 23.673189163208008,
774
+ "learning_rate": 2.2876146082979707e-05,
775
+ "loss": 0.3175,
776
+ "step": 54000
777
+ },
778
+ {
779
+ "epoch": 1.1983025878938458,
780
+ "grad_norm": 12.443720817565918,
781
+ "learning_rate": 2.2810184472636927e-05,
782
+ "loss": 0.3471,
783
+ "step": 54500
784
+ },
785
+ {
786
+ "epoch": 1.2092961896176426,
787
+ "grad_norm": 6.558742046356201,
788
+ "learning_rate": 2.2744222862294145e-05,
789
+ "loss": 0.3463,
790
+ "step": 55000
791
+ },
792
+ {
793
+ "epoch": 1.2202897913414392,
794
+ "grad_norm": 3.0714826583862305,
795
+ "learning_rate": 2.2678261251951362e-05,
796
+ "loss": 0.3352,
797
+ "step": 55500
798
+ },
799
+ {
800
+ "epoch": 1.231283393065236,
801
+ "grad_norm": 6.919187068939209,
802
+ "learning_rate": 2.2612299641608583e-05,
803
+ "loss": 0.335,
804
+ "step": 56000
805
+ },
806
+ {
807
+ "epoch": 1.2422769947890329,
808
+ "grad_norm": 8.951086044311523,
809
+ "learning_rate": 2.2546338031265804e-05,
810
+ "loss": 0.3437,
811
+ "step": 56500
812
+ },
813
+ {
814
+ "epoch": 1.2532705965128295,
815
+ "grad_norm": 81.6339111328125,
816
+ "learning_rate": 2.2480376420923025e-05,
817
+ "loss": 0.318,
818
+ "step": 57000
819
+ },
820
+ {
821
+ "epoch": 1.2642641982366263,
822
+ "grad_norm": 10.197173118591309,
823
+ "learning_rate": 2.2414414810580242e-05,
824
+ "loss": 0.3478,
825
+ "step": 57500
826
+ },
827
+ {
828
+ "epoch": 1.275257799960423,
829
+ "grad_norm": 3.3102078437805176,
830
+ "learning_rate": 2.2348453200237463e-05,
831
+ "loss": 0.3316,
832
+ "step": 58000
833
+ },
834
+ {
835
+ "epoch": 1.2862514016842197,
836
+ "grad_norm": 7.871964454650879,
837
+ "learning_rate": 2.2282491589894684e-05,
838
+ "loss": 0.3329,
839
+ "step": 58500
840
+ },
841
+ {
842
+ "epoch": 1.2972450034080165,
843
+ "grad_norm": 13.741714477539062,
844
+ "learning_rate": 2.22165299795519e-05,
845
+ "loss": 0.3285,
846
+ "step": 59000
847
+ },
848
+ {
849
+ "epoch": 1.3082386051318133,
850
+ "grad_norm": 5.765045166015625,
851
+ "learning_rate": 2.215056836920912e-05,
852
+ "loss": 0.3363,
853
+ "step": 59500
854
+ },
855
+ {
856
+ "epoch": 1.31923220685561,
857
+ "grad_norm": 21.365049362182617,
858
+ "learning_rate": 2.208460675886634e-05,
859
+ "loss": 0.3475,
860
+ "step": 60000
861
+ },
862
+ {
863
+ "epoch": 1.3302258085794068,
864
+ "grad_norm": 16.869543075561523,
865
+ "learning_rate": 2.201864514852356e-05,
866
+ "loss": 0.3252,
867
+ "step": 60500
868
+ },
869
+ {
870
+ "epoch": 1.3412194103032036,
871
+ "grad_norm": 31.089399337768555,
872
+ "learning_rate": 2.1952683538180778e-05,
873
+ "loss": 0.3344,
874
+ "step": 61000
875
+ },
876
+ {
877
+ "epoch": 1.3522130120270002,
878
+ "grad_norm": 11.333529472351074,
879
+ "learning_rate": 2.1886721927838e-05,
880
+ "loss": 0.3641,
881
+ "step": 61500
882
+ },
883
+ {
884
+ "epoch": 1.363206613750797,
885
+ "grad_norm": 9.713915824890137,
886
+ "learning_rate": 2.182076031749522e-05,
887
+ "loss": 0.3415,
888
+ "step": 62000
889
+ },
890
+ {
891
+ "epoch": 1.3742002154745938,
892
+ "grad_norm": 8.068568229675293,
893
+ "learning_rate": 2.175479870715244e-05,
894
+ "loss": 0.3591,
895
+ "step": 62500
896
+ },
897
+ {
898
+ "epoch": 1.3851938171983904,
899
+ "grad_norm": 19.801572799682617,
900
+ "learning_rate": 2.1688837096809655e-05,
901
+ "loss": 0.335,
902
+ "step": 63000
903
+ },
904
+ {
905
+ "epoch": 1.3961874189221872,
906
+ "grad_norm": 28.160655975341797,
907
+ "learning_rate": 2.1622875486466876e-05,
908
+ "loss": 0.3374,
909
+ "step": 63500
910
+ },
911
+ {
912
+ "epoch": 1.407181020645984,
913
+ "grad_norm": 2.872919797897339,
914
+ "learning_rate": 2.1556913876124096e-05,
915
+ "loss": 0.3403,
916
+ "step": 64000
917
+ },
918
+ {
919
+ "epoch": 1.4181746223697809,
920
+ "grad_norm": 2.8728220462799072,
921
+ "learning_rate": 2.1490952265781317e-05,
922
+ "loss": 0.3384,
923
+ "step": 64500
924
+ },
925
+ {
926
+ "epoch": 1.4291682240935775,
927
+ "grad_norm": 5.093236923217773,
928
+ "learning_rate": 2.1424990655438535e-05,
929
+ "loss": 0.3305,
930
+ "step": 65000
931
+ },
932
+ {
933
+ "epoch": 1.4401618258173743,
934
+ "grad_norm": 17.081308364868164,
935
+ "learning_rate": 2.1359029045095756e-05,
936
+ "loss": 0.3589,
937
+ "step": 65500
938
+ },
939
+ {
940
+ "epoch": 1.451155427541171,
941
+ "grad_norm": 2.3248064517974854,
942
+ "learning_rate": 2.1293067434752976e-05,
943
+ "loss": 0.3313,
944
+ "step": 66000
945
+ },
946
+ {
947
+ "epoch": 1.462149029264968,
948
+ "grad_norm": 24.70163917541504,
949
+ "learning_rate": 2.1227105824410194e-05,
950
+ "loss": 0.3338,
951
+ "step": 66500
952
+ },
953
+ {
954
+ "epoch": 1.4731426309887645,
955
+ "grad_norm": 19.80680274963379,
956
+ "learning_rate": 2.116114421406741e-05,
957
+ "loss": 0.3487,
958
+ "step": 67000
959
+ },
960
+ {
961
+ "epoch": 1.4841362327125613,
962
+ "grad_norm": 2.365659713745117,
963
+ "learning_rate": 2.1095182603724632e-05,
964
+ "loss": 0.3479,
965
+ "step": 67500
966
+ },
967
+ {
968
+ "epoch": 1.4951298344363582,
969
+ "grad_norm": 2.9082655906677246,
970
+ "learning_rate": 2.1029220993381853e-05,
971
+ "loss": 0.3427,
972
+ "step": 68000
973
+ },
974
+ {
975
+ "epoch": 1.5061234361601548,
976
+ "grad_norm": 1.5247036218643188,
977
+ "learning_rate": 2.096325938303907e-05,
978
+ "loss": 0.321,
979
+ "step": 68500
980
+ },
981
+ {
982
+ "epoch": 1.5171170378839516,
983
+ "grad_norm": 13.082464218139648,
984
+ "learning_rate": 2.089729777269629e-05,
985
+ "loss": 0.347,
986
+ "step": 69000
987
+ },
988
+ {
989
+ "epoch": 1.5281106396077484,
990
+ "grad_norm": 32.83438491821289,
991
+ "learning_rate": 2.0831336162353512e-05,
992
+ "loss": 0.3382,
993
+ "step": 69500
994
+ },
995
+ {
996
+ "epoch": 1.539104241331545,
997
+ "grad_norm": 19.514705657958984,
998
+ "learning_rate": 2.0765374552010733e-05,
999
+ "loss": 0.334,
1000
+ "step": 70000
1001
+ },
1002
+ {
1003
+ "epoch": 1.5500978430553418,
1004
+ "grad_norm": 11.129077911376953,
1005
+ "learning_rate": 2.069941294166795e-05,
1006
+ "loss": 0.3376,
1007
+ "step": 70500
1008
+ },
1009
+ {
1010
+ "epoch": 1.5610914447791386,
1011
+ "grad_norm": 14.449658393859863,
1012
+ "learning_rate": 2.0633451331325168e-05,
1013
+ "loss": 0.3297,
1014
+ "step": 71000
1015
+ },
1016
+ {
1017
+ "epoch": 1.5720850465029352,
1018
+ "grad_norm": 4.129580974578857,
1019
+ "learning_rate": 2.056748972098239e-05,
1020
+ "loss": 0.3405,
1021
+ "step": 71500
1022
+ },
1023
+ {
1024
+ "epoch": 1.583078648226732,
1025
+ "grad_norm": 4.104194164276123,
1026
+ "learning_rate": 2.0501528110639606e-05,
1027
+ "loss": 0.3327,
1028
+ "step": 72000
1029
+ },
1030
+ {
1031
+ "epoch": 1.5940722499505289,
1032
+ "grad_norm": 12.376803398132324,
1033
+ "learning_rate": 2.0435566500296827e-05,
1034
+ "loss": 0.3178,
1035
+ "step": 72500
1036
+ },
1037
+ {
1038
+ "epoch": 1.6050658516743255,
1039
+ "grad_norm": 18.45488739013672,
1040
+ "learning_rate": 2.0369604889954048e-05,
1041
+ "loss": 0.3457,
1042
+ "step": 73000
1043
+ },
1044
+ {
1045
+ "epoch": 1.6160594533981223,
1046
+ "grad_norm": 6.8812174797058105,
1047
+ "learning_rate": 2.030364327961127e-05,
1048
+ "loss": 0.3452,
1049
+ "step": 73500
1050
+ },
1051
+ {
1052
+ "epoch": 1.6270530551219191,
1053
+ "grad_norm": 3.4659981727600098,
1054
+ "learning_rate": 2.0237681669268486e-05,
1055
+ "loss": 0.3407,
1056
+ "step": 74000
1057
+ },
1058
+ {
1059
+ "epoch": 1.6380466568457157,
1060
+ "grad_norm": 21.697237014770508,
1061
+ "learning_rate": 2.0171720058925707e-05,
1062
+ "loss": 0.3493,
1063
+ "step": 74500
1064
+ },
1065
+ {
1066
+ "epoch": 1.6490402585695125,
1067
+ "grad_norm": 20.997262954711914,
1068
+ "learning_rate": 2.0105758448582925e-05,
1069
+ "loss": 0.3453,
1070
+ "step": 75000
1071
+ },
1072
+ {
1073
+ "epoch": 1.6600338602933093,
1074
+ "grad_norm": 8.582404136657715,
1075
+ "learning_rate": 2.0039796838240142e-05,
1076
+ "loss": 0.344,
1077
+ "step": 75500
1078
+ },
1079
+ {
1080
+ "epoch": 1.671027462017106,
1081
+ "grad_norm": 15.028887748718262,
1082
+ "learning_rate": 1.9973835227897363e-05,
1083
+ "loss": 0.3428,
1084
+ "step": 76000
1085
+ },
1086
+ {
1087
+ "epoch": 1.6820210637409028,
1088
+ "grad_norm": 15.200948715209961,
1089
+ "learning_rate": 1.9907873617554584e-05,
1090
+ "loss": 0.3531,
1091
+ "step": 76500
1092
+ },
1093
+ {
1094
+ "epoch": 1.6930146654646996,
1095
+ "grad_norm": 12.243021011352539,
1096
+ "learning_rate": 1.9841912007211805e-05,
1097
+ "loss": 0.3288,
1098
+ "step": 77000
1099
+ },
1100
+ {
1101
+ "epoch": 1.7040082671884962,
1102
+ "grad_norm": 0.7417749166488647,
1103
+ "learning_rate": 1.9775950396869022e-05,
1104
+ "loss": 0.3305,
1105
+ "step": 77500
1106
+ },
1107
+ {
1108
+ "epoch": 1.715001868912293,
1109
+ "grad_norm": 12.099386215209961,
1110
+ "learning_rate": 1.9709988786526243e-05,
1111
+ "loss": 0.3521,
1112
+ "step": 78000
1113
+ },
1114
+ {
1115
+ "epoch": 1.7259954706360898,
1116
+ "grad_norm": 10.566434860229492,
1117
+ "learning_rate": 1.9644027176183464e-05,
1118
+ "loss": 0.3466,
1119
+ "step": 78500
1120
+ },
1121
+ {
1122
+ "epoch": 1.7369890723598864,
1123
+ "grad_norm": 1.6488581895828247,
1124
+ "learning_rate": 1.957806556584068e-05,
1125
+ "loss": 0.3453,
1126
+ "step": 79000
1127
+ },
1128
+ {
1129
+ "epoch": 1.7479826740836832,
1130
+ "grad_norm": 15.446043968200684,
1131
+ "learning_rate": 1.95121039554979e-05,
1132
+ "loss": 0.3547,
1133
+ "step": 79500
1134
+ },
1135
+ {
1136
+ "epoch": 1.75897627580748,
1137
+ "grad_norm": 3.6907153129577637,
1138
+ "learning_rate": 1.944614234515512e-05,
1139
+ "loss": 0.3346,
1140
+ "step": 80000
1141
+ },
1142
+ {
1143
+ "epoch": 1.7699698775312767,
1144
+ "grad_norm": 13.95593547821045,
1145
+ "learning_rate": 1.938018073481234e-05,
1146
+ "loss": 0.3325,
1147
+ "step": 80500
1148
+ },
1149
+ {
1150
+ "epoch": 1.7809634792550737,
1151
+ "grad_norm": 7.613198757171631,
1152
+ "learning_rate": 1.9314219124469558e-05,
1153
+ "loss": 0.3302,
1154
+ "step": 81000
1155
+ },
1156
+ {
1157
+ "epoch": 1.7919570809788703,
1158
+ "grad_norm": 17.56180191040039,
1159
+ "learning_rate": 1.924825751412678e-05,
1160
+ "loss": 0.3303,
1161
+ "step": 81500
1162
+ },
1163
+ {
1164
+ "epoch": 1.802950682702667,
1165
+ "grad_norm": 30.033525466918945,
1166
+ "learning_rate": 1.9182295903784e-05,
1167
+ "loss": 0.327,
1168
+ "step": 82000
1169
+ },
1170
+ {
1171
+ "epoch": 1.813944284426464,
1172
+ "grad_norm": 2.658094644546509,
1173
+ "learning_rate": 1.911633429344122e-05,
1174
+ "loss": 0.3462,
1175
+ "step": 82500
1176
+ },
1177
+ {
1178
+ "epoch": 1.8249378861502605,
1179
+ "grad_norm": 8.311567306518555,
1180
+ "learning_rate": 1.9050372683098434e-05,
1181
+ "loss": 0.3347,
1182
+ "step": 83000
1183
+ },
1184
+ {
1185
+ "epoch": 1.8359314878740571,
1186
+ "grad_norm": 17.150461196899414,
1187
+ "learning_rate": 1.8984411072755655e-05,
1188
+ "loss": 0.3282,
1189
+ "step": 83500
1190
+ },
1191
+ {
1192
+ "epoch": 1.8469250895978542,
1193
+ "grad_norm": 10.157220840454102,
1194
+ "learning_rate": 1.8918449462412876e-05,
1195
+ "loss": 0.3193,
1196
+ "step": 84000
1197
+ },
1198
+ {
1199
+ "epoch": 1.8579186913216508,
1200
+ "grad_norm": 4.80257511138916,
1201
+ "learning_rate": 1.8852487852070097e-05,
1202
+ "loss": 0.3541,
1203
+ "step": 84500
1204
+ },
1205
+ {
1206
+ "epoch": 1.8689122930454476,
1207
+ "grad_norm": 3.8798446655273438,
1208
+ "learning_rate": 1.8786526241727314e-05,
1209
+ "loss": 0.3483,
1210
+ "step": 85000
1211
+ },
1212
+ {
1213
+ "epoch": 1.8799058947692444,
1214
+ "grad_norm": 8.881115913391113,
1215
+ "learning_rate": 1.8720564631384535e-05,
1216
+ "loss": 0.3302,
1217
+ "step": 85500
1218
+ },
1219
+ {
1220
+ "epoch": 1.890899496493041,
1221
+ "grad_norm": 0.945717453956604,
1222
+ "learning_rate": 1.8654603021041756e-05,
1223
+ "loss": 0.336,
1224
+ "step": 86000
1225
+ },
1226
+ {
1227
+ "epoch": 1.9018930982168378,
1228
+ "grad_norm": 5.144163608551025,
1229
+ "learning_rate": 1.8588641410698974e-05,
1230
+ "loss": 0.3148,
1231
+ "step": 86500
1232
+ },
1233
+ {
1234
+ "epoch": 1.9128866999406346,
1235
+ "grad_norm": 1.5305918455123901,
1236
+ "learning_rate": 1.852267980035619e-05,
1237
+ "loss": 0.3395,
1238
+ "step": 87000
1239
+ },
1240
+ {
1241
+ "epoch": 1.9238803016644312,
1242
+ "grad_norm": 15.06664752960205,
1243
+ "learning_rate": 1.8456718190013412e-05,
1244
+ "loss": 0.341,
1245
+ "step": 87500
1246
+ },
1247
+ {
1248
+ "epoch": 1.934873903388228,
1249
+ "grad_norm": 33.20983123779297,
1250
+ "learning_rate": 1.8390756579670633e-05,
1251
+ "loss": 0.3619,
1252
+ "step": 88000
1253
+ },
1254
+ {
1255
+ "epoch": 1.9458675051120249,
1256
+ "grad_norm": 11.427024841308594,
1257
+ "learning_rate": 1.832479496932785e-05,
1258
+ "loss": 0.3474,
1259
+ "step": 88500
1260
+ },
1261
+ {
1262
+ "epoch": 1.9568611068358215,
1263
+ "grad_norm": 23.793506622314453,
1264
+ "learning_rate": 1.825883335898507e-05,
1265
+ "loss": 0.321,
1266
+ "step": 89000
1267
+ },
1268
+ {
1269
+ "epoch": 1.9678547085596183,
1270
+ "grad_norm": 3.9075679779052734,
1271
+ "learning_rate": 1.8192871748642292e-05,
1272
+ "loss": 0.33,
1273
+ "step": 89500
1274
+ },
1275
+ {
1276
+ "epoch": 1.9788483102834151,
1277
+ "grad_norm": 1.7106132507324219,
1278
+ "learning_rate": 1.8126910138299513e-05,
1279
+ "loss": 0.3562,
1280
+ "step": 90000
1281
+ },
1282
+ {
1283
+ "epoch": 1.9898419120072117,
1284
+ "grad_norm": 1.6460707187652588,
1285
+ "learning_rate": 1.806094852795673e-05,
1286
+ "loss": 0.3378,
1287
+ "step": 90500
1288
+ },
1289
+ {
1290
+ "epoch": 2.0,
1291
+ "eval_accuracy": 0.8638139963150024,
1292
+ "eval_f1": 0.8192264758027448,
1293
+ "eval_loss": 0.3989393711090088,
1294
+ "eval_mcc": 0.7101352338901957,
1295
+ "eval_runtime": 29.2332,
1296
+ "eval_samples_per_second": 691.508,
1297
+ "eval_steps_per_second": 86.443,
1298
+ "step": 90962
1299
+ },
1300
+ {
1301
+ "epoch": 2.0008355137310088,
1302
+ "grad_norm": 0.9355267882347107,
1303
+ "learning_rate": 1.7994986917613948e-05,
1304
+ "loss": 0.3212,
1305
+ "step": 91000
1306
+ },
1307
+ {
1308
+ "epoch": 2.0118291154548054,
1309
+ "grad_norm": 11.889479637145996,
1310
+ "learning_rate": 1.792902530727117e-05,
1311
+ "loss": 0.3003,
1312
+ "step": 91500
1313
+ },
1314
+ {
1315
+ "epoch": 2.022822717178602,
1316
+ "grad_norm": 5.802761077880859,
1317
+ "learning_rate": 1.7863063696928386e-05,
1318
+ "loss": 0.2923,
1319
+ "step": 92000
1320
+ },
1321
+ {
1322
+ "epoch": 2.033816318902399,
1323
+ "grad_norm": 7.432724475860596,
1324
+ "learning_rate": 1.7797102086585607e-05,
1325
+ "loss": 0.293,
1326
+ "step": 92500
1327
+ },
1328
+ {
1329
+ "epoch": 2.0448099206261956,
1330
+ "grad_norm": 4.792222499847412,
1331
+ "learning_rate": 1.7731140476242828e-05,
1332
+ "loss": 0.3043,
1333
+ "step": 93000
1334
+ },
1335
+ {
1336
+ "epoch": 2.055803522349992,
1337
+ "grad_norm": 8.417468070983887,
1338
+ "learning_rate": 1.766517886590005e-05,
1339
+ "loss": 0.2916,
1340
+ "step": 93500
1341
+ },
1342
+ {
1343
+ "epoch": 2.0667971240737892,
1344
+ "grad_norm": 1.0828003883361816,
1345
+ "learning_rate": 1.7599217255557266e-05,
1346
+ "loss": 0.3112,
1347
+ "step": 94000
1348
+ },
1349
+ {
1350
+ "epoch": 2.077790725797586,
1351
+ "grad_norm": 3.0800647735595703,
1352
+ "learning_rate": 1.7533255645214487e-05,
1353
+ "loss": 0.2804,
1354
+ "step": 94500
1355
+ },
1356
+ {
1357
+ "epoch": 2.0887843275213824,
1358
+ "grad_norm": 3.254809617996216,
1359
+ "learning_rate": 1.7467294034871704e-05,
1360
+ "loss": 0.2909,
1361
+ "step": 95000
1362
+ },
1363
+ {
1364
+ "epoch": 2.0997779292451795,
1365
+ "grad_norm": 2.6388871669769287,
1366
+ "learning_rate": 1.7401332424528925e-05,
1367
+ "loss": 0.305,
1368
+ "step": 95500
1369
+ },
1370
+ {
1371
+ "epoch": 2.110771530968976,
1372
+ "grad_norm": 16.700735092163086,
1373
+ "learning_rate": 1.7335370814186143e-05,
1374
+ "loss": 0.2901,
1375
+ "step": 96000
1376
+ },
1377
+ {
1378
+ "epoch": 2.1217651326927727,
1379
+ "grad_norm": 17.04293441772461,
1380
+ "learning_rate": 1.7269409203843363e-05,
1381
+ "loss": 0.3217,
1382
+ "step": 96500
1383
+ },
1384
+ {
1385
+ "epoch": 2.1327587344165697,
1386
+ "grad_norm": 1.1329630613327026,
1387
+ "learning_rate": 1.7203447593500584e-05,
1388
+ "loss": 0.2898,
1389
+ "step": 97000
1390
+ },
1391
+ {
1392
+ "epoch": 2.1437523361403663,
1393
+ "grad_norm": 36.23415756225586,
1394
+ "learning_rate": 1.7137485983157802e-05,
1395
+ "loss": 0.2864,
1396
+ "step": 97500
1397
+ },
1398
+ {
1399
+ "epoch": 2.154745937864163,
1400
+ "grad_norm": 106.94963836669922,
1401
+ "learning_rate": 1.7071524372815023e-05,
1402
+ "loss": 0.3083,
1403
+ "step": 98000
1404
+ },
1405
+ {
1406
+ "epoch": 2.16573953958796,
1407
+ "grad_norm": 0.37686920166015625,
1408
+ "learning_rate": 1.7005562762472243e-05,
1409
+ "loss": 0.3238,
1410
+ "step": 98500
1411
+ },
1412
+ {
1413
+ "epoch": 2.1767331413117565,
1414
+ "grad_norm": 36.30667495727539,
1415
+ "learning_rate": 1.693960115212946e-05,
1416
+ "loss": 0.2917,
1417
+ "step": 99000
1418
+ },
1419
+ {
1420
+ "epoch": 2.187726743035553,
1421
+ "grad_norm": 35.45988082885742,
1422
+ "learning_rate": 1.687363954178668e-05,
1423
+ "loss": 0.3009,
1424
+ "step": 99500
1425
+ },
1426
+ {
1427
+ "epoch": 2.19872034475935,
1428
+ "grad_norm": 0.25279441475868225,
1429
+ "learning_rate": 1.68076779314439e-05,
1430
+ "loss": 0.3158,
1431
+ "step": 100000
1432
+ },
1433
+ {
1434
+ "epoch": 2.209713946483147,
1435
+ "grad_norm": 10.676984786987305,
1436
+ "learning_rate": 1.674171632110112e-05,
1437
+ "loss": 0.3005,
1438
+ "step": 100500
1439
+ },
1440
+ {
1441
+ "epoch": 2.2207075482069434,
1442
+ "grad_norm": 19.04880714416504,
1443
+ "learning_rate": 1.6675754710758337e-05,
1444
+ "loss": 0.3018,
1445
+ "step": 101000
1446
+ },
1447
+ {
1448
+ "epoch": 2.2317011499307404,
1449
+ "grad_norm": 35.431583404541016,
1450
+ "learning_rate": 1.660979310041556e-05,
1451
+ "loss": 0.3135,
1452
+ "step": 101500
1453
+ },
1454
+ {
1455
+ "epoch": 2.242694751654537,
1456
+ "grad_norm": 0.3378468155860901,
1457
+ "learning_rate": 1.654383149007278e-05,
1458
+ "loss": 0.2779,
1459
+ "step": 102000
1460
+ },
1461
+ {
1462
+ "epoch": 2.2536883533783336,
1463
+ "grad_norm": 46.81476974487305,
1464
+ "learning_rate": 1.647786987973e-05,
1465
+ "loss": 0.279,
1466
+ "step": 102500
1467
+ },
1468
+ {
1469
+ "epoch": 2.2646819551021307,
1470
+ "grad_norm": 36.49277877807617,
1471
+ "learning_rate": 1.6411908269387214e-05,
1472
+ "loss": 0.3184,
1473
+ "step": 103000
1474
+ },
1475
+ {
1476
+ "epoch": 2.2756755568259273,
1477
+ "grad_norm": 12.877152442932129,
1478
+ "learning_rate": 1.6345946659044435e-05,
1479
+ "loss": 0.3024,
1480
+ "step": 103500
1481
+ },
1482
+ {
1483
+ "epoch": 2.2866691585497243,
1484
+ "grad_norm": 4.798713684082031,
1485
+ "learning_rate": 1.6279985048701656e-05,
1486
+ "loss": 0.3014,
1487
+ "step": 104000
1488
+ },
1489
+ {
1490
+ "epoch": 2.297662760273521,
1491
+ "grad_norm": 6.63606071472168,
1492
+ "learning_rate": 1.6214023438358877e-05,
1493
+ "loss": 0.3214,
1494
+ "step": 104500
1495
+ },
1496
+ {
1497
+ "epoch": 2.3086563619973175,
1498
+ "grad_norm": 13.403897285461426,
1499
+ "learning_rate": 1.6148061828016094e-05,
1500
+ "loss": 0.2943,
1501
+ "step": 105000
1502
+ },
1503
+ {
1504
+ "epoch": 2.3196499637211145,
1505
+ "grad_norm": 33.9350471496582,
1506
+ "learning_rate": 1.6082100217673315e-05,
1507
+ "loss": 0.302,
1508
+ "step": 105500
1509
+ },
1510
+ {
1511
+ "epoch": 2.330643565444911,
1512
+ "grad_norm": 3.330829620361328,
1513
+ "learning_rate": 1.6016138607330536e-05,
1514
+ "loss": 0.3087,
1515
+ "step": 106000
1516
+ },
1517
+ {
1518
+ "epoch": 2.3416371671687077,
1519
+ "grad_norm": 1.2686516046524048,
1520
+ "learning_rate": 1.5950176996987753e-05,
1521
+ "loss": 0.3007,
1522
+ "step": 106500
1523
+ },
1524
+ {
1525
+ "epoch": 2.3526307688925048,
1526
+ "grad_norm": 20.976926803588867,
1527
+ "learning_rate": 1.5884215386644974e-05,
1528
+ "loss": 0.3094,
1529
+ "step": 107000
1530
+ },
1531
+ {
1532
+ "epoch": 2.3636243706163014,
1533
+ "grad_norm": 0.7142143249511719,
1534
+ "learning_rate": 1.581825377630219e-05,
1535
+ "loss": 0.3169,
1536
+ "step": 107500
1537
+ },
1538
+ {
1539
+ "epoch": 2.374617972340098,
1540
+ "grad_norm": 6.738494873046875,
1541
+ "learning_rate": 1.5752292165959412e-05,
1542
+ "loss": 0.3101,
1543
+ "step": 108000
1544
+ },
1545
+ {
1546
+ "epoch": 2.385611574063895,
1547
+ "grad_norm": 0.8053629398345947,
1548
+ "learning_rate": 1.568633055561663e-05,
1549
+ "loss": 0.3208,
1550
+ "step": 108500
1551
+ },
1552
+ {
1553
+ "epoch": 2.3966051757876916,
1554
+ "grad_norm": 0.35285481810569763,
1555
+ "learning_rate": 1.562036894527385e-05,
1556
+ "loss": 0.2903,
1557
+ "step": 109000
1558
+ },
1559
+ {
1560
+ "epoch": 2.407598777511488,
1561
+ "grad_norm": 0.9598795771598816,
1562
+ "learning_rate": 1.555440733493107e-05,
1563
+ "loss": 0.3189,
1564
+ "step": 109500
1565
+ },
1566
+ {
1567
+ "epoch": 2.4185923792352853,
1568
+ "grad_norm": 8.283425331115723,
1569
+ "learning_rate": 1.5488445724588292e-05,
1570
+ "loss": 0.2922,
1571
+ "step": 110000
1572
+ },
1573
+ {
1574
+ "epoch": 2.429585980959082,
1575
+ "grad_norm": 2.2365481853485107,
1576
+ "learning_rate": 1.542248411424551e-05,
1577
+ "loss": 0.2865,
1578
+ "step": 110500
1579
+ },
1580
+ {
1581
+ "epoch": 2.4405795826828784,
1582
+ "grad_norm": 22.584705352783203,
1583
+ "learning_rate": 1.535652250390273e-05,
1584
+ "loss": 0.2883,
1585
+ "step": 111000
1586
+ },
1587
+ {
1588
+ "epoch": 2.4515731844066755,
1589
+ "grad_norm": 1.3138020038604736,
1590
+ "learning_rate": 1.5290560893559948e-05,
1591
+ "loss": 0.3233,
1592
+ "step": 111500
1593
+ },
1594
+ {
1595
+ "epoch": 2.462566786130472,
1596
+ "grad_norm": 17.076557159423828,
1597
+ "learning_rate": 1.5224599283217167e-05,
1598
+ "loss": 0.3017,
1599
+ "step": 112000
1600
+ },
1601
+ {
1602
+ "epoch": 2.4735603878542687,
1603
+ "grad_norm": 139.9231719970703,
1604
+ "learning_rate": 1.5158637672874386e-05,
1605
+ "loss": 0.3033,
1606
+ "step": 112500
1607
+ },
1608
+ {
1609
+ "epoch": 2.4845539895780657,
1610
+ "grad_norm": 8.334077835083008,
1611
+ "learning_rate": 1.5092676062531607e-05,
1612
+ "loss": 0.2925,
1613
+ "step": 113000
1614
+ },
1615
+ {
1616
+ "epoch": 2.4955475913018623,
1617
+ "grad_norm": 0.4488193094730377,
1618
+ "learning_rate": 1.5026714452188828e-05,
1619
+ "loss": 0.314,
1620
+ "step": 113500
1621
+ },
1622
+ {
1623
+ "epoch": 2.506541193025659,
1624
+ "grad_norm": 18.986644744873047,
1625
+ "learning_rate": 1.4960752841846047e-05,
1626
+ "loss": 0.3011,
1627
+ "step": 114000
1628
+ },
1629
+ {
1630
+ "epoch": 2.517534794749456,
1631
+ "grad_norm": 0.16863927245140076,
1632
+ "learning_rate": 1.4894791231503265e-05,
1633
+ "loss": 0.2845,
1634
+ "step": 114500
1635
+ },
1636
+ {
1637
+ "epoch": 2.5285283964732526,
1638
+ "grad_norm": 19.12157440185547,
1639
+ "learning_rate": 1.4828829621160486e-05,
1640
+ "loss": 0.3092,
1641
+ "step": 115000
1642
+ },
1643
+ {
1644
+ "epoch": 2.539521998197049,
1645
+ "grad_norm": 6.872998237609863,
1646
+ "learning_rate": 1.4762868010817705e-05,
1647
+ "loss": 0.3072,
1648
+ "step": 115500
1649
+ },
1650
+ {
1651
+ "epoch": 2.550515599920846,
1652
+ "grad_norm": 0.4193851947784424,
1653
+ "learning_rate": 1.4696906400474924e-05,
1654
+ "loss": 0.3004,
1655
+ "step": 116000
1656
+ },
1657
+ {
1658
+ "epoch": 2.561509201644643,
1659
+ "grad_norm": 0.6917738318443298,
1660
+ "learning_rate": 1.4630944790132143e-05,
1661
+ "loss": 0.2967,
1662
+ "step": 116500
1663
+ },
1664
+ {
1665
+ "epoch": 2.5725028033684394,
1666
+ "grad_norm": 10.825478553771973,
1667
+ "learning_rate": 1.4564983179789362e-05,
1668
+ "loss": 0.3086,
1669
+ "step": 117000
1670
+ },
1671
+ {
1672
+ "epoch": 2.5834964050922364,
1673
+ "grad_norm": 68.07927703857422,
1674
+ "learning_rate": 1.4499021569446583e-05,
1675
+ "loss": 0.2964,
1676
+ "step": 117500
1677
+ },
1678
+ {
1679
+ "epoch": 2.594490006816033,
1680
+ "grad_norm": 5.563518047332764,
1681
+ "learning_rate": 1.4433059959103802e-05,
1682
+ "loss": 0.3067,
1683
+ "step": 118000
1684
+ },
1685
+ {
1686
+ "epoch": 2.6054836085398296,
1687
+ "grad_norm": 4.1622633934021,
1688
+ "learning_rate": 1.4367098348761021e-05,
1689
+ "loss": 0.3019,
1690
+ "step": 118500
1691
+ },
1692
+ {
1693
+ "epoch": 2.6164772102636267,
1694
+ "grad_norm": 20.468860626220703,
1695
+ "learning_rate": 1.430113673841824e-05,
1696
+ "loss": 0.2857,
1697
+ "step": 119000
1698
+ },
1699
+ {
1700
+ "epoch": 2.6274708119874233,
1701
+ "grad_norm": 19.43634605407715,
1702
+ "learning_rate": 1.4235175128075461e-05,
1703
+ "loss": 0.3079,
1704
+ "step": 119500
1705
+ },
1706
+ {
1707
+ "epoch": 2.63846441371122,
1708
+ "grad_norm": 6.021149158477783,
1709
+ "learning_rate": 1.416921351773268e-05,
1710
+ "loss": 0.2901,
1711
+ "step": 120000
1712
+ },
1713
+ {
1714
+ "epoch": 2.649458015435017,
1715
+ "grad_norm": 8.589285850524902,
1716
+ "learning_rate": 1.41032519073899e-05,
1717
+ "loss": 0.3109,
1718
+ "step": 120500
1719
+ },
1720
+ {
1721
+ "epoch": 2.6604516171588135,
1722
+ "grad_norm": 16.921823501586914,
1723
+ "learning_rate": 1.4037290297047119e-05,
1724
+ "loss": 0.3002,
1725
+ "step": 121000
1726
+ },
1727
+ {
1728
+ "epoch": 2.67144521888261,
1729
+ "grad_norm": 16.486186981201172,
1730
+ "learning_rate": 1.3971328686704338e-05,
1731
+ "loss": 0.306,
1732
+ "step": 121500
1733
+ },
1734
+ {
1735
+ "epoch": 2.682438820606407,
1736
+ "grad_norm": 8.290379524230957,
1737
+ "learning_rate": 1.3905367076361559e-05,
1738
+ "loss": 0.3005,
1739
+ "step": 122000
1740
+ },
1741
+ {
1742
+ "epoch": 2.6934324223302037,
1743
+ "grad_norm": 0.8587543964385986,
1744
+ "learning_rate": 1.3839405466018776e-05,
1745
+ "loss": 0.29,
1746
+ "step": 122500
1747
+ },
1748
+ {
1749
+ "epoch": 2.7044260240540003,
1750
+ "grad_norm": 45.68854904174805,
1751
+ "learning_rate": 1.3773443855675997e-05,
1752
+ "loss": 0.3037,
1753
+ "step": 123000
1754
+ },
1755
+ {
1756
+ "epoch": 2.7154196257777974,
1757
+ "grad_norm": 13.316100120544434,
1758
+ "learning_rate": 1.3707482245333216e-05,
1759
+ "loss": 0.2717,
1760
+ "step": 123500
1761
+ },
1762
+ {
1763
+ "epoch": 2.726413227501594,
1764
+ "grad_norm": 5.796350479125977,
1765
+ "learning_rate": 1.3641520634990437e-05,
1766
+ "loss": 0.3116,
1767
+ "step": 124000
1768
+ },
1769
+ {
1770
+ "epoch": 2.7374068292253906,
1771
+ "grad_norm": 10.975761413574219,
1772
+ "learning_rate": 1.3575559024647655e-05,
1773
+ "loss": 0.3089,
1774
+ "step": 124500
1775
+ },
1776
+ {
1777
+ "epoch": 2.7484004309491876,
1778
+ "grad_norm": 99.86316680908203,
1779
+ "learning_rate": 1.3509597414304875e-05,
1780
+ "loss": 0.3071,
1781
+ "step": 125000
1782
+ },
1783
+ {
1784
+ "epoch": 2.759394032672984,
1785
+ "grad_norm": 92.33716583251953,
1786
+ "learning_rate": 1.3443635803962095e-05,
1787
+ "loss": 0.2881,
1788
+ "step": 125500
1789
+ },
1790
+ {
1791
+ "epoch": 2.770387634396781,
1792
+ "grad_norm": 20.75370979309082,
1793
+ "learning_rate": 1.3377674193619314e-05,
1794
+ "loss": 0.2922,
1795
+ "step": 126000
1796
+ },
1797
+ {
1798
+ "epoch": 2.781381236120578,
1799
+ "grad_norm": 63.51997756958008,
1800
+ "learning_rate": 1.3311712583276533e-05,
1801
+ "loss": 0.3016,
1802
+ "step": 126500
1803
+ },
1804
+ {
1805
+ "epoch": 2.7923748378443745,
1806
+ "grad_norm": 12.819772720336914,
1807
+ "learning_rate": 1.3245750972933752e-05,
1808
+ "loss": 0.3005,
1809
+ "step": 127000
1810
+ },
1811
+ {
1812
+ "epoch": 2.803368439568171,
1813
+ "grad_norm": 14.167094230651855,
1814
+ "learning_rate": 1.3179789362590973e-05,
1815
+ "loss": 0.3099,
1816
+ "step": 127500
1817
+ },
1818
+ {
1819
+ "epoch": 2.814362041291968,
1820
+ "grad_norm": 14.828591346740723,
1821
+ "learning_rate": 1.3113827752248192e-05,
1822
+ "loss": 0.2759,
1823
+ "step": 128000
1824
+ },
1825
+ {
1826
+ "epoch": 2.8253556430157647,
1827
+ "grad_norm": 9.91226577758789,
1828
+ "learning_rate": 1.3047866141905411e-05,
1829
+ "loss": 0.3025,
1830
+ "step": 128500
1831
+ },
1832
+ {
1833
+ "epoch": 2.8363492447395617,
1834
+ "grad_norm": 38.544525146484375,
1835
+ "learning_rate": 1.298190453156263e-05,
1836
+ "loss": 0.3038,
1837
+ "step": 129000
1838
+ },
1839
+ {
1840
+ "epoch": 2.8473428464633583,
1841
+ "grad_norm": 5.008056640625,
1842
+ "learning_rate": 1.2915942921219851e-05,
1843
+ "loss": 0.2947,
1844
+ "step": 129500
1845
+ },
1846
+ {
1847
+ "epoch": 2.858336448187155,
1848
+ "grad_norm": 14.466870307922363,
1849
+ "learning_rate": 1.284998131087707e-05,
1850
+ "loss": 0.2989,
1851
+ "step": 130000
1852
+ },
1853
+ {
1854
+ "epoch": 2.869330049910952,
1855
+ "grad_norm": 0.3647148907184601,
1856
+ "learning_rate": 1.278401970053429e-05,
1857
+ "loss": 0.2864,
1858
+ "step": 130500
1859
+ },
1860
+ {
1861
+ "epoch": 2.8803236516347486,
1862
+ "grad_norm": 0.18057258427143097,
1863
+ "learning_rate": 1.2718058090191509e-05,
1864
+ "loss": 0.2894,
1865
+ "step": 131000
1866
+ },
1867
+ {
1868
+ "epoch": 2.891317253358545,
1869
+ "grad_norm": 0.5057438015937805,
1870
+ "learning_rate": 1.2652096479848728e-05,
1871
+ "loss": 0.302,
1872
+ "step": 131500
1873
+ },
1874
+ {
1875
+ "epoch": 2.902310855082342,
1876
+ "grad_norm": 10.934133529663086,
1877
+ "learning_rate": 1.2586134869505949e-05,
1878
+ "loss": 0.3047,
1879
+ "step": 132000
1880
+ },
1881
+ {
1882
+ "epoch": 2.913304456806139,
1883
+ "grad_norm": 2.3341269493103027,
1884
+ "learning_rate": 1.2520173259163166e-05,
1885
+ "loss": 0.3011,
1886
+ "step": 132500
1887
+ },
1888
+ {
1889
+ "epoch": 2.924298058529936,
1890
+ "grad_norm": 0.3195688724517822,
1891
+ "learning_rate": 1.2454211648820387e-05,
1892
+ "loss": 0.2939,
1893
+ "step": 133000
1894
+ },
1895
+ {
1896
+ "epoch": 2.9352916602537324,
1897
+ "grad_norm": 8.257743835449219,
1898
+ "learning_rate": 1.2388250038477606e-05,
1899
+ "loss": 0.3057,
1900
+ "step": 133500
1901
+ },
1902
+ {
1903
+ "epoch": 2.946285261977529,
1904
+ "grad_norm": 20.577478408813477,
1905
+ "learning_rate": 1.2322288428134827e-05,
1906
+ "loss": 0.2966,
1907
+ "step": 134000
1908
+ },
1909
+ {
1910
+ "epoch": 2.957278863701326,
1911
+ "grad_norm": 0.777562141418457,
1912
+ "learning_rate": 1.2256326817792044e-05,
1913
+ "loss": 0.3013,
1914
+ "step": 134500
1915
+ },
1916
+ {
1917
+ "epoch": 2.9682724654251227,
1918
+ "grad_norm": 58.6212158203125,
1919
+ "learning_rate": 1.2190365207449265e-05,
1920
+ "loss": 0.2874,
1921
+ "step": 135000
1922
+ },
1923
+ {
1924
+ "epoch": 2.9792660671489193,
1925
+ "grad_norm": 69.42217254638672,
1926
+ "learning_rate": 1.2124403597106484e-05,
1927
+ "loss": 0.293,
1928
+ "step": 135500
1929
+ },
1930
+ {
1931
+ "epoch": 2.9902596688727163,
1932
+ "grad_norm": 4.408263683319092,
1933
+ "learning_rate": 1.2058441986763704e-05,
1934
+ "loss": 0.3005,
1935
+ "step": 136000
1936
+ },
1937
+ {
1938
+ "epoch": 3.0,
1939
+ "eval_accuracy": 0.8718278408050537,
1940
+ "eval_f1": 0.8299757201916136,
1941
+ "eval_loss": 0.42042940855026245,
1942
+ "eval_mcc": 0.7272909835972381,
1943
+ "eval_runtime": 28.09,
1944
+ "eval_samples_per_second": 719.65,
1945
+ "eval_steps_per_second": 89.961,
1946
+ "step": 136443
1947
+ },
1948
+ {
1949
+ "epoch": 3.001253270596513,
1950
+ "grad_norm": 6.014369010925293,
1951
+ "learning_rate": 1.1992480376420923e-05,
1952
+ "loss": 0.281,
1953
+ "step": 136500
1954
+ },
1955
+ {
1956
+ "epoch": 3.0122468723203095,
1957
+ "grad_norm": 10.639359474182129,
1958
+ "learning_rate": 1.1926518766078142e-05,
1959
+ "loss": 0.2556,
1960
+ "step": 137000
1961
+ },
1962
+ {
1963
+ "epoch": 3.023240474044106,
1964
+ "grad_norm": 3.0724806785583496,
1965
+ "learning_rate": 1.1860557155735363e-05,
1966
+ "loss": 0.2414,
1967
+ "step": 137500
1968
+ },
1969
+ {
1970
+ "epoch": 3.034234075767903,
1971
+ "grad_norm": 0.3316449522972107,
1972
+ "learning_rate": 1.1794595545392582e-05,
1973
+ "loss": 0.2539,
1974
+ "step": 138000
1975
+ },
1976
+ {
1977
+ "epoch": 3.0452276774916998,
1978
+ "grad_norm": 23.327177047729492,
1979
+ "learning_rate": 1.1728633935049801e-05,
1980
+ "loss": 0.2374,
1981
+ "step": 138500
1982
+ },
1983
+ {
1984
+ "epoch": 3.056221279215497,
1985
+ "grad_norm": 0.7128089666366577,
1986
+ "learning_rate": 1.166267232470702e-05,
1987
+ "loss": 0.2476,
1988
+ "step": 139000
1989
+ },
1990
+ {
1991
+ "epoch": 3.0672148809392934,
1992
+ "grad_norm": 189.15638732910156,
1993
+ "learning_rate": 1.1596710714364241e-05,
1994
+ "loss": 0.2431,
1995
+ "step": 139500
1996
+ },
1997
+ {
1998
+ "epoch": 3.07820848266309,
1999
+ "grad_norm": 17.80859375,
2000
+ "learning_rate": 1.153074910402146e-05,
2001
+ "loss": 0.225,
2002
+ "step": 140000
2003
+ },
2004
+ {
2005
+ "epoch": 3.089202084386887,
2006
+ "grad_norm": 0.14886409044265747,
2007
+ "learning_rate": 1.146478749367868e-05,
2008
+ "loss": 0.2495,
2009
+ "step": 140500
2010
+ },
2011
+ {
2012
+ "epoch": 3.1001956861106836,
2013
+ "grad_norm": 0.5925188064575195,
2014
+ "learning_rate": 1.1398825883335899e-05,
2015
+ "loss": 0.2541,
2016
+ "step": 141000
2017
+ },
2018
+ {
2019
+ "epoch": 3.1111892878344802,
2020
+ "grad_norm": 9.857983589172363,
2021
+ "learning_rate": 1.1332864272993118e-05,
2022
+ "loss": 0.2565,
2023
+ "step": 141500
2024
+ },
2025
+ {
2026
+ "epoch": 3.1221828895582773,
2027
+ "grad_norm": 0.7951391339302063,
2028
+ "learning_rate": 1.1266902662650339e-05,
2029
+ "loss": 0.2561,
2030
+ "step": 142000
2031
+ },
2032
+ {
2033
+ "epoch": 3.133176491282074,
2034
+ "grad_norm": 61.58017349243164,
2035
+ "learning_rate": 1.1200941052307556e-05,
2036
+ "loss": 0.2361,
2037
+ "step": 142500
2038
+ },
2039
+ {
2040
+ "epoch": 3.1441700930058705,
2041
+ "grad_norm": 9.199590682983398,
2042
+ "learning_rate": 1.1134979441964777e-05,
2043
+ "loss": 0.2559,
2044
+ "step": 143000
2045
+ },
2046
+ {
2047
+ "epoch": 3.1551636947296675,
2048
+ "grad_norm": 1.7396503686904907,
2049
+ "learning_rate": 1.1069017831621996e-05,
2050
+ "loss": 0.2543,
2051
+ "step": 143500
2052
+ },
2053
+ {
2054
+ "epoch": 3.166157296453464,
2055
+ "grad_norm": 185.94760131835938,
2056
+ "learning_rate": 1.1003056221279217e-05,
2057
+ "loss": 0.2309,
2058
+ "step": 144000
2059
+ },
2060
+ {
2061
+ "epoch": 3.1771508981772607,
2062
+ "grad_norm": 42.58454132080078,
2063
+ "learning_rate": 1.0937094610936434e-05,
2064
+ "loss": 0.2634,
2065
+ "step": 144500
2066
+ },
2067
+ {
2068
+ "epoch": 3.1881444999010577,
2069
+ "grad_norm": 0.19487299025058746,
2070
+ "learning_rate": 1.0871133000593655e-05,
2071
+ "loss": 0.2668,
2072
+ "step": 145000
2073
+ },
2074
+ {
2075
+ "epoch": 3.1991381016248543,
2076
+ "grad_norm": 0.11774999648332596,
2077
+ "learning_rate": 1.0805171390250874e-05,
2078
+ "loss": 0.2531,
2079
+ "step": 145500
2080
+ },
2081
+ {
2082
+ "epoch": 3.210131703348651,
2083
+ "grad_norm": 0.8709030747413635,
2084
+ "learning_rate": 1.0739209779908093e-05,
2085
+ "loss": 0.2579,
2086
+ "step": 146000
2087
+ },
2088
+ {
2089
+ "epoch": 3.221125305072448,
2090
+ "grad_norm": 0.26620733737945557,
2091
+ "learning_rate": 1.0673248169565313e-05,
2092
+ "loss": 0.2456,
2093
+ "step": 146500
2094
+ },
2095
+ {
2096
+ "epoch": 3.2321189067962446,
2097
+ "grad_norm": 30.161376953125,
2098
+ "learning_rate": 1.0607286559222532e-05,
2099
+ "loss": 0.2588,
2100
+ "step": 147000
2101
+ },
2102
+ {
2103
+ "epoch": 3.243112508520041,
2104
+ "grad_norm": 14.72189998626709,
2105
+ "learning_rate": 1.0541324948879753e-05,
2106
+ "loss": 0.2538,
2107
+ "step": 147500
2108
+ },
2109
+ {
2110
+ "epoch": 3.2541061102438382,
2111
+ "grad_norm": 22.82953453063965,
2112
+ "learning_rate": 1.0475363338536972e-05,
2113
+ "loss": 0.2398,
2114
+ "step": 148000
2115
+ },
2116
+ {
2117
+ "epoch": 3.265099711967635,
2118
+ "grad_norm": 1.3340407609939575,
2119
+ "learning_rate": 1.0409401728194191e-05,
2120
+ "loss": 0.2619,
2121
+ "step": 148500
2122
+ },
2123
+ {
2124
+ "epoch": 3.2760933136914314,
2125
+ "grad_norm": 4.700684070587158,
2126
+ "learning_rate": 1.034344011785141e-05,
2127
+ "loss": 0.2563,
2128
+ "step": 149000
2129
+ },
2130
+ {
2131
+ "epoch": 3.2870869154152285,
2132
+ "grad_norm": 49.13290786743164,
2133
+ "learning_rate": 1.0277478507508631e-05,
2134
+ "loss": 0.2756,
2135
+ "step": 149500
2136
+ },
2137
+ {
2138
+ "epoch": 3.298080517139025,
2139
+ "grad_norm": 0.5340966582298279,
2140
+ "learning_rate": 1.021151689716585e-05,
2141
+ "loss": 0.249,
2142
+ "step": 150000
2143
+ },
2144
+ {
2145
+ "epoch": 3.3090741188628217,
2146
+ "grad_norm": 156.9650115966797,
2147
+ "learning_rate": 1.014555528682307e-05,
2148
+ "loss": 0.237,
2149
+ "step": 150500
2150
+ },
2151
+ {
2152
+ "epoch": 3.3200677205866187,
2153
+ "grad_norm": 0.09667583554983139,
2154
+ "learning_rate": 1.0079593676480288e-05,
2155
+ "loss": 0.2621,
2156
+ "step": 151000
2157
+ },
2158
+ {
2159
+ "epoch": 3.3310613223104153,
2160
+ "grad_norm": 9.222663879394531,
2161
+ "learning_rate": 1.0013632066137508e-05,
2162
+ "loss": 0.2457,
2163
+ "step": 151500
2164
+ },
2165
+ {
2166
+ "epoch": 3.342054924034212,
2167
+ "grad_norm": 14.612710952758789,
2168
+ "learning_rate": 9.947670455794728e-06,
2169
+ "loss": 0.2555,
2170
+ "step": 152000
2171
+ },
2172
+ {
2173
+ "epoch": 3.353048525758009,
2174
+ "grad_norm": 50.92832565307617,
2175
+ "learning_rate": 9.881708845451946e-06,
2176
+ "loss": 0.2394,
2177
+ "step": 152500
2178
+ },
2179
+ {
2180
+ "epoch": 3.3640421274818055,
2181
+ "grad_norm": 1.5905165672302246,
2182
+ "learning_rate": 9.815747235109167e-06,
2183
+ "loss": 0.2408,
2184
+ "step": 153000
2185
+ },
2186
+ {
2187
+ "epoch": 3.375035729205602,
2188
+ "grad_norm": 34.99452209472656,
2189
+ "learning_rate": 9.749785624766386e-06,
2190
+ "loss": 0.2351,
2191
+ "step": 153500
2192
+ },
2193
+ {
2194
+ "epoch": 3.386029330929399,
2195
+ "grad_norm": 1.3218666315078735,
2196
+ "learning_rate": 9.683824014423607e-06,
2197
+ "loss": 0.2494,
2198
+ "step": 154000
2199
+ },
2200
+ {
2201
+ "epoch": 3.3970229326531958,
2202
+ "grad_norm": 19.163127899169922,
2203
+ "learning_rate": 9.617862404080824e-06,
2204
+ "loss": 0.2716,
2205
+ "step": 154500
2206
+ },
2207
+ {
2208
+ "epoch": 3.4080165343769924,
2209
+ "grad_norm": 0.3468831479549408,
2210
+ "learning_rate": 9.551900793738045e-06,
2211
+ "loss": 0.2617,
2212
+ "step": 155000
2213
+ },
2214
+ {
2215
+ "epoch": 3.4190101361007894,
2216
+ "grad_norm": 19.626012802124023,
2217
+ "learning_rate": 9.485939183395264e-06,
2218
+ "loss": 0.2651,
2219
+ "step": 155500
2220
+ },
2221
+ {
2222
+ "epoch": 3.430003737824586,
2223
+ "grad_norm": 17.755313873291016,
2224
+ "learning_rate": 9.419977573052483e-06,
2225
+ "loss": 0.2487,
2226
+ "step": 156000
2227
+ },
2228
+ {
2229
+ "epoch": 3.4409973395483826,
2230
+ "grad_norm": 14.6954984664917,
2231
+ "learning_rate": 9.354015962709702e-06,
2232
+ "loss": 0.2579,
2233
+ "step": 156500
2234
+ },
2235
+ {
2236
+ "epoch": 3.4519909412721796,
2237
+ "grad_norm": 24.834569931030273,
2238
+ "learning_rate": 9.288054352366922e-06,
2239
+ "loss": 0.2343,
2240
+ "step": 157000
2241
+ },
2242
+ {
2243
+ "epoch": 3.4629845429959762,
2244
+ "grad_norm": 11.748075485229492,
2245
+ "learning_rate": 9.222092742024142e-06,
2246
+ "loss": 0.2493,
2247
+ "step": 157500
2248
+ },
2249
+ {
2250
+ "epoch": 3.473978144719773,
2251
+ "grad_norm": 0.26250067353248596,
2252
+ "learning_rate": 9.156131131681362e-06,
2253
+ "loss": 0.2518,
2254
+ "step": 158000
2255
+ },
2256
+ {
2257
+ "epoch": 3.48497174644357,
2258
+ "grad_norm": 0.31238773465156555,
2259
+ "learning_rate": 9.09016952133858e-06,
2260
+ "loss": 0.2563,
2261
+ "step": 158500
2262
+ },
2263
+ {
2264
+ "epoch": 3.4959653481673665,
2265
+ "grad_norm": 0.38414067029953003,
2266
+ "learning_rate": 9.0242079109958e-06,
2267
+ "loss": 0.2605,
2268
+ "step": 159000
2269
+ },
2270
+ {
2271
+ "epoch": 3.506958949891163,
2272
+ "grad_norm": 0.26335904002189636,
2273
+ "learning_rate": 8.95824630065302e-06,
2274
+ "loss": 0.25,
2275
+ "step": 159500
2276
+ },
2277
+ {
2278
+ "epoch": 3.51795255161496,
2279
+ "grad_norm": 11.267284393310547,
2280
+ "learning_rate": 8.89228469031024e-06,
2281
+ "loss": 0.2446,
2282
+ "step": 160000
2283
+ },
2284
+ {
2285
+ "epoch": 3.5289461533387567,
2286
+ "grad_norm": 13.036714553833008,
2287
+ "learning_rate": 8.826323079967459e-06,
2288
+ "loss": 0.2341,
2289
+ "step": 160500
2290
+ },
2291
+ {
2292
+ "epoch": 3.5399397550625533,
2293
+ "grad_norm": 9.3615140914917,
2294
+ "learning_rate": 8.760361469624678e-06,
2295
+ "loss": 0.2632,
2296
+ "step": 161000
2297
+ },
2298
+ {
2299
+ "epoch": 3.5509333567863504,
2300
+ "grad_norm": 0.3549996018409729,
2301
+ "learning_rate": 8.694399859281897e-06,
2302
+ "loss": 0.2507,
2303
+ "step": 161500
2304
+ },
2305
+ {
2306
+ "epoch": 3.561926958510147,
2307
+ "grad_norm": 0.46619582176208496,
2308
+ "learning_rate": 8.628438248939118e-06,
2309
+ "loss": 0.2543,
2310
+ "step": 162000
2311
+ },
2312
+ {
2313
+ "epoch": 3.572920560233944,
2314
+ "grad_norm": 0.9738485217094421,
2315
+ "learning_rate": 8.562476638596337e-06,
2316
+ "loss": 0.2672,
2317
+ "step": 162500
2318
+ },
2319
+ {
2320
+ "epoch": 3.5839141619577406,
2321
+ "grad_norm": 12.682645797729492,
2322
+ "learning_rate": 8.496515028253557e-06,
2323
+ "loss": 0.2422,
2324
+ "step": 163000
2325
+ },
2326
+ {
2327
+ "epoch": 3.594907763681537,
2328
+ "grad_norm": 0.33584246039390564,
2329
+ "learning_rate": 8.430553417910776e-06,
2330
+ "loss": 0.2597,
2331
+ "step": 163500
2332
+ },
2333
+ {
2334
+ "epoch": 3.6059013654053342,
2335
+ "grad_norm": 8.06340217590332,
2336
+ "learning_rate": 8.364591807567997e-06,
2337
+ "loss": 0.271,
2338
+ "step": 164000
2339
+ },
2340
+ {
2341
+ "epoch": 3.616894967129131,
2342
+ "grad_norm": 0.4343748688697815,
2343
+ "learning_rate": 8.298630197225216e-06,
2344
+ "loss": 0.2686,
2345
+ "step": 164500
2346
+ },
2347
+ {
2348
+ "epoch": 3.6278885688529274,
2349
+ "grad_norm": 38.23839569091797,
2350
+ "learning_rate": 8.232668586882435e-06,
2351
+ "loss": 0.2605,
2352
+ "step": 165000
2353
+ },
2354
+ {
2355
+ "epoch": 3.6388821705767245,
2356
+ "grad_norm": 20.085224151611328,
2357
+ "learning_rate": 8.166706976539654e-06,
2358
+ "loss": 0.2449,
2359
+ "step": 165500
2360
+ },
2361
+ {
2362
+ "epoch": 3.649875772300521,
2363
+ "grad_norm": 0.3538534641265869,
2364
+ "learning_rate": 8.100745366196875e-06,
2365
+ "loss": 0.2436,
2366
+ "step": 166000
2367
+ },
2368
+ {
2369
+ "epoch": 3.660869374024318,
2370
+ "grad_norm": 0.3242553174495697,
2371
+ "learning_rate": 8.034783755854094e-06,
2372
+ "loss": 0.2468,
2373
+ "step": 166500
2374
+ },
2375
+ {
2376
+ "epoch": 3.6718629757481147,
2377
+ "grad_norm": 28.696617126464844,
2378
+ "learning_rate": 7.968822145511311e-06,
2379
+ "loss": 0.2621,
2380
+ "step": 167000
2381
+ },
2382
+ {
2383
+ "epoch": 3.6828565774719113,
2384
+ "grad_norm": 0.26111406087875366,
2385
+ "learning_rate": 7.902860535168532e-06,
2386
+ "loss": 0.2519,
2387
+ "step": 167500
2388
+ },
2389
+ {
2390
+ "epoch": 3.6938501791957083,
2391
+ "grad_norm": 0.24540553987026215,
2392
+ "learning_rate": 7.836898924825751e-06,
2393
+ "loss": 0.2515,
2394
+ "step": 168000
2395
+ },
2396
+ {
2397
+ "epoch": 3.704843780919505,
2398
+ "grad_norm": 0.4676073491573334,
2399
+ "learning_rate": 7.770937314482972e-06,
2400
+ "loss": 0.256,
2401
+ "step": 168500
2402
+ },
2403
+ {
2404
+ "epoch": 3.7158373826433015,
2405
+ "grad_norm": 87.25594329833984,
2406
+ "learning_rate": 7.70497570414019e-06,
2407
+ "loss": 0.2354,
2408
+ "step": 169000
2409
+ },
2410
+ {
2411
+ "epoch": 3.7268309843670986,
2412
+ "grad_norm": 1.1010403633117676,
2413
+ "learning_rate": 7.63901409379741e-06,
2414
+ "loss": 0.2394,
2415
+ "step": 169500
2416
+ },
2417
+ {
2418
+ "epoch": 3.737824586090895,
2419
+ "grad_norm": 0.1542312502861023,
2420
+ "learning_rate": 7.57305248345463e-06,
2421
+ "loss": 0.2491,
2422
+ "step": 170000
2423
+ },
2424
+ {
2425
+ "epoch": 3.748818187814692,
2426
+ "grad_norm": 2.4090046882629395,
2427
+ "learning_rate": 7.50709087311185e-06,
2428
+ "loss": 0.2337,
2429
+ "step": 170500
2430
+ },
2431
+ {
2432
+ "epoch": 3.759811789538489,
2433
+ "grad_norm": 6.501917362213135,
2434
+ "learning_rate": 7.441129262769069e-06,
2435
+ "loss": 0.2406,
2436
+ "step": 171000
2437
+ },
2438
+ {
2439
+ "epoch": 3.7708053912622854,
2440
+ "grad_norm": 19.246479034423828,
2441
+ "learning_rate": 7.375167652426288e-06,
2442
+ "loss": 0.2547,
2443
+ "step": 171500
2444
+ },
2445
+ {
2446
+ "epoch": 3.781798992986082,
2447
+ "grad_norm": 0.10231161117553711,
2448
+ "learning_rate": 7.309206042083508e-06,
2449
+ "loss": 0.2379,
2450
+ "step": 172000
2451
+ },
2452
+ {
2453
+ "epoch": 3.792792594709879,
2454
+ "grad_norm": 10.832609176635742,
2455
+ "learning_rate": 7.243244431740727e-06,
2456
+ "loss": 0.2711,
2457
+ "step": 172500
2458
+ },
2459
+ {
2460
+ "epoch": 3.8037861964336757,
2461
+ "grad_norm": 18.556346893310547,
2462
+ "learning_rate": 7.177282821397947e-06,
2463
+ "loss": 0.2265,
2464
+ "step": 173000
2465
+ },
2466
+ {
2467
+ "epoch": 3.8147797981574723,
2468
+ "grad_norm": 1.0246055126190186,
2469
+ "learning_rate": 7.111321211055166e-06,
2470
+ "loss": 0.2334,
2471
+ "step": 173500
2472
+ },
2473
+ {
2474
+ "epoch": 3.8257733998812693,
2475
+ "grad_norm": 1.1454087495803833,
2476
+ "learning_rate": 7.0453596007123855e-06,
2477
+ "loss": 0.2491,
2478
+ "step": 174000
2479
+ },
2480
+ {
2481
+ "epoch": 3.836767001605066,
2482
+ "grad_norm": 11.247049331665039,
2483
+ "learning_rate": 6.979397990369605e-06,
2484
+ "loss": 0.2632,
2485
+ "step": 174500
2486
+ },
2487
+ {
2488
+ "epoch": 3.8477606033288625,
2489
+ "grad_norm": 14.466601371765137,
2490
+ "learning_rate": 6.913436380026825e-06,
2491
+ "loss": 0.2639,
2492
+ "step": 175000
2493
+ },
2494
+ {
2495
+ "epoch": 3.8587542050526595,
2496
+ "grad_norm": 7.91213321685791,
2497
+ "learning_rate": 6.847474769684044e-06,
2498
+ "loss": 0.2527,
2499
+ "step": 175500
2500
+ },
2501
+ {
2502
+ "epoch": 3.869747806776456,
2503
+ "grad_norm": 26.528411865234375,
2504
+ "learning_rate": 6.781513159341264e-06,
2505
+ "loss": 0.2438,
2506
+ "step": 176000
2507
+ },
2508
+ {
2509
+ "epoch": 3.8807414085002527,
2510
+ "grad_norm": 0.7833952903747559,
2511
+ "learning_rate": 6.715551548998483e-06,
2512
+ "loss": 0.2585,
2513
+ "step": 176500
2514
+ },
2515
+ {
2516
+ "epoch": 3.8917350102240498,
2517
+ "grad_norm": 53.77830123901367,
2518
+ "learning_rate": 6.649589938655703e-06,
2519
+ "loss": 0.2615,
2520
+ "step": 177000
2521
+ },
2522
+ {
2523
+ "epoch": 3.9027286119478464,
2524
+ "grad_norm": 0.6139953136444092,
2525
+ "learning_rate": 6.583628328312922e-06,
2526
+ "loss": 0.2644,
2527
+ "step": 177500
2528
+ },
2529
+ {
2530
+ "epoch": 3.913722213671643,
2531
+ "grad_norm": 1.4486163854599,
2532
+ "learning_rate": 6.517666717970142e-06,
2533
+ "loss": 0.2302,
2534
+ "step": 178000
2535
+ },
2536
+ {
2537
+ "epoch": 3.92471581539544,
2538
+ "grad_norm": 5.287415504455566,
2539
+ "learning_rate": 6.451705107627361e-06,
2540
+ "loss": 0.2727,
2541
+ "step": 178500
2542
+ },
2543
+ {
2544
+ "epoch": 3.9357094171192366,
2545
+ "grad_norm": 26.611614227294922,
2546
+ "learning_rate": 6.3857434972845804e-06,
2547
+ "loss": 0.2514,
2548
+ "step": 179000
2549
+ },
2550
+ {
2551
+ "epoch": 3.946703018843033,
2552
+ "grad_norm": 14.361977577209473,
2553
+ "learning_rate": 6.3197818869418e-06,
2554
+ "loss": 0.2476,
2555
+ "step": 179500
2556
+ },
2557
+ {
2558
+ "epoch": 3.9576966205668302,
2559
+ "grad_norm": 1.3597434759140015,
2560
+ "learning_rate": 6.25382027659902e-06,
2561
+ "loss": 0.2406,
2562
+ "step": 180000
2563
+ },
2564
+ {
2565
+ "epoch": 3.968690222290627,
2566
+ "grad_norm": 10.218100547790527,
2567
+ "learning_rate": 6.187858666256239e-06,
2568
+ "loss": 0.254,
2569
+ "step": 180500
2570
+ },
2571
+ {
2572
+ "epoch": 3.9796838240144234,
2573
+ "grad_norm": 0.7666225433349609,
2574
+ "learning_rate": 6.121897055913459e-06,
2575
+ "loss": 0.2741,
2576
+ "step": 181000
2577
+ },
2578
+ {
2579
+ "epoch": 3.9906774257382205,
2580
+ "grad_norm": 36.5604133605957,
2581
+ "learning_rate": 6.055935445570678e-06,
2582
+ "loss": 0.2374,
2583
+ "step": 181500
2584
+ },
2585
+ {
2586
+ "epoch": 4.0,
2587
+ "eval_accuracy": 0.8765273094177246,
2588
+ "eval_f1": 0.8365850464842216,
2589
+ "eval_loss": 0.5333936214447021,
2590
+ "eval_mcc": 0.7376033359055921,
2591
+ "eval_runtime": 27.772,
2592
+ "eval_samples_per_second": 727.891,
2593
+ "eval_steps_per_second": 90.991,
2594
+ "step": 181924
2595
+ },
2596
+ {
2597
+ "epoch": 4.0016710274620175,
2598
+ "grad_norm": 0.4658304750919342,
2599
+ "learning_rate": 5.989973835227898e-06,
2600
+ "loss": 0.2447,
2601
+ "step": 182000
2602
+ },
2603
+ {
2604
+ "epoch": 4.012664629185814,
2605
+ "grad_norm": 0.2597205340862274,
2606
+ "learning_rate": 5.924012224885117e-06,
2607
+ "loss": 0.1824,
2608
+ "step": 182500
2609
+ },
2610
+ {
2611
+ "epoch": 4.023658230909611,
2612
+ "grad_norm": 0.4755733907222748,
2613
+ "learning_rate": 5.858050614542337e-06,
2614
+ "loss": 0.2266,
2615
+ "step": 183000
2616
+ },
2617
+ {
2618
+ "epoch": 4.034651832633408,
2619
+ "grad_norm": 0.3996201753616333,
2620
+ "learning_rate": 5.792089004199556e-06,
2621
+ "loss": 0.1901,
2622
+ "step": 183500
2623
+ },
2624
+ {
2625
+ "epoch": 4.045645434357204,
2626
+ "grad_norm": 0.8636412620544434,
2627
+ "learning_rate": 5.726127393856775e-06,
2628
+ "loss": 0.1955,
2629
+ "step": 184000
2630
+ },
2631
+ {
2632
+ "epoch": 4.056639036081001,
2633
+ "grad_norm": 0.3265284597873688,
2634
+ "learning_rate": 5.6601657835139945e-06,
2635
+ "loss": 0.1979,
2636
+ "step": 184500
2637
+ },
2638
+ {
2639
+ "epoch": 4.067632637804798,
2640
+ "grad_norm": 0.1188616007566452,
2641
+ "learning_rate": 5.5942041731712145e-06,
2642
+ "loss": 0.2066,
2643
+ "step": 185000
2644
+ },
2645
+ {
2646
+ "epoch": 4.078626239528594,
2647
+ "grad_norm": 0.7546807527542114,
2648
+ "learning_rate": 5.528242562828434e-06,
2649
+ "loss": 0.1959,
2650
+ "step": 185500
2651
+ },
2652
+ {
2653
+ "epoch": 4.089619841252391,
2654
+ "grad_norm": 0.12139397114515305,
2655
+ "learning_rate": 5.462280952485654e-06,
2656
+ "loss": 0.1969,
2657
+ "step": 186000
2658
+ },
2659
+ {
2660
+ "epoch": 4.100613442976188,
2661
+ "grad_norm": 0.13494807481765747,
2662
+ "learning_rate": 5.396319342142873e-06,
2663
+ "loss": 0.1814,
2664
+ "step": 186500
2665
+ },
2666
+ {
2667
+ "epoch": 4.111607044699984,
2668
+ "grad_norm": 0.023194080218672752,
2669
+ "learning_rate": 5.330357731800093e-06,
2670
+ "loss": 0.1877,
2671
+ "step": 187000
2672
+ },
2673
+ {
2674
+ "epoch": 4.122600646423781,
2675
+ "grad_norm": 0.07898598164319992,
2676
+ "learning_rate": 5.264396121457312e-06,
2677
+ "loss": 0.209,
2678
+ "step": 187500
2679
+ },
2680
+ {
2681
+ "epoch": 4.1335942481475785,
2682
+ "grad_norm": 0.11429109424352646,
2683
+ "learning_rate": 5.198434511114532e-06,
2684
+ "loss": 0.1794,
2685
+ "step": 188000
2686
+ },
2687
+ {
2688
+ "epoch": 4.144587849871375,
2689
+ "grad_norm": 0.1126711368560791,
2690
+ "learning_rate": 5.132472900771751e-06,
2691
+ "loss": 0.2143,
2692
+ "step": 188500
2693
+ },
2694
+ {
2695
+ "epoch": 4.155581451595172,
2696
+ "grad_norm": 36.669212341308594,
2697
+ "learning_rate": 5.06651129042897e-06,
2698
+ "loss": 0.1995,
2699
+ "step": 189000
2700
+ },
2701
+ {
2702
+ "epoch": 4.166575053318969,
2703
+ "grad_norm": 0.0557066835463047,
2704
+ "learning_rate": 5.0005496800861894e-06,
2705
+ "loss": 0.1977,
2706
+ "step": 189500
2707
+ },
2708
+ {
2709
+ "epoch": 4.177568655042765,
2710
+ "grad_norm": 0.11854979395866394,
2711
+ "learning_rate": 4.9345880697434094e-06,
2712
+ "loss": 0.203,
2713
+ "step": 190000
2714
+ },
2715
+ {
2716
+ "epoch": 4.188562256766562,
2717
+ "grad_norm": 47.56736755371094,
2718
+ "learning_rate": 4.868626459400629e-06,
2719
+ "loss": 0.1673,
2720
+ "step": 190500
2721
+ },
2722
+ {
2723
+ "epoch": 4.199555858490359,
2724
+ "grad_norm": 1.5440220832824707,
2725
+ "learning_rate": 4.802664849057849e-06,
2726
+ "loss": 0.1998,
2727
+ "step": 191000
2728
+ },
2729
+ {
2730
+ "epoch": 4.210549460214155,
2731
+ "grad_norm": 0.11512400209903717,
2732
+ "learning_rate": 4.736703238715068e-06,
2733
+ "loss": 0.2027,
2734
+ "step": 191500
2735
+ },
2736
+ {
2737
+ "epoch": 4.221543061937952,
2738
+ "grad_norm": 13.000309944152832,
2739
+ "learning_rate": 4.670741628372288e-06,
2740
+ "loss": 0.2268,
2741
+ "step": 192000
2742
+ },
2743
+ {
2744
+ "epoch": 4.232536663661749,
2745
+ "grad_norm": 0.053511910140514374,
2746
+ "learning_rate": 4.604780018029507e-06,
2747
+ "loss": 0.2119,
2748
+ "step": 192500
2749
+ },
2750
+ {
2751
+ "epoch": 4.243530265385545,
2752
+ "grad_norm": 1.0577130317687988,
2753
+ "learning_rate": 4.538818407686727e-06,
2754
+ "loss": 0.207,
2755
+ "step": 193000
2756
+ },
2757
+ {
2758
+ "epoch": 4.254523867109342,
2759
+ "grad_norm": 0.5129163861274719,
2760
+ "learning_rate": 4.472856797343946e-06,
2761
+ "loss": 0.1971,
2762
+ "step": 193500
2763
+ },
2764
+ {
2765
+ "epoch": 4.265517468833139,
2766
+ "grad_norm": 38.92678451538086,
2767
+ "learning_rate": 4.406895187001165e-06,
2768
+ "loss": 0.1915,
2769
+ "step": 194000
2770
+ },
2771
+ {
2772
+ "epoch": 4.276511070556936,
2773
+ "grad_norm": 0.2508489489555359,
2774
+ "learning_rate": 4.340933576658384e-06,
2775
+ "loss": 0.2076,
2776
+ "step": 194500
2777
+ },
2778
+ {
2779
+ "epoch": 4.287504672280733,
2780
+ "grad_norm": 0.8289797306060791,
2781
+ "learning_rate": 4.274971966315604e-06,
2782
+ "loss": 0.1906,
2783
+ "step": 195000
2784
+ },
2785
+ {
2786
+ "epoch": 4.29849827400453,
2787
+ "grad_norm": 0.1511843502521515,
2788
+ "learning_rate": 4.2090103559728235e-06,
2789
+ "loss": 0.1908,
2790
+ "step": 195500
2791
+ },
2792
+ {
2793
+ "epoch": 4.309491875728326,
2794
+ "grad_norm": 36.47195053100586,
2795
+ "learning_rate": 4.1430487456300435e-06,
2796
+ "loss": 0.2198,
2797
+ "step": 196000
2798
+ },
2799
+ {
2800
+ "epoch": 4.320485477452123,
2801
+ "grad_norm": 59.39978790283203,
2802
+ "learning_rate": 4.077087135287263e-06,
2803
+ "loss": 0.1958,
2804
+ "step": 196500
2805
+ },
2806
+ {
2807
+ "epoch": 4.33147907917592,
2808
+ "grad_norm": 25.194355010986328,
2809
+ "learning_rate": 4.011125524944483e-06,
2810
+ "loss": 0.185,
2811
+ "step": 197000
2812
+ },
2813
+ {
2814
+ "epoch": 4.342472680899716,
2815
+ "grad_norm": 20.661163330078125,
2816
+ "learning_rate": 3.945163914601702e-06,
2817
+ "loss": 0.2032,
2818
+ "step": 197500
2819
+ },
2820
+ {
2821
+ "epoch": 4.353466282623513,
2822
+ "grad_norm": 0.04815911129117012,
2823
+ "learning_rate": 3.879202304258922e-06,
2824
+ "loss": 0.194,
2825
+ "step": 198000
2826
+ },
2827
+ {
2828
+ "epoch": 4.36445988434731,
2829
+ "grad_norm": 0.18730510771274567,
2830
+ "learning_rate": 3.8132406939161414e-06,
2831
+ "loss": 0.236,
2832
+ "step": 198500
2833
+ },
2834
+ {
2835
+ "epoch": 4.375453486071106,
2836
+ "grad_norm": 15.972749710083008,
2837
+ "learning_rate": 3.7472790835733606e-06,
2838
+ "loss": 0.196,
2839
+ "step": 199000
2840
+ },
2841
+ {
2842
+ "epoch": 4.386447087794903,
2843
+ "grad_norm": 0.25309285521507263,
2844
+ "learning_rate": 3.68131747323058e-06,
2845
+ "loss": 0.2161,
2846
+ "step": 199500
2847
+ },
2848
+ {
2849
+ "epoch": 4.3974406895187,
2850
+ "grad_norm": 0.17074181139469147,
2851
+ "learning_rate": 3.6153558628877997e-06,
2852
+ "loss": 0.1836,
2853
+ "step": 200000
2854
+ },
2855
+ {
2856
+ "epoch": 4.4084342912424965,
2857
+ "grad_norm": 20.413162231445312,
2858
+ "learning_rate": 3.549394252545019e-06,
2859
+ "loss": 0.1911,
2860
+ "step": 200500
2861
+ },
2862
+ {
2863
+ "epoch": 4.419427892966294,
2864
+ "grad_norm": 0.5931562781333923,
2865
+ "learning_rate": 3.4834326422022384e-06,
2866
+ "loss": 0.1847,
2867
+ "step": 201000
2868
+ },
2869
+ {
2870
+ "epoch": 4.430421494690091,
2871
+ "grad_norm": 37.10576248168945,
2872
+ "learning_rate": 3.417471031859458e-06,
2873
+ "loss": 0.1657,
2874
+ "step": 201500
2875
+ },
2876
+ {
2877
+ "epoch": 4.441415096413887,
2878
+ "grad_norm": 0.06108024716377258,
2879
+ "learning_rate": 3.3515094215166776e-06,
2880
+ "loss": 0.1949,
2881
+ "step": 202000
2882
+ },
2883
+ {
2884
+ "epoch": 4.452408698137684,
2885
+ "grad_norm": 14.7476224899292,
2886
+ "learning_rate": 3.285547811173897e-06,
2887
+ "loss": 0.2052,
2888
+ "step": 202500
2889
+ },
2890
+ {
2891
+ "epoch": 4.463402299861481,
2892
+ "grad_norm": 0.4280465841293335,
2893
+ "learning_rate": 3.2195862008311163e-06,
2894
+ "loss": 0.2127,
2895
+ "step": 203000
2896
+ },
2897
+ {
2898
+ "epoch": 4.474395901585277,
2899
+ "grad_norm": 0.38156208395957947,
2900
+ "learning_rate": 3.153624590488336e-06,
2901
+ "loss": 0.1949,
2902
+ "step": 203500
2903
+ },
2904
+ {
2905
+ "epoch": 4.485389503309074,
2906
+ "grad_norm": 325.33026123046875,
2907
+ "learning_rate": 3.0876629801455555e-06,
2908
+ "loss": 0.1976,
2909
+ "step": 204000
2910
+ },
2911
+ {
2912
+ "epoch": 4.496383105032871,
2913
+ "grad_norm": 99.75337982177734,
2914
+ "learning_rate": 3.021701369802775e-06,
2915
+ "loss": 0.2031,
2916
+ "step": 204500
2917
+ },
2918
+ {
2919
+ "epoch": 4.507376706756667,
2920
+ "grad_norm": 0.17061945796012878,
2921
+ "learning_rate": 2.9557397594599946e-06,
2922
+ "loss": 0.1964,
2923
+ "step": 205000
2924
+ },
2925
+ {
2926
+ "epoch": 4.518370308480464,
2927
+ "grad_norm": 25.07261085510254,
2928
+ "learning_rate": 2.8897781491172138e-06,
2929
+ "loss": 0.1875,
2930
+ "step": 205500
2931
+ },
2932
+ {
2933
+ "epoch": 4.529363910204261,
2934
+ "grad_norm": 0.2692670226097107,
2935
+ "learning_rate": 2.8238165387744334e-06,
2936
+ "loss": 0.1978,
2937
+ "step": 206000
2938
+ },
2939
+ {
2940
+ "epoch": 4.5403575119280575,
2941
+ "grad_norm": 2.56193470954895,
2942
+ "learning_rate": 2.757854928431653e-06,
2943
+ "loss": 0.207,
2944
+ "step": 206500
2945
+ },
2946
+ {
2947
+ "epoch": 4.5513511136518545,
2948
+ "grad_norm": 1.1347905397415161,
2949
+ "learning_rate": 2.6918933180888725e-06,
2950
+ "loss": 0.2049,
2951
+ "step": 207000
2952
+ },
2953
+ {
2954
+ "epoch": 4.562344715375652,
2955
+ "grad_norm": 0.9405034184455872,
2956
+ "learning_rate": 2.625931707746092e-06,
2957
+ "loss": 0.182,
2958
+ "step": 207500
2959
+ },
2960
+ {
2961
+ "epoch": 4.573338317099449,
2962
+ "grad_norm": 0.10386385023593903,
2963
+ "learning_rate": 2.5599700974033112e-06,
2964
+ "loss": 0.1816,
2965
+ "step": 208000
2966
+ },
2967
+ {
2968
+ "epoch": 4.584331918823245,
2969
+ "grad_norm": 1.0305184125900269,
2970
+ "learning_rate": 2.494008487060531e-06,
2971
+ "loss": 0.208,
2972
+ "step": 208500
2973
+ },
2974
+ {
2975
+ "epoch": 4.595325520547042,
2976
+ "grad_norm": 5.062295913696289,
2977
+ "learning_rate": 2.4280468767177504e-06,
2978
+ "loss": 0.1918,
2979
+ "step": 209000
2980
+ },
2981
+ {
2982
+ "epoch": 4.606319122270838,
2983
+ "grad_norm": 13.542932510375977,
2984
+ "learning_rate": 2.36208526637497e-06,
2985
+ "loss": 0.2016,
2986
+ "step": 209500
2987
+ },
2988
+ {
2989
+ "epoch": 4.617312723994635,
2990
+ "grad_norm": 28.13912582397461,
2991
+ "learning_rate": 2.2961236560321896e-06,
2992
+ "loss": 0.2065,
2993
+ "step": 210000
2994
+ },
2995
+ {
2996
+ "epoch": 4.628306325718432,
2997
+ "grad_norm": 38.89891052246094,
2998
+ "learning_rate": 2.2301620456894087e-06,
2999
+ "loss": 0.1951,
3000
+ "step": 210500
3001
+ },
3002
+ {
3003
+ "epoch": 4.639299927442229,
3004
+ "grad_norm": 220.25010681152344,
3005
+ "learning_rate": 2.1642004353466283e-06,
3006
+ "loss": 0.2243,
3007
+ "step": 211000
3008
+ },
3009
+ {
3010
+ "epoch": 4.650293529166025,
3011
+ "grad_norm": 0.11063925921916962,
3012
+ "learning_rate": 2.098238825003848e-06,
3013
+ "loss": 0.1862,
3014
+ "step": 211500
3015
+ },
3016
+ {
3017
+ "epoch": 4.661287130889822,
3018
+ "grad_norm": 0.9656747579574585,
3019
+ "learning_rate": 2.0322772146610674e-06,
3020
+ "loss": 0.1796,
3021
+ "step": 212000
3022
+ },
3023
+ {
3024
+ "epoch": 4.672280732613618,
3025
+ "grad_norm": 0.03588191047310829,
3026
+ "learning_rate": 1.966315604318287e-06,
3027
+ "loss": 0.1936,
3028
+ "step": 212500
3029
+ },
3030
+ {
3031
+ "epoch": 4.6832743343374155,
3032
+ "grad_norm": 25.791149139404297,
3033
+ "learning_rate": 1.9003539939755062e-06,
3034
+ "loss": 0.2102,
3035
+ "step": 213000
3036
+ },
3037
+ {
3038
+ "epoch": 4.6942679360612125,
3039
+ "grad_norm": 1.5398284196853638,
3040
+ "learning_rate": 1.8343923836327257e-06,
3041
+ "loss": 0.1941,
3042
+ "step": 213500
3043
+ },
3044
+ {
3045
+ "epoch": 4.7052615377850096,
3046
+ "grad_norm": 0.8514572978019714,
3047
+ "learning_rate": 1.7684307732899453e-06,
3048
+ "loss": 0.2124,
3049
+ "step": 214000
3050
+ },
3051
+ {
3052
+ "epoch": 4.716255139508806,
3053
+ "grad_norm": 0.1109534353017807,
3054
+ "learning_rate": 1.7024691629471647e-06,
3055
+ "loss": 0.1896,
3056
+ "step": 214500
3057
+ },
3058
+ {
3059
+ "epoch": 4.727248741232603,
3060
+ "grad_norm": 33.977500915527344,
3061
+ "learning_rate": 1.6365075526043843e-06,
3062
+ "loss": 0.1868,
3063
+ "step": 215000
3064
+ },
3065
+ {
3066
+ "epoch": 4.738242342956399,
3067
+ "grad_norm": 0.09221459925174713,
3068
+ "learning_rate": 1.5705459422616038e-06,
3069
+ "loss": 0.2147,
3070
+ "step": 215500
3071
+ },
3072
+ {
3073
+ "epoch": 4.749235944680196,
3074
+ "grad_norm": 0.13753363490104675,
3075
+ "learning_rate": 1.5045843319188232e-06,
3076
+ "loss": 0.1805,
3077
+ "step": 216000
3078
+ },
3079
+ {
3080
+ "epoch": 4.760229546403993,
3081
+ "grad_norm": 0.03300468996167183,
3082
+ "learning_rate": 1.4386227215760428e-06,
3083
+ "loss": 0.195,
3084
+ "step": 216500
3085
+ },
3086
+ {
3087
+ "epoch": 4.77122314812779,
3088
+ "grad_norm": 52.13509750366211,
3089
+ "learning_rate": 1.3726611112332624e-06,
3090
+ "loss": 0.1934,
3091
+ "step": 217000
3092
+ },
3093
+ {
3094
+ "epoch": 4.782216749851586,
3095
+ "grad_norm": 0.05201047658920288,
3096
+ "learning_rate": 1.3066995008904817e-06,
3097
+ "loss": 0.1986,
3098
+ "step": 217500
3099
+ },
3100
+ {
3101
+ "epoch": 4.793210351575383,
3102
+ "grad_norm": 0.15796062350273132,
3103
+ "learning_rate": 1.2407378905477013e-06,
3104
+ "loss": 0.189,
3105
+ "step": 218000
3106
+ },
3107
+ {
3108
+ "epoch": 4.80420395329918,
3109
+ "grad_norm": 0.603727400302887,
3110
+ "learning_rate": 1.1747762802049207e-06,
3111
+ "loss": 0.194,
3112
+ "step": 218500
3113
+ },
3114
+ {
3115
+ "epoch": 4.815197555022976,
3116
+ "grad_norm": 19.412994384765625,
3117
+ "learning_rate": 1.1088146698621402e-06,
3118
+ "loss": 0.2022,
3119
+ "step": 219000
3120
+ },
3121
+ {
3122
+ "epoch": 4.8261911567467735,
3123
+ "grad_norm": 0.08504907041788101,
3124
+ "learning_rate": 1.0428530595193598e-06,
3125
+ "loss": 0.1858,
3126
+ "step": 219500
3127
+ },
3128
+ {
3129
+ "epoch": 4.8371847584705705,
3130
+ "grad_norm": 0.07863516360521317,
3131
+ "learning_rate": 9.768914491765792e-07,
3132
+ "loss": 0.1942,
3133
+ "step": 220000
3134
+ },
3135
+ {
3136
+ "epoch": 4.848178360194367,
3137
+ "grad_norm": 23.51129722595215,
3138
+ "learning_rate": 9.109298388337987e-07,
3139
+ "loss": 0.1912,
3140
+ "step": 220500
3141
+ },
3142
+ {
3143
+ "epoch": 4.859171961918164,
3144
+ "grad_norm": 5.780854225158691,
3145
+ "learning_rate": 8.449682284910183e-07,
3146
+ "loss": 0.2185,
3147
+ "step": 221000
3148
+ },
3149
+ {
3150
+ "epoch": 4.870165563641961,
3151
+ "grad_norm": 0.05857408419251442,
3152
+ "learning_rate": 7.790066181482378e-07,
3153
+ "loss": 0.1914,
3154
+ "step": 221500
3155
+ },
3156
+ {
3157
+ "epoch": 4.881159165365757,
3158
+ "grad_norm": 0.18249481916427612,
3159
+ "learning_rate": 7.130450078054573e-07,
3160
+ "loss": 0.1738,
3161
+ "step": 222000
3162
+ },
3163
+ {
3164
+ "epoch": 4.892152767089554,
3165
+ "grad_norm": 418.6382751464844,
3166
+ "learning_rate": 6.470833974626767e-07,
3167
+ "loss": 0.2041,
3168
+ "step": 222500
3169
+ },
3170
+ {
3171
+ "epoch": 4.903146368813351,
3172
+ "grad_norm": 0.7230046987533569,
3173
+ "learning_rate": 5.811217871198962e-07,
3174
+ "loss": 0.1957,
3175
+ "step": 223000
3176
+ },
3177
+ {
3178
+ "epoch": 4.914139970537147,
3179
+ "grad_norm": 0.05270848050713539,
3180
+ "learning_rate": 5.151601767771158e-07,
3181
+ "loss": 0.1835,
3182
+ "step": 223500
3183
+ },
3184
+ {
3185
+ "epoch": 4.925133572260944,
3186
+ "grad_norm": 1709.6539306640625,
3187
+ "learning_rate": 4.491985664343352e-07,
3188
+ "loss": 0.1921,
3189
+ "step": 224000
3190
+ },
3191
+ {
3192
+ "epoch": 4.936127173984741,
3193
+ "grad_norm": 602.2431640625,
3194
+ "learning_rate": 3.8323695609155474e-07,
3195
+ "loss": 0.1727,
3196
+ "step": 224500
3197
+ },
3198
+ {
3199
+ "epoch": 4.947120775708537,
3200
+ "grad_norm": 0.297931432723999,
3201
+ "learning_rate": 3.1727534574877426e-07,
3202
+ "loss": 0.1915,
3203
+ "step": 225000
3204
+ },
3205
+ {
3206
+ "epoch": 4.958114377432334,
3207
+ "grad_norm": 0.3502364456653595,
3208
+ "learning_rate": 2.5131373540599373e-07,
3209
+ "loss": 0.1776,
3210
+ "step": 225500
3211
+ },
3212
+ {
3213
+ "epoch": 4.9691079791561314,
3214
+ "grad_norm": 0.023652415722608566,
3215
+ "learning_rate": 1.8535212506321323e-07,
3216
+ "loss": 0.1978,
3217
+ "step": 226000
3218
+ },
3219
+ {
3220
+ "epoch": 4.980101580879928,
3221
+ "grad_norm": 0.24965056777000427,
3222
+ "learning_rate": 1.1939051472043273e-07,
3223
+ "loss": 0.1924,
3224
+ "step": 226500
3225
+ },
3226
+ {
3227
+ "epoch": 4.991095182603725,
3228
+ "grad_norm": 0.07366069406270981,
3229
+ "learning_rate": 5.342890437765221e-08,
3230
+ "loss": 0.1959,
3231
+ "step": 227000
3232
+ },
3233
+ {
3234
+ "epoch": 5.0,
3235
+ "eval_accuracy": 0.8784565925598145,
3236
+ "eval_f1": 0.8391068037456617,
3237
+ "eval_loss": 0.6183628439903259,
3238
+ "eval_mcc": 0.7416813202825935,
3239
+ "eval_runtime": 27.9497,
3240
+ "eval_samples_per_second": 723.264,
3241
+ "eval_steps_per_second": 90.412,
3242
+ "step": 227405
3243
+ },
3244
+ {
3245
+ "epoch": 5.0,
3246
+ "step": 227405,
3247
+ "total_flos": 1.0733045580407808e+17,
3248
+ "train_loss": 0.30088049875882883,
3249
+ "train_runtime": 13193.5971,
3250
+ "train_samples_per_second": 137.887,
3251
+ "train_steps_per_second": 17.236
3252
+ }
3253
+ ],
3254
+ "logging_steps": 500,
3255
+ "max_steps": 227405,
3256
+ "num_input_tokens_seen": 0,
3257
+ "num_train_epochs": 5,
3258
+ "save_steps": 500,
3259
+ "stateful_callbacks": {
3260
+ "EarlyStoppingCallback": {
3261
+ "args": {
3262
+ "early_stopping_patience": 3,
3263
+ "early_stopping_threshold": 0.001
3264
+ },
3265
+ "attributes": {
3266
+ "early_stopping_patience_counter": 0
3267
+ }
3268
+ },
3269
+ "TrainerControl": {
3270
+ "args": {
3271
+ "should_epoch_stop": false,
3272
+ "should_evaluate": false,
3273
+ "should_log": false,
3274
+ "should_save": true,
3275
+ "should_training_stop": true
3276
+ },
3277
+ "attributes": {}
3278
+ }
3279
+ },
3280
+ "total_flos": 1.0733045580407808e+17,
3281
+ "train_batch_size": 8,
3282
+ "trial_name": null,
3283
+ "trial_params": null
3284
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9102610016ca6c2e94e5a432dca6e3560bc70a8cee9cd206437719ad130f70a2
3
+ size 5368