fold_0

This model is a fine-tuned version of bert-base-uncased on the None dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 2e-05
train_batch_size: 64
eval_batch_size: 64
seed: 42
optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
num_epochs: 100

Training Loss	Epoch	Step	Validation Loss	Qwk	Mse	Rmse
No log	1.0	2	9.0993	0.0	9.0993	3.0165
No log	2.0	4	7.8575	0.0	7.8575	2.8031
No log	3.0	6	6.8633	0.0	6.8633	2.6198
No log	4.0	8	6.0884	-0.0004	6.0884	2.4675
No log	5.0	10	5.2606	0.0115	5.2606	2.2936
No log	6.0	12	4.4525	0.0039	4.4525	2.1101
No log	7.0	14	3.7103	0.0	3.7103	1.9262
No log	8.0	16	2.9714	0.0	2.9714	1.7238
No log	9.0	18	2.3236	0.1054	2.3236	1.5243
No log	10.0	20	1.8073	0.0382	1.8073	1.3443
No log	11.0	22	1.3992	0.0316	1.3992	1.1829
No log	12.0	24	1.2097	0.0316	1.2097	1.0998
No log	13.0	26	1.4285	0.0601	1.4285	1.1952
No log	14.0	28	0.9718	0.0484	0.9718	0.9858
No log	15.0	30	0.9244	0.0144	0.9244	0.9614
No log	16.0	32	0.8101	0.2719	0.8101	0.9001
No log	17.0	34	1.5998	0.1841	1.5998	1.2648
No log	18.0	36	1.3456	0.1987	1.3456	1.1600
No log	19.0	38	0.6682	0.4946	0.6682	0.8174
No log	20.0	40	0.7055	0.3431	0.7055	0.8399
No log	21.0	42	0.6489	0.4432	0.6489	0.8056
No log	22.0	44	0.8233	0.2922	0.8233	0.9073
No log	23.0	46	0.8533	0.2700	0.8533	0.9237
No log	24.0	48	0.5808	0.4156	0.5808	0.7621
No log	25.0	50	0.6441	0.3280	0.6441	0.8026
No log	26.0	52	0.6065	0.3605	0.6065	0.7788
No log	27.0	54	0.6033	0.4252	0.6033	0.7767
No log	28.0	56	0.5786	0.4341	0.5786	0.7606
No log	29.0	58	0.5765	0.3867	0.5765	0.7593