Evaluation on the test set completed on 2025_02_03.

Browse files

Files changed (8) hide show

README.md +97 -1
all_results.json +17 -0
logs/events.out.tfevents.1738569064.datavisu4 +2 -2
logs/events.out.tfevents.1738573356.datavisu4 +3 -0
model.safetensors +1 -1
test_results.json +12 -0
train_results.json +9 -0
trainer_state.json +568 -0

README.md CHANGED Viewed

@@ -1,4 +1,100 @@
 ---
 tags:
-- hf-summary-writer
 ---

 ---
+library_name: transformers
+license: apache-2.0
+base_model: facebook/dinov2-large
 tags:
+- generated_from_trainer
+model-index:
+- name: DinoVdrone-large-2025_02_03_31850-bs32_freeze_probs
+  results: []
 ---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# DinoVdrone-large-2025_02_03_31850-bs32_freeze_probs
+This model is a fine-tuned version of [facebook/dinov2-large](https://huggingface.co/facebook/dinov2-large) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4512
+- Rmse: 0.1689
+- Mae: 0.1261
+- Kl Divergence: 0.5558
+- Explained Variance: 0.3655
+- Learning Rate: 1e-05
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.001
+- train_batch_size: 32
+- eval_batch_size: 32
+- seed: 42
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
+- num_epochs: 150
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rmse   | Mae    | Kl Divergence | Explained Variance | Rate   |
+|:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:-------------:|:------------------:|:------:|
+| No log        | 1.0   | 76   | 0.5544          | 0.2605 | 0.2278 | 1.7912        | 0.0699             | 0.001  |
+| No log        | 2.0   | 152  | 0.4817          | 0.2007 | 0.1602 | 1.0345        | 0.0726             | 0.001  |
+| No log        | 3.0   | 228  | 0.4615          | 0.1801 | 0.1370 | 0.6064        | 0.2707             | 0.001  |
+| No log        | 4.0   | 304  | 0.4632          | 0.1837 | 0.1391 | 0.6577        | 0.0892             | 0.001  |
+| No log        | 5.0   | 380  | 0.4579          | 0.1769 | 0.1363 | 0.6678        | 0.2999             | 0.001  |
+| No log        | 6.0   | 456  | 0.4571          | 0.1766 | 0.1330 | 0.7896        | 0.3050             | 0.001  |
+| 0.4966        | 7.0   | 532  | 0.4586          | 0.1773 | 0.1307 | 0.6493        | 0.3103             | 0.001  |
+| 0.4966        | 8.0   | 608  | 0.4579          | 0.1772 | 0.1319 | 0.9475        | 0.3085             | 0.001  |
+| 0.4966        | 9.0   | 684  | 0.4551          | 0.1746 | 0.1306 | 0.7271        | 0.3136             | 0.001  |
+| 0.4966        | 10.0  | 760  | 0.4582          | 0.1774 | 0.1316 | 0.6882        | 0.2918             | 0.001  |
+| 0.4966        | 11.0  | 836  | 0.4683          | 0.1842 | 0.1372 | 0.3715        | 0.2586             | 0.001  |
+| 0.4966        | 12.0  | 912  | 0.4579          | 0.1764 | 0.1316 | 0.5271        | 0.3086             | 0.001  |
+| 0.4966        | 13.0  | 988  | 0.4559          | 0.1756 | 0.1301 | 0.9168        | 0.3100             | 0.001  |
+| 0.4448        | 14.0  | 1064 | 0.4556          | 0.1749 | 0.1292 | 0.8827        | 0.3229             | 0.001  |
+| 0.4448        | 15.0  | 1140 | 0.4522          | 0.1717 | 0.1262 | 0.7009        | 0.3416             | 0.001  |
+| 0.4448        | 16.0  | 1216 | 0.4556          | 0.1753 | 0.1286 | 1.0038        | 0.3163             | 0.001  |
+| 0.4448        | 17.0  | 1292 | 0.4586          | 0.1775 | 0.1343 | 0.2600        | 0.3205             | 0.001  |
+| 0.4448        | 18.0  | 1368 | 0.5672          | 0.2369 | 0.1638 | 2.0548        | -4.7788            | 0.001  |
+| 0.4448        | 19.0  | 1444 | 0.4529          | 0.1727 | 0.1287 | 0.7115        | 0.3279             | 0.001  |
+| 0.4406        | 20.0  | 1520 | 0.4552          | 0.1746 | 0.1285 | 0.9694        | 0.3204             | 0.001  |
+| 0.4406        | 21.0  | 1596 | 0.4530          | 0.1724 | 0.1282 | 0.7789        | 0.3300             | 0.001  |
+| 0.4406        | 22.0  | 1672 | 0.4503          | 0.1700 | 0.1261 | 0.7369        | 0.3473             | 0.0001 |
+| 0.4406        | 23.0  | 1748 | 0.4535          | 0.1716 | 0.1280 | 0.5027        | 0.3403             | 0.0001 |
+| 0.4406        | 24.0  | 1824 | 0.4502          | 0.1697 | 0.1264 | 0.5968        | 0.3511             | 0.0001 |
+| 0.4406        | 25.0  | 1900 | 0.4504          | 0.1699 | 0.1267 | 0.6215        | 0.3504             | 0.0001 |
+| 0.4406        | 26.0  | 1976 | 0.4510          | 0.1704 | 0.1260 | 0.6568        | 0.3460             | 0.0001 |
+| 0.4334        | 27.0  | 2052 | 0.4498          | 0.1693 | 0.1262 | 0.5748        | 0.3546             | 0.0001 |
+| 0.4334        | 28.0  | 2128 | 0.4506          | 0.1701 | 0.1256 | 0.7001        | 0.3467             | 0.0001 |
+| 0.4334        | 29.0  | 2204 | 0.4505          | 0.1699 | 0.1263 | 0.5840        | 0.3531             | 0.0001 |
+| 0.4334        | 30.0  | 2280 | 0.4506          | 0.1703 | 0.1252 | 0.8101        | 0.3486             | 0.0001 |
+| 0.4334        | 31.0  | 2356 | 0.4508          | 0.1701 | 0.1249 | 0.7416        | 0.3489             | 0.0001 |
+| 0.4334        | 32.0  | 2432 | 0.4502          | 0.1697 | 0.1254 | 0.6402        | 0.3524             | 0.0001 |
+| 0.4289        | 33.0  | 2508 | 0.4511          | 0.1710 | 0.1250 | 0.8411        | 0.3392             | 0.0001 |
+| 0.4289        | 34.0  | 2584 | 0.4515          | 0.1711 | 0.1259 | 0.7204        | 0.3383             | 1e-05  |
+| 0.4289        | 35.0  | 2660 | 0.4502          | 0.1698 | 0.1247 | 0.7355        | 0.3498             | 1e-05  |
+| 0.4289        | 36.0  | 2736 | 0.4509          | 0.1703 | 0.1261 | 0.4990        | 0.3486             | 1e-05  |
+| 0.4289        | 37.0  | 2812 | 0.4500          | 0.1696 | 0.1260 | 0.5451        | 0.3536             | 1e-05  |
+### Framework versions
+- Transformers 4.48.0
+- Pytorch 2.5.1+cu124
+- Datasets 3.0.2
+- Tokenizers 0.21.0

all_results.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "epoch": 37.0,
+    "eval_explained_variance": 0.3655208349227905,
+    "eval_kl_divergence": 0.5558046698570251,
+    "eval_loss": 0.451246976852417,
+    "eval_mae": 0.12609094381332397,
+    "eval_rmse": 0.1689337193965912,
+    "eval_runtime": 33.8846,
+    "eval_samples_per_second": 23.669,
+    "eval_steps_per_second": 0.767,
+    "learning_rate": 1e-05,
+    "total_flos": 1.318896404308369e+20,
+    "train_loss": 0.4464974437295797,
+    "train_runtime": 4164.1679,
+    "train_samples_per_second": 86.596,
+    "train_steps_per_second": 2.738
+}

logs/events.out.tfevents.1738569064.datavisu4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:741c27adfccb4bbe5c9f4cad0864315b10681a45325b1468dff700248e1929ed
-size 26625

 version https://git-lfs.github.com/spec/v1
+oid sha256:e35403578608b95100241e4a10fca05474c8b45953e6c056aa6aa497d12c9d73
+size 28123

logs/events.out.tfevents.1738573356.datavisu4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:760aeafae17ddec88dc492d7630cf29b3783355af6c6fc4b56d18fb05e395fb8
+size 40

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b96ff726926066a9e71403cadee40b9d1b6668fb09dd397c8e47dbed4ccef1fc
 size 1228076728

 version https://git-lfs.github.com/spec/v1
+oid sha256:71bbb7679db9b4309c6556dbad7dddb03732bcacba355dedc979d8d082cda9bd
 size 1228076728

test_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 37.0,
+    "eval_explained_variance": 0.3655208349227905,
+    "eval_kl_divergence": 0.5558046698570251,
+    "eval_loss": 0.451246976852417,
+    "eval_mae": 0.12609094381332397,
+    "eval_rmse": 0.1689337193965912,
+    "eval_runtime": 33.8846,
+    "eval_samples_per_second": 23.669,
+    "eval_steps_per_second": 0.767,
+    "learning_rate": 1e-05
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 37.0,
+    "learning_rate": 1e-05,
+    "total_flos": 1.318896404308369e+20,
+    "train_loss": 0.4464974437295797,
+    "train_runtime": 4164.1679,
+    "train_samples_per_second": 86.596,
+    "train_steps_per_second": 2.738
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,568 @@

+{
+  "best_metric": 0.4497845768928528,
+  "best_model_checkpoint": "/home1/datahome/villien/project_hub/DinoVdeau/models/DinoVdrone-large-2025_02_03_31850-bs32_freeze_probs/checkpoint-2052",
+  "epoch": 37.0,
+  "eval_steps": 500,
+  "global_step": 2812,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_explained_variance": 0.0698663592338562,
+      "eval_kl_divergence": 1.791170597076416,
+      "eval_loss": 0.5543646216392517,
+      "eval_mae": 0.22781437635421753,
+      "eval_rmse": 0.26052138209342957,
+      "eval_runtime": 36.0517,
+      "eval_samples_per_second": 22.218,
+      "eval_steps_per_second": 0.721,
+      "learning_rate": 0.001,
+      "step": 76
+    },
+    {
+      "epoch": 2.0,
+      "eval_explained_variance": 0.07257537543773651,
+      "eval_kl_divergence": 1.0344740152359009,
+      "eval_loss": 0.48171326518058777,
+      "eval_mae": 0.16019925475120544,
+      "eval_rmse": 0.20066045224666595,
+      "eval_runtime": 32.1858,
+      "eval_samples_per_second": 24.887,
+      "eval_steps_per_second": 0.808,
+      "learning_rate": 0.001,
+      "step": 152
+    },
+    {
+      "epoch": 3.0,
+      "eval_explained_variance": 0.27069091796875,
+      "eval_kl_divergence": 0.6063743233680725,
+      "eval_loss": 0.4615386724472046,
+      "eval_mae": 0.1370290368795395,
+      "eval_rmse": 0.18013149499893188,
+      "eval_runtime": 22.3828,
+      "eval_samples_per_second": 35.786,
+      "eval_steps_per_second": 1.162,
+      "learning_rate": 0.001,
+      "step": 228
+    },
+    {
+      "epoch": 4.0,
+      "eval_explained_variance": 0.08923790603876114,
+      "eval_kl_divergence": 0.6576936841011047,
+      "eval_loss": 0.4632064700126648,
+      "eval_mae": 0.1390942633152008,
+      "eval_rmse": 0.18370357155799866,
+      "eval_runtime": 22.4997,
+      "eval_samples_per_second": 35.601,
+      "eval_steps_per_second": 1.156,
+      "learning_rate": 0.001,
+      "step": 304
+    },
+    {
+      "epoch": 5.0,
+      "eval_explained_variance": 0.2999000549316406,
+      "eval_kl_divergence": 0.6677561402320862,
+      "eval_loss": 0.4579373300075531,
+      "eval_mae": 0.13632091879844666,
+      "eval_rmse": 0.17685972154140472,
+      "eval_runtime": 22.4993,
+      "eval_samples_per_second": 35.601,
+      "eval_steps_per_second": 1.156,
+      "learning_rate": 0.001,
+      "step": 380
+    },
+    {
+      "epoch": 6.0,
+      "eval_explained_variance": 0.30495360493659973,
+      "eval_kl_divergence": 0.7895806431770325,
+      "eval_loss": 0.4571229815483093,
+      "eval_mae": 0.13304883241653442,
+      "eval_rmse": 0.176561176776886,
+      "eval_runtime": 22.7,
+      "eval_samples_per_second": 35.286,
+      "eval_steps_per_second": 1.145,
+      "learning_rate": 0.001,
+      "step": 456
+    },
+    {
+      "epoch": 6.578947368421053,
+      "grad_norm": 0.27282145619392395,
+      "learning_rate": 0.001,
+      "loss": 0.4966,
+      "step": 500
+    },
+    {
+      "epoch": 7.0,
+      "eval_explained_variance": 0.3103345036506653,
+      "eval_kl_divergence": 0.6492787599563599,
+      "eval_loss": 0.4586440622806549,
+      "eval_mae": 0.13074660301208496,
+      "eval_rmse": 0.17730861902236938,
+      "eval_runtime": 22.4946,
+      "eval_samples_per_second": 35.608,
+      "eval_steps_per_second": 1.156,
+      "learning_rate": 0.001,
+      "step": 532
+    },
+    {
+      "epoch": 8.0,
+      "eval_explained_variance": 0.30848240852355957,
+      "eval_kl_divergence": 0.9475247263908386,
+      "eval_loss": 0.45786425471305847,
+      "eval_mae": 0.13187319040298462,
+      "eval_rmse": 0.17719128727912903,
+      "eval_runtime": 22.513,
+      "eval_samples_per_second": 35.579,
+      "eval_steps_per_second": 1.155,
+      "learning_rate": 0.001,
+      "step": 608
+    },
+    {
+      "epoch": 9.0,
+      "eval_explained_variance": 0.3135569095611572,
+      "eval_kl_divergence": 0.7270792126655579,
+      "eval_loss": 0.4551210105419159,
+      "eval_mae": 0.13063107430934906,
+      "eval_rmse": 0.17461702227592468,
+      "eval_runtime": 22.4949,
+      "eval_samples_per_second": 35.608,
+      "eval_steps_per_second": 1.156,
+      "learning_rate": 0.001,
+      "step": 684
+    },
+    {
+      "epoch": 10.0,
+      "eval_explained_variance": 0.29183268547058105,
+      "eval_kl_divergence": 0.6882225275039673,
+      "eval_loss": 0.45817646384239197,
+      "eval_mae": 0.13160471618175507,
+      "eval_rmse": 0.17741131782531738,
+      "eval_runtime": 22.508,
+      "eval_samples_per_second": 35.587,
+      "eval_steps_per_second": 1.155,
+      "learning_rate": 0.001,
+      "step": 760
+    },
+    {
+      "epoch": 11.0,
+      "eval_explained_variance": 0.25859755277633667,
+      "eval_kl_divergence": 0.371459424495697,
+      "eval_loss": 0.46834859251976013,
+      "eval_mae": 0.13717466592788696,
+      "eval_rmse": 0.18415462970733643,
+      "eval_runtime": 22.4535,
+      "eval_samples_per_second": 35.674,
+      "eval_steps_per_second": 1.158,
+      "learning_rate": 0.001,
+      "step": 836
+    },
+    {
+      "epoch": 12.0,
+      "eval_explained_variance": 0.308597594499588,
+      "eval_kl_divergence": 0.5270651578903198,
+      "eval_loss": 0.4578668475151062,
+      "eval_mae": 0.13155478239059448,
+      "eval_rmse": 0.17636829614639282,
+      "eval_runtime": 22.5868,
+      "eval_samples_per_second": 35.463,
+      "eval_steps_per_second": 1.151,
+      "learning_rate": 0.001,
+      "step": 912
+    },
+    {
+      "epoch": 13.0,
+      "eval_explained_variance": 0.3100161552429199,
+      "eval_kl_divergence": 0.9167731404304504,
+      "eval_loss": 0.4558842182159424,
+      "eval_mae": 0.1300584226846695,
+      "eval_rmse": 0.1756095588207245,
+      "eval_runtime": 22.7991,
+      "eval_samples_per_second": 35.133,
+      "eval_steps_per_second": 1.14,
+      "learning_rate": 0.001,
+      "step": 988
+    },
+    {
+      "epoch": 13.157894736842104,
+      "grad_norm": 0.26468560099601746,
+      "learning_rate": 0.001,
+      "loss": 0.4448,
+      "step": 1000
+    },
+    {
+      "epoch": 14.0,
+      "eval_explained_variance": 0.3228832185268402,
+      "eval_kl_divergence": 0.8826888799667358,
+      "eval_loss": 0.4555540680885315,
+      "eval_mae": 0.12918463349342346,
+      "eval_rmse": 0.17491525411605835,
+      "eval_runtime": 22.7093,
+      "eval_samples_per_second": 35.272,
+      "eval_steps_per_second": 1.145,
+      "learning_rate": 0.001,
+      "step": 1064
+    },
+    {
+      "epoch": 15.0,
+      "eval_explained_variance": 0.34160685539245605,
+      "eval_kl_divergence": 0.7008672952651978,
+      "eval_loss": 0.45217740535736084,
+      "eval_mae": 0.1262015700340271,
+      "eval_rmse": 0.17165420949459076,
+      "eval_runtime": 22.6104,
+      "eval_samples_per_second": 35.426,
+      "eval_steps_per_second": 1.15,
+      "learning_rate": 0.001,
+      "step": 1140
+    },
+    {
+      "epoch": 16.0,
+      "eval_explained_variance": 0.31633102893829346,
+      "eval_kl_divergence": 1.0038130283355713,
+      "eval_loss": 0.45556434988975525,
+      "eval_mae": 0.12863175570964813,
+      "eval_rmse": 0.1752910166978836,
+      "eval_runtime": 22.5805,
+      "eval_samples_per_second": 35.473,
+      "eval_steps_per_second": 1.151,
+      "learning_rate": 0.001,
+      "step": 1216
+    },
+    {
+      "epoch": 17.0,
+      "eval_explained_variance": 0.3205307126045227,
+      "eval_kl_divergence": 0.2600082457065582,
+      "eval_loss": 0.458648681640625,
+      "eval_mae": 0.13426683843135834,
+      "eval_rmse": 0.17750133574008942,
+      "eval_runtime": 22.3997,
+      "eval_samples_per_second": 35.759,
+      "eval_steps_per_second": 1.161,
+      "learning_rate": 0.001,
+      "step": 1292
+    },
+    {
+      "epoch": 18.0,
+      "eval_explained_variance": -4.778772354125977,
+      "eval_kl_divergence": 2.054769277572632,
+      "eval_loss": 0.567169725894928,
+      "eval_mae": 0.16376179456710815,
+      "eval_rmse": 0.23688165843486786,
+      "eval_runtime": 22.2481,
+      "eval_samples_per_second": 36.003,
+      "eval_steps_per_second": 1.169,
+      "learning_rate": 0.001,
+      "step": 1368
+    },
+    {
+      "epoch": 19.0,
+      "eval_explained_variance": 0.32792216539382935,
+      "eval_kl_divergence": 0.7114961743354797,
+      "eval_loss": 0.45287612080574036,
+      "eval_mae": 0.12865176796913147,
+      "eval_rmse": 0.17274516820907593,
+      "eval_runtime": 22.3304,
+      "eval_samples_per_second": 35.87,
+      "eval_steps_per_second": 1.164,
+      "learning_rate": 0.001,
+      "step": 1444
+    },
+    {
+      "epoch": 19.736842105263158,
+      "grad_norm": 0.1475011706352234,
+      "learning_rate": 0.001,
+      "loss": 0.4406,
+      "step": 1500
+    },
+    {
+      "epoch": 20.0,
+      "eval_explained_variance": 0.3204135596752167,
+      "eval_kl_divergence": 0.9694227576255798,
+      "eval_loss": 0.45518893003463745,
+      "eval_mae": 0.12852200865745544,
+      "eval_rmse": 0.17462262511253357,
+      "eval_runtime": 22.5552,
+      "eval_samples_per_second": 35.513,
+      "eval_steps_per_second": 1.153,
+      "learning_rate": 0.001,
+      "step": 1520
+    },
+    {
+      "epoch": 21.0,
+      "eval_explained_variance": 0.32996666431427,
+      "eval_kl_divergence": 0.778915524482727,
+      "eval_loss": 0.45299893617630005,
+      "eval_mae": 0.12820784747600555,
+      "eval_rmse": 0.17243456840515137,
+      "eval_runtime": 22.5861,
+      "eval_samples_per_second": 35.464,
+      "eval_steps_per_second": 1.151,
+      "learning_rate": 0.001,
+      "step": 1596
+    },
+    {
+      "epoch": 22.0,
+      "eval_explained_variance": 0.34726351499557495,
+      "eval_kl_divergence": 0.7368760704994202,
+      "eval_loss": 0.4502638280391693,
+      "eval_mae": 0.12613575160503387,
+      "eval_rmse": 0.17001575231552124,
+      "eval_runtime": 22.7271,
+      "eval_samples_per_second": 35.244,
+      "eval_steps_per_second": 1.144,
+      "learning_rate": 0.0001,
+      "step": 1672
+    },
+    {
+      "epoch": 23.0,
+      "eval_explained_variance": 0.34029728174209595,
+      "eval_kl_divergence": 0.5027008056640625,
+      "eval_loss": 0.453466534614563,
+      "eval_mae": 0.12802833318710327,
+      "eval_rmse": 0.17160943150520325,
+      "eval_runtime": 22.4563,
+      "eval_samples_per_second": 35.669,
+      "eval_steps_per_second": 1.158,
+      "learning_rate": 0.0001,
+      "step": 1748
+    },
+    {
+      "epoch": 24.0,
+      "eval_explained_variance": 0.3511368930339813,
+      "eval_kl_divergence": 0.5968054533004761,
+      "eval_loss": 0.4502425491809845,
+      "eval_mae": 0.12641073763370514,
+      "eval_rmse": 0.16971111297607422,
+      "eval_runtime": 22.592,
+      "eval_samples_per_second": 35.455,
+      "eval_steps_per_second": 1.151,
+      "learning_rate": 0.0001,
+      "step": 1824
+    },
+    {
+      "epoch": 25.0,
+      "eval_explained_variance": 0.3504308760166168,
+      "eval_kl_divergence": 0.621475100517273,
+      "eval_loss": 0.45040303468704224,
+      "eval_mae": 0.12673497200012207,
+      "eval_rmse": 0.1699284017086029,
+      "eval_runtime": 22.3202,
+      "eval_samples_per_second": 35.887,
+      "eval_steps_per_second": 1.165,
+      "learning_rate": 0.0001,
+      "step": 1900
+    },
+    {
+      "epoch": 26.0,
+      "eval_explained_variance": 0.34598857164382935,
+      "eval_kl_divergence": 0.6567814350128174,
+      "eval_loss": 0.4509589374065399,
+      "eval_mae": 0.12596669793128967,
+      "eval_rmse": 0.17043226957321167,
+      "eval_runtime": 22.4313,
+      "eval_samples_per_second": 35.709,
+      "eval_steps_per_second": 1.159,
+      "learning_rate": 0.0001,
+      "step": 1976
+    },
+    {
+      "epoch": 26.31578947368421,
+      "grad_norm": 0.16591614484786987,
+      "learning_rate": 0.0001,
+      "loss": 0.4334,
+      "step": 2000
+    },
+    {
+      "epoch": 27.0,
+      "eval_explained_variance": 0.35463404655456543,
+      "eval_kl_divergence": 0.5748001337051392,
+      "eval_loss": 0.4497845768928528,
+      "eval_mae": 0.1262420266866684,
+      "eval_rmse": 0.1693224012851715,
+      "eval_runtime": 22.3409,
+      "eval_samples_per_second": 35.854,
+      "eval_steps_per_second": 1.164,
+      "learning_rate": 0.0001,
+      "step": 2052
+    },
+    {
+      "epoch": 28.0,
+      "eval_explained_variance": 0.34665071964263916,
+      "eval_kl_divergence": 0.7001035809516907,
+      "eval_loss": 0.45060041546821594,
+      "eval_mae": 0.12559720873832703,
+      "eval_rmse": 0.17011338472366333,
+      "eval_runtime": 22.4894,
+      "eval_samples_per_second": 35.617,
+      "eval_steps_per_second": 1.156,
+      "learning_rate": 0.0001,
+      "step": 2128
+    },
+    {
+      "epoch": 29.0,
+      "eval_explained_variance": 0.3531297743320465,
+      "eval_kl_divergence": 0.5840001702308655,
+      "eval_loss": 0.4504892826080322,
+      "eval_mae": 0.12626922130584717,
+      "eval_rmse": 0.16992022097110748,
+      "eval_runtime": 22.4286,
+      "eval_samples_per_second": 35.713,
+      "eval_steps_per_second": 1.159,
+      "learning_rate": 0.0001,
+      "step": 2204
+    },
+    {
+      "epoch": 30.0,
+      "eval_explained_variance": 0.34863966703414917,
+      "eval_kl_divergence": 0.8101097345352173,
+      "eval_loss": 0.45060065388679504,
+      "eval_mae": 0.12516793608665466,
+      "eval_rmse": 0.1702672839164734,
+      "eval_runtime": 22.3007,
+      "eval_samples_per_second": 35.918,
+      "eval_steps_per_second": 1.166,
+      "learning_rate": 0.0001,
+      "step": 2280
+    },
+    {
+      "epoch": 31.0,
+      "eval_explained_variance": 0.3488965630531311,
+      "eval_kl_divergence": 0.7415657043457031,
+      "eval_loss": 0.45080825686454773,
+      "eval_mae": 0.12486829608678818,
+      "eval_rmse": 0.1701475977897644,
+      "eval_runtime": 22.3895,
+      "eval_samples_per_second": 35.776,
+      "eval_steps_per_second": 1.161,
+      "learning_rate": 0.0001,
+      "step": 2356
+    },
+    {
+      "epoch": 32.0,
+      "eval_explained_variance": 0.3523526191711426,
+      "eval_kl_divergence": 0.6401851177215576,
+      "eval_loss": 0.4501984417438507,
+      "eval_mae": 0.12540514767169952,
+      "eval_rmse": 0.16971096396446228,
+      "eval_runtime": 22.3438,
+      "eval_samples_per_second": 35.849,
+      "eval_steps_per_second": 1.164,
+      "learning_rate": 0.0001,
+      "step": 2432
+    },
+    {
+      "epoch": 32.89473684210526,
+      "grad_norm": 0.1912919282913208,
+      "learning_rate": 0.0001,
+      "loss": 0.4289,
+      "step": 2500
+    },
+    {
+      "epoch": 33.0,
+      "eval_explained_variance": 0.33917075395584106,
+      "eval_kl_divergence": 0.8411455154418945,
+      "eval_loss": 0.4510658085346222,
+      "eval_mae": 0.12500226497650146,
+      "eval_rmse": 0.1709534227848053,
+      "eval_runtime": 22.56,
+      "eval_samples_per_second": 35.505,
+      "eval_steps_per_second": 1.152,
+      "learning_rate": 0.0001,
+      "step": 2508
+    },
+    {
+      "epoch": 34.0,
+      "eval_explained_variance": 0.33831754326820374,
+      "eval_kl_divergence": 0.7203648686408997,
+      "eval_loss": 0.45148056745529175,
+      "eval_mae": 0.12593072652816772,
+      "eval_rmse": 0.17108403146266937,
+      "eval_runtime": 22.505,
+      "eval_samples_per_second": 35.592,
+      "eval_steps_per_second": 1.155,
+      "learning_rate": 1e-05,
+      "step": 2584
+    },
+    {
+      "epoch": 35.0,
+      "eval_explained_variance": 0.34977057576179504,
+      "eval_kl_divergence": 0.7354820966720581,
+      "eval_loss": 0.4502483904361725,
+      "eval_mae": 0.12473371624946594,
+      "eval_rmse": 0.16982755064964294,
+      "eval_runtime": 22.3912,
+      "eval_samples_per_second": 35.773,
+      "eval_steps_per_second": 1.161,
+      "learning_rate": 1e-05,
+      "step": 2660
+    },
+    {
+      "epoch": 36.0,
+      "eval_explained_variance": 0.3486325144767761,
+      "eval_kl_divergence": 0.49899470806121826,
+      "eval_loss": 0.4508889615535736,
+      "eval_mae": 0.1260843575000763,
+      "eval_rmse": 0.1702878773212433,
+      "eval_runtime": 22.8537,
+      "eval_samples_per_second": 35.049,
+      "eval_steps_per_second": 1.138,
+      "learning_rate": 1e-05,
+      "step": 2736
+    },
+    {
+      "epoch": 37.0,
+      "eval_explained_variance": 0.3535779118537903,
+      "eval_kl_divergence": 0.5451197624206543,
+      "eval_loss": 0.44998663663864136,
+      "eval_mae": 0.12602195143699646,
+      "eval_rmse": 0.16962522268295288,
+      "eval_runtime": 22.2216,
+      "eval_samples_per_second": 36.046,
+      "eval_steps_per_second": 1.17,
+      "learning_rate": 1e-05,
+      "step": 2812
+    },
+    {
+      "epoch": 37.0,
+      "learning_rate": 1e-05,
+      "step": 2812,
+      "total_flos": 1.318896404308369e+20,
+      "train_loss": 0.4464974437295797,
+      "train_runtime": 4164.1679,
+      "train_samples_per_second": 86.596,
+      "train_steps_per_second": 2.738
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 11400,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 150,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 10,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 10
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.318896404308369e+20,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}