diff --git "a/run-2024-10-25T01:17:54+00:00.log" "b/run-2024-10-25T01:17:54+00:00.log"
new file mode 100644--- /dev/null
+++ "b/run-2024-10-25T01:17:54+00:00.log"
@@ -0,0 +1,1109 @@
+The cache for model files in Transformers v4.22.0 has been updated. Migrating your old cache. This is a one-time only operation. You can interrupt this and resume the migration later on by calling `transformers.utils.move_cache()`.
+0it [00:00, ?it/s]0it [00:00, ?it/s]
+/opt/conda/lib/python3.10/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: '/opt/conda/lib/python3.10/site-packages/torchvision/image.so: undefined symbol: _ZN3c1017RegisterOperatorsD1Ev'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source?
+  warn(
+2024-10-25 01:18:03.423955: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
+2024-10-25 01:18:03.424084: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
+2024-10-25 01:18:03.562275: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
+/opt/conda/lib/python3.10/site-packages/transformers/deepspeed.py:24: FutureWarning: transformers.deepspeed module is deprecated and will be removed in a future version. Please import deepspeed modules directly from transformers.integrations
+  warnings.warn(
+/opt/conda/lib/python3.10/site-packages/transformers/training_args.py:1525: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+/opt/conda/lib/python3.10/site-packages/transformers/tokenization_utils_base.py:1601: FutureWarning: `clean_up_tokenization_spaces` was not set. It will be set to `True` by default. This behavior will be depracted in transformers v4.45, and will be then set to `False` by default. For more details check this issue: https://github.com/huggingface/transformers/issues/31884
+  warnings.warn(
+Generating train split: 0 examples [00:00, ? examples/s]Generating train split: 1 examples [00:00,  9.64 examples/s]Generating train split: 1629 examples [00:00, 9433.13 examples/s]Generating train split: 3247 examples [00:00, 12482.57 examples/s]Generating train split: 5000 examples [00:00, 14388.71 examples/s]Generating train split: 6882 examples [00:00, 15971.88 examples/s]Generating train split: 8690 examples [00:00, 16683.55 examples/s]Generating train split: 10562 examples [00:00, 17344.81 examples/s]Generating train split: 12423 examples [00:00, 17744.79 examples/s]Generating train split: 14292 examples [00:00, 18036.96 examples/s]Generating train split: 16160 examples [00:01, 18234.20 examples/s]Generating train split: 18000 examples [00:01, 18062.25 examples/s]Generating train split: 20513 examples [00:01, 17541.22 examples/s]Generating train split: 22355 examples [00:01, 17775.77 examples/s]Generating train split: 24183 examples [00:01, 17914.16 examples/s]Generating train split: 26032 examples [00:01, 18077.37 examples/s]Generating train split: 28000 examples [00:01, 18229.14 examples/s]Generating train split: 29906 examples [00:01, 18467.16 examples/s]Generating train split: 32664 examples [00:01, 18433.43 examples/s]Generating train split: 35285 examples [00:02, 18091.59 examples/s]Generating train split: 38013 examples [00:02, 18120.13 examples/s]Generating train split: 39890 examples [00:02, 18275.79 examples/s]Generating train split: 42593 examples [00:02, 18185.28 examples/s]Generating train split: 44444 examples [00:02, 18262.23 examples/s]Generating train split: 46284 examples [00:02, 18293.94 examples/s]Generating train split: 48127 examples [00:02, 18326.88 examples/s]Generating train split: 50000 examples [00:02, 18332.91 examples/s]Generating train split: 51893 examples [00:02, 18500.54 examples/s]Generating train split: 54625 examples [00:03, 18388.69 examples/s]Generating train split: 57265 examples [00:03, 18108.54 examples/s]Generating train split: 60000 examples [00:03, 18095.93 examples/s]Generating train split: 62000 examples [00:03, 18222.44 examples/s]Generating train split: 63941 examples [00:03, 18520.69 examples/s]Generating train split: 65812 examples [00:03, 18568.69 examples/s]Generating train split: 68595 examples [00:03, 18561.16 examples/s]Generating train split: 71360 examples [00:04, 18511.88 examples/s]Generating train split: 74075 examples [00:04, 18374.99 examples/s]Generating train split: 75995 examples [00:04, 18568.35 examples/s]Generating train split: 78707 examples [00:04, 18399.49 examples/s]Generating train split: 81461 examples [00:04, 18384.03 examples/s]Generating train split: 84174 examples [00:04, 18285.59 examples/s]Generating train split: 86021 examples [00:04, 18326.39 examples/s]Generating train split: 88000 examples [00:04, 18361.99 examples/s]Generating train split: 89911 examples [00:05, 18552.70 examples/s]Generating train split: 92600 examples [00:05, 18327.45 examples/s]Generating train split: 92867 examples [00:05, 17814.29 examples/s]
+Generating validation split: 0 examples [00:00, ? examples/s]Generating validation split: 1722 examples [00:00, 17667.23 examples/s]
+Running tokenizer on train dataset:   0%|          | 0/92867 [00:00<?, ? examples/s]/opt/conda/lib/python3.10/site-packages/transformers/tokenization_utils_base.py:4126: UserWarning: `as_target_tokenizer` is deprecated and will be removed in v5 of Transformers. You can tokenize your labels by using the argument `text_target` of the regular `__call__` method (either in the same call as your input texts if you use the same keyword arguments, or in a separate call.
+  warnings.warn(
+Running tokenizer on train dataset:   1%|          | 1000/92867 [00:01<02:26, 625.39 examples/s]Running tokenizer on train dataset:   2%|▏         | 2000/92867 [00:02<01:49, 832.46 examples/s]Running tokenizer on train dataset:   3%|▎         | 3000/92867 [00:04<02:01, 739.13 examples/s]Running tokenizer on train dataset:   4%|▍         | 4000/92867 [00:05<02:19, 636.15 examples/s]Running tokenizer on train dataset:   5%|▌         | 5000/92867 [00:07<02:22, 614.54 examples/s]Running tokenizer on train dataset:   6%|▋         | 6000/92867 [00:09<02:25, 597.43 examples/s]Running tokenizer on train dataset:   8%|▊         | 7000/92867 [00:11<02:26, 585.93 examples/s]Running tokenizer on train dataset:   9%|▊         | 8000/92867 [00:12<02:26, 579.26 examples/s]Running tokenizer on train dataset:  10%|▉         | 9000/92867 [00:14<02:21, 591.36 examples/s]Running tokenizer on train dataset:  11%|█         | 10000/92867 [00:15<02:06, 655.55 examples/s]Running tokenizer on train dataset:  12%|█▏        | 11000/92867 [00:16<01:55, 708.72 examples/s]Running tokenizer on train dataset:  13%|█▎        | 12000/92867 [00:18<01:51, 728.51 examples/s]Running tokenizer on train dataset:  14%|█▍        | 13000/92867 [00:19<01:47, 745.31 examples/s]Running tokenizer on train dataset:  15%|█▌        | 14000/92867 [00:20<01:39, 793.11 examples/s]Running tokenizer on train dataset:  16%|█▌        | 15000/92867 [00:21<01:34, 820.50 examples/s]Running tokenizer on train dataset:  17%|█▋        | 16000/92867 [00:22<01:30, 850.87 examples/s]Running tokenizer on train dataset:  18%|█▊        | 17000/92867 [00:23<01:27, 862.91 examples/s]Running tokenizer on train dataset:  19%|█▉        | 18000/92867 [00:25<01:26, 862.24 examples/s]Running tokenizer on train dataset:  20%|██        | 19000/92867 [00:26<01:29, 822.66 examples/s]Running tokenizer on train dataset:  22%|██▏       | 20000/92867 [00:27<01:27, 836.65 examples/s]Running tokenizer on train dataset:  23%|██▎       | 21000/92867 [00:28<01:23, 856.65 examples/s]Running tokenizer on train dataset:  24%|██▎       | 22000/92867 [00:29<01:22, 859.16 examples/s]Running tokenizer on train dataset:  25%|██▍       | 23000/92867 [00:31<01:24, 831.09 examples/s]Running tokenizer on train dataset:  26%|██▌       | 24000/92867 [00:32<01:25, 808.15 examples/s]Running tokenizer on train dataset:  27%|██▋       | 25000/92867 [00:33<01:23, 812.17 examples/s]Running tokenizer on train dataset:  28%|██▊       | 26000/92867 [00:34<01:23, 801.36 examples/s]Running tokenizer on train dataset:  29%|██▉       | 27000/92867 [00:36<01:22, 798.57 examples/s]Running tokenizer on train dataset:  30%|███       | 28000/92867 [00:37<01:24, 764.19 examples/s]Running tokenizer on train dataset:  31%|███       | 29000/92867 [00:39<01:25, 745.10 examples/s]Running tokenizer on train dataset:  32%|███▏      | 30000/92867 [00:40<01:25, 734.45 examples/s]Running tokenizer on train dataset:  33%|███▎      | 31000/92867 [00:41<01:26, 717.49 examples/s]Running tokenizer on train dataset:  34%|███▍      | 32000/92867 [00:43<01:28, 685.96 examples/s]Running tokenizer on train dataset:  36%|███▌      | 33000/92867 [00:45<01:28, 676.37 examples/s]Running tokenizer on train dataset:  37%|███▋      | 34000/92867 [00:46<01:28, 666.43 examples/s]Running tokenizer on train dataset:  38%|███▊      | 35000/92867 [00:48<01:27, 663.37 examples/s]Running tokenizer on train dataset:  39%|███▉      | 36000/92867 [00:49<01:26, 654.84 examples/s]Running tokenizer on train dataset:  40%|███▉      | 37000/92867 [00:51<01:23, 667.87 examples/s]Running tokenizer on train dataset:  41%|████      | 38000/92867 [00:52<01:20, 681.47 examples/s]Running tokenizer on train dataset:  42%|████▏     | 39000/92867 [00:53<01:19, 681.37 examples/s]Running tokenizer on train dataset:  43%|████▎     | 40000/92867 [00:55<01:20, 653.39 examples/s]Running tokenizer on train dataset:  44%|████▍     | 41000/92867 [00:57<01:31, 564.78 examples/s]Running tokenizer on train dataset:  45%|████▌     | 42000/92867 [00:59<01:28, 573.40 examples/s]Running tokenizer on train dataset:  46%|████▋     | 43000/92867 [01:01<01:23, 595.67 examples/s]Running tokenizer on train dataset:  47%|████▋     | 44000/92867 [01:02<01:19, 611.78 examples/s]Running tokenizer on train dataset:  48%|████▊     | 45000/92867 [01:04<01:18, 613.12 examples/s]Running tokenizer on train dataset:  50%|████▉     | 46000/92867 [01:06<01:17, 608.62 examples/s]Running tokenizer on train dataset:  51%|█████     | 47000/92867 [01:07<01:13, 626.29 examples/s]Running tokenizer on train dataset:  52%|█████▏    | 48000/92867 [01:09<01:13, 606.70 examples/s]Running tokenizer on train dataset:  53%|█████▎    | 49000/92867 [01:10<01:09, 632.06 examples/s]Running tokenizer on train dataset:  54%|█████▍    | 50000/92867 [01:12<01:11, 595.62 examples/s]Running tokenizer on train dataset:  55%|█████▍    | 51000/92867 [01:14<01:14, 560.88 examples/s]Running tokenizer on train dataset:  56%|█████▌    | 52000/92867 [01:16<01:12, 560.31 examples/s]Running tokenizer on train dataset:  57%|█████▋    | 53000/92867 [01:18<01:12, 546.70 examples/s]Running tokenizer on train dataset:  58%|█████▊    | 54000/92867 [01:20<01:09, 562.23 examples/s]Running tokenizer on train dataset:  59%|█████▉    | 55000/92867 [01:21<01:05, 575.86 examples/s]Running tokenizer on train dataset:  60%|██████    | 56000/92867 [01:23<01:07, 544.46 examples/s]Running tokenizer on train dataset:  61%|██████▏   | 57000/92867 [01:25<01:08, 526.17 examples/s]Running tokenizer on train dataset:  62%|██████▏   | 58000/92867 [01:27<01:07, 519.48 examples/s]Running tokenizer on train dataset:  64%|██████▎   | 59000/92867 [01:29<01:05, 517.67 examples/s]Running tokenizer on train dataset:  65%|██████▍   | 60000/92867 [01:30<00:56, 579.37 examples/s]Running tokenizer on train dataset:  66%|██████▌   | 61000/92867 [01:32<00:51, 620.23 examples/s]Running tokenizer on train dataset:  67%|██████▋   | 62000/92867 [01:33<00:48, 634.68 examples/s]Running tokenizer on train dataset:  68%|██████▊   | 63000/92867 [01:35<00:44, 667.18 examples/s]Running tokenizer on train dataset:  69%|██████▉   | 64000/92867 [01:36<00:40, 709.31 examples/s]Running tokenizer on train dataset:  70%|██████▉   | 65000/92867 [01:37<00:38, 727.04 examples/s]Running tokenizer on train dataset:  71%|███████   | 66000/92867 [01:38<00:36, 737.65 examples/s]Running tokenizer on train dataset:  72%|███████▏  | 67000/92867 [01:40<00:35, 726.30 examples/s]Running tokenizer on train dataset:  73%|███████▎  | 68000/92867 [01:41<00:33, 738.09 examples/s]Running tokenizer on train dataset:  74%|███████▍  | 69000/92867 [01:42<00:31, 745.99 examples/s]Running tokenizer on train dataset:  75%|███████▌  | 70000/92867 [01:44<00:31, 722.74 examples/s]Running tokenizer on train dataset:  76%|███████▋  | 71000/92867 [01:45<00:30, 708.73 examples/s]Running tokenizer on train dataset:  78%|███████▊  | 72000/92867 [01:47<00:29, 699.99 examples/s]Running tokenizer on train dataset:  79%|███████▊  | 73000/92867 [01:48<00:29, 678.72 examples/s]Running tokenizer on train dataset:  80%|███████▉  | 74000/92867 [01:50<00:28, 656.86 examples/s]Running tokenizer on train dataset:  81%|████████  | 75000/92867 [01:52<00:27, 650.16 examples/s]Running tokenizer on train dataset:  82%|████████▏ | 76000/92867 [01:53<00:27, 622.32 examples/s]Running tokenizer on train dataset:  83%|████████▎ | 77000/92867 [01:55<00:25, 611.97 examples/s]Running tokenizer on train dataset:  84%|████████▍ | 78000/92867 [01:57<00:24, 600.41 examples/s]Running tokenizer on train dataset:  85%|████████▌ | 79000/92867 [01:59<00:23, 597.19 examples/s]Running tokenizer on train dataset:  86%|████████▌ | 80000/92867 [02:00<00:21, 597.76 examples/s]Running tokenizer on train dataset:  87%|████████▋ | 81000/92867 [02:02<00:19, 607.27 examples/s]Running tokenizer on train dataset:  88%|████████▊ | 82000/92867 [02:03<00:17, 621.51 examples/s]Running tokenizer on train dataset:  89%|████████▉ | 83000/92867 [02:06<00:18, 528.75 examples/s]Running tokenizer on train dataset:  90%|█████████ | 84000/92867 [02:08<00:16, 524.62 examples/s]Running tokenizer on train dataset:  92%|█████████▏| 85000/92867 [02:09<00:14, 547.10 examples/s]Running tokenizer on train dataset:  93%|█████████▎| 86000/92867 [02:11<00:12, 567.64 examples/s]Running tokenizer on train dataset:  94%|█████████▎| 87000/92867 [02:13<00:10, 559.10 examples/s]Running tokenizer on train dataset:  95%|█████████▍| 88000/92867 [02:15<00:08, 566.64 examples/s]Running tokenizer on train dataset:  96%|█████████▌| 89000/92867 [02:16<00:06, 559.72 examples/s]Running tokenizer on train dataset:  97%|█████████▋| 90000/92867 [02:18<00:05, 567.62 examples/s]Running tokenizer on train dataset:  98%|█████████▊| 91000/92867 [02:20<00:03, 525.32 examples/s]Running tokenizer on train dataset:  99%|█████████▉| 92000/92867 [02:22<00:01, 521.70 examples/s]Running tokenizer on train dataset: 100%|██████████| 92867/92867 [02:24<00:00, 514.17 examples/s]Running tokenizer on train dataset: 100%|██████████| 92867/92867 [02:24<00:00, 642.11 examples/s]
+Saving cached train data ...
+Saving the dataset (0/1 shards):   0%|          | 0/92867 [00:00<?, ? examples/s]Saving the dataset (1/1 shards): 100%|██████████| 92867/92867 [00:00<00:00, 942235.04 examples/s]Saving the dataset (1/1 shards): 100%|██████████| 92867/92867 [00:00<00:00, 940156.38 examples/s]
+Running tokenizer on validation dataset:   0%|          | 0/1722 [00:00<?, ? examples/s]Running tokenizer on validation dataset:  58%|█████▊    | 1000/1722 [00:01<00:01, 567.28 examples/s]Running tokenizer on validation dataset: 100%|██████████| 1722/1722 [00:03<00:00, 553.93 examples/s]Running tokenizer on validation dataset: 100%|██████████| 1722/1722 [00:03<00:00, 555.50 examples/s]
+Saving cached validation data ...
+Saving the dataset (0/1 shards):   0%|          | 0/1722 [00:00<?, ? examples/s]Saving the dataset (1/1 shards): 100%|██████████| 1722/1722 [00:00<00:00, 324421.30 examples/s]Saving the dataset (1/1 shards): 100%|██████████| 1722/1722 [00:00<00:00, 313998.41 examples/s]
+training_args.use_lang_prefix=True
+Downloading builder script:   0%|          | 0.00/8.15k [00:00<?, ?B/s]Downloading builder script: 100%|██████████| 8.15k/8.15k [00:00<00:00, 21.4MB/s]
+/opt/conda/lib/python3.10/site-packages/transformers/optimization.py:591: FutureWarning: This implementation of AdamW is deprecated and will be removed in a future version. Use the PyTorch implementation torch.optim.AdamW instead, or set `no_deprecation_warning=True` to disable this warning
+  warnings.warn(
+All 61904 steps, warm_up steps: 200
+wandb: WARNING The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
+wandb: Currently logged in as: abdiharyadi. Use `wandb login --relogin` to force relogin
+wandb: wandb version 0.18.5 is available!  To upgrade, please run:
+wandb:  $ pip install wandb --upgrade
+wandb: Tracking run with wandb version 0.17.5
+wandb: Run data is saved locally in /kaggle/tmp/amr-tst-indo/AMRBART-id/fine-tune/wandb/run-20241025_012052-278wbs6z
+wandb: Run `wandb offline` to turn off syncing.
+wandb: Syncing run /kaggle/tmp/amr-tst-indo/AMRBART-id/fine-tune/../outputs/mbart-en-id-smaller-fted
+wandb: ⭐️ View project at https://wandb.ai/abdiharyadi/amr-tst
+wandb: 🚀 View run at https://wandb.ai/abdiharyadi/amr-tst/runs/278wbs6z
+  0%|          | 0/61904 [00:00<?, ?it/s]/opt/conda/lib/python3.10/multiprocessing/popen_fork.py:66: RuntimeWarning: os.fork() was called. os.fork() is incompatible with multithreaded code, and JAX is multithreaded, so this will likely lead to a deadlock.
+  self.pid = os.fork()
+  0%|          | 1/61904 [00:01<32:12:42,  1.87s/it]                                                    {'loss': 3.6995, 'learning_rate': 1e-09, 'epoch': 0.0}
+  0%|          | 1/61904 [00:01<32:12:42,  1.87s/it]  0%|          | 2/61904 [00:03<26:18:45,  1.53s/it]  0%|          | 3/61904 [00:04<25:53:08,  1.51s/it]  0%|          | 4/61904 [00:05<24:24:54,  1.42s/it]  0%|          | 5/61904 [00:07<24:27:12,  1.42s/it]  0%|          | 6/61904 [00:08<24:16:58,  1.41s/it]  0%|          | 7/61904 [00:10<23:47:44,  1.38s/it]  0%|          | 8/61904 [00:11<24:52:38,  1.45s/it]  0%|          | 9/61904 [00:13<25:27:28,  1.48s/it]  0%|          | 10/61904 [00:14<25:17:09,  1.47s/it]  0%|          | 11/61904 [00:15<24:09:02,  1.40s/it]  0%|          | 12/61904 [00:17<23:56:52,  1.39s/it]  0%|          | 13/61904 [00:18<23:45:44,  1.38s/it]  0%|          | 14/61904 [00:20<24:20:04,  1.42s/it]  0%|          | 15/61904 [00:21<24:25:56,  1.42s/it]  0%|          | 16/61904 [00:22<23:39:25,  1.38s/it]  0%|          | 17/61904 [00:24<23:39:12,  1.38s/it]  0%|          | 18/61904 [00:25<23:02:09,  1.34s/it]  0%|          | 19/61904 [00:26<23:13:19,  1.35s/it]  0%|          | 20/61904 [00:28<22:49:33,  1.33s/it]                                                     {'loss': 3.6397, 'learning_rate': 2e-08, 'epoch': 0.01}
+  0%|          | 20/61904 [00:28<22:49:33,  1.33s/it]  0%|          | 21/61904 [00:29<22:47:54,  1.33s/it]  0%|          | 22/61904 [00:30<22:43:44,  1.32s/it]  0%|          | 23/61904 [00:32<22:26:15,  1.31s/it]  0%|          | 24/61904 [00:33<22:58:32,  1.34s/it]  0%|          | 25/61904 [00:34<23:43:43,  1.38s/it]  0%|          | 26/61904 [00:36<23:17:44,  1.36s/it]  0%|          | 27/61904 [00:37<23:07:00,  1.34s/it]  0%|          | 28/61904 [00:38<22:48:45,  1.33s/it]  0%|          | 29/61904 [00:40<22:31:40,  1.31s/it]  0%|          | 30/61904 [00:41<23:26:43,  1.36s/it]  0%|          | 31/61904 [00:42<23:22:25,  1.36s/it]  0%|          | 32/61904 [00:44<24:55:21,  1.45s/it]  0%|          | 33/61904 [00:45<24:16:17,  1.41s/it]  0%|          | 34/61904 [00:47<24:10:49,  1.41s/it]  0%|          | 35/61904 [00:48<23:26:15,  1.36s/it]  0%|          | 36/61904 [00:49<23:29:05,  1.37s/it]  0%|          | 37/61904 [00:51<23:07:11,  1.35s/it]  0%|          | 38/61904 [00:52<24:00:45,  1.40s/it]  0%|          | 39/61904 [00:54<23:40:24,  1.38s/it]  0%|          | 40/61904 [00:55<23:15:58,  1.35s/it]                                                     {'loss': 3.6775, 'learning_rate': 4e-08, 'epoch': 0.01}
+  0%|          | 40/61904 [00:55<23:15:58,  1.35s/it]  0%|          | 41/61904 [00:56<23:35:52,  1.37s/it]  0%|          | 42/61904 [00:58<22:46:48,  1.33s/it]  0%|          | 43/61904 [00:59<22:50:18,  1.33s/it]  0%|          | 44/61904 [01:00<22:19:11,  1.30s/it]  0%|          | 45/61904 [01:02<24:10:13,  1.41s/it]  0%|          | 46/61904 [01:03<24:29:14,  1.43s/it]  0%|          | 47/61904 [01:04<23:44:31,  1.38s/it]  0%|          | 48/61904 [01:06<23:47:13,  1.38s/it]  0%|          | 49/61904 [01:07<23:20:31,  1.36s/it]  0%|          | 50/61904 [01:09<23:42:20,  1.38s/it]  0%|          | 51/61904 [01:10<23:41:00,  1.38s/it]  0%|          | 52/61904 [01:11<23:13:20,  1.35s/it]  0%|          | 53/61904 [01:13<23:31:28,  1.37s/it]  0%|          | 54/61904 [01:14<22:50:04,  1.33s/it]  0%|          | 55/61904 [01:15<22:49:11,  1.33s/it]  0%|          | 56/61904 [01:17<23:30:01,  1.37s/it]  0%|          | 57/61904 [01:18<23:18:36,  1.36s/it]  0%|          | 58/61904 [01:19<23:31:08,  1.37s/it]  0%|          | 59/61904 [01:21<23:37:49,  1.38s/it]  0%|          | 60/61904 [01:22<23:28:56,  1.37s/it]                                                     {'loss': 3.8059, 'learning_rate': 6e-08, 'epoch': 0.02}
+  0%|          | 60/61904 [01:22<23:28:56,  1.37s/it]  0%|          | 61/61904 [01:24<24:13:35,  1.41s/it]  0%|          | 62/61904 [01:25<24:14:15,  1.41s/it]  0%|          | 63/61904 [01:27<24:12:59,  1.41s/it]  0%|          | 64/61904 [01:28<24:08:37,  1.41s/it]  0%|          | 65/61904 [01:29<23:32:01,  1.37s/it]  0%|          | 66/61904 [01:30<22:59:20,  1.34s/it]  0%|          | 67/61904 [01:32<22:38:43,  1.32s/it]  0%|          | 68/61904 [01:33<23:35:36,  1.37s/it]  0%|          | 69/61904 [01:35<24:33:50,  1.43s/it]  0%|          | 70/61904 [01:36<24:50:58,  1.45s/it]  0%|          | 71/61904 [01:38<24:51:09,  1.45s/it]  0%|          | 72/61904 [01:39<24:31:13,  1.43s/it]  0%|          | 73/61904 [01:41<25:18:26,  1.47s/it]  0%|          | 74/61904 [01:42<24:04:32,  1.40s/it]  0%|          | 75/61904 [01:43<24:36:10,  1.43s/it]  0%|          | 76/61904 [01:45<24:41:14,  1.44s/it]  0%|          | 77/61904 [01:46<24:06:01,  1.40s/it]  0%|          | 78/61904 [01:47<23:03:55,  1.34s/it]  0%|          | 79/61904 [01:49<22:57:24,  1.34s/it]  0%|          | 80/61904 [01:50<23:35:03,  1.37s/it]                                                     {'loss': 3.6028, 'learning_rate': 8e-08, 'epoch': 0.02}
+  0%|          | 80/61904 [01:50<23:35:03,  1.37s/it]  0%|          | 81/61904 [01:52<23:29:31,  1.37s/it]  0%|          | 82/61904 [01:53<23:04:34,  1.34s/it]  0%|          | 83/61904 [01:54<23:13:31,  1.35s/it]  0%|          | 84/61904 [01:56<23:20:53,  1.36s/it]  0%|          | 85/61904 [01:57<23:37:45,  1.38s/it]  0%|          | 86/61904 [01:58<23:09:57,  1.35s/it]  0%|          | 87/61904 [02:00<23:12:01,  1.35s/it]  0%|          | 88/61904 [02:01<22:37:26,  1.32s/it]  0%|          | 89/61904 [02:02<22:39:10,  1.32s/it]  0%|          | 90/61904 [02:04<23:29:03,  1.37s/it]  0%|          | 91/61904 [02:05<22:34:25,  1.31s/it]  0%|          | 92/61904 [02:06<22:47:32,  1.33s/it]  0%|          | 93/61904 [02:08<23:06:17,  1.35s/it]  0%|          | 94/61904 [02:09<22:25:57,  1.31s/it]  0%|          | 95/61904 [02:10<22:31:36,  1.31s/it]  0%|          | 96/61904 [02:12<22:50:00,  1.33s/it]  0%|          | 97/61904 [02:13<23:30:41,  1.37s/it]  0%|          | 98/61904 [02:14<23:19:36,  1.36s/it]  0%|          | 99/61904 [02:16<23:16:44,  1.36s/it]  0%|          | 100/61904 [02:17<24:18:57,  1.42s/it]                                                      {'loss': 3.5831, 'learning_rate': 1e-07, 'epoch': 0.03}
+  0%|          | 100/61904 [02:17<24:18:57,  1.42s/it]  0%|          | 101/61904 [02:19<24:22:47,  1.42s/it]  0%|          | 102/61904 [02:20<23:41:57,  1.38s/it]  0%|          | 103/61904 [02:21<23:38:36,  1.38s/it]  0%|          | 104/61904 [02:23<23:06:11,  1.35s/it]  0%|          | 105/61904 [02:24<22:49:32,  1.33s/it]  0%|          | 106/61904 [02:25<23:21:05,  1.36s/it]  0%|          | 107/61904 [02:27<23:05:58,  1.35s/it]  0%|          | 108/61904 [02:28<22:53:00,  1.33s/it]  0%|          | 109/61904 [02:29<23:33:07,  1.37s/it]  0%|          | 110/61904 [02:31<23:50:12,  1.39s/it]  0%|          | 111/61904 [02:32<24:30:50,  1.43s/it]  0%|          | 112/61904 [02:34<23:45:29,  1.38s/it]  0%|          | 113/61904 [02:35<23:27:26,  1.37s/it]  0%|          | 114/61904 [02:36<22:57:17,  1.34s/it]  0%|          | 115/61904 [02:38<22:58:57,  1.34s/it]  0%|          | 116/61904 [02:39<22:35:41,  1.32s/it]  0%|          | 117/61904 [02:40<23:30:50,  1.37s/it]  0%|          | 118/61904 [02:42<23:16:06,  1.36s/it]  0%|          | 119/61904 [02:43<22:54:50,  1.34s/it]  0%|          | 120/61904 [02:44<22:36:24,  1.32s/it]                                                      {'loss': 3.4939, 'learning_rate': 1.2e-07, 'epoch': 0.03}
+  0%|          | 120/61904 [02:44<22:36:24,  1.32s/it]  0%|          | 121/61904 [02:45<22:28:34,  1.31s/it]  0%|          | 122/61904 [02:47<22:45:28,  1.33s/it]  0%|          | 123/61904 [02:48<22:58:32,  1.34s/it]  0%|          | 124/61904 [02:50<23:42:49,  1.38s/it]  0%|          | 125/61904 [02:51<23:30:49,  1.37s/it]  0%|          | 126/61904 [02:52<22:59:18,  1.34s/it]  0%|          | 127/61904 [02:54<23:16:49,  1.36s/it]  0%|          | 128/61904 [02:55<22:53:07,  1.33s/it]  0%|          | 129/61904 [02:56<23:32:04,  1.37s/it]  0%|          | 130/61904 [02:58<23:32:28,  1.37s/it]  0%|          | 131/61904 [02:59<24:12:14,  1.41s/it]  0%|          | 132/61904 [03:01<23:47:18,  1.39s/it]  0%|          | 133/61904 [03:02<24:07:15,  1.41s/it]  0%|          | 134/61904 [03:03<23:34:38,  1.37s/it]  0%|          | 135/61904 [03:05<23:29:30,  1.37s/it]  0%|          | 136/61904 [03:06<23:29:37,  1.37s/it]  0%|          | 137/61904 [03:07<23:05:31,  1.35s/it]  0%|          | 138/61904 [03:09<23:13:40,  1.35s/it]  0%|          | 139/61904 [03:10<23:16:14,  1.36s/it]  0%|          | 140/61904 [03:12<23:32:58,  1.37s/it]                                                      {'loss': 3.4946, 'learning_rate': 1.3999999999999998e-07, 'epoch': 0.04}
+  0%|          | 140/61904 [03:12<23:32:58,  1.37s/it]  0%|          | 141/61904 [03:13<24:10:35,  1.41s/it]  0%|          | 142/61904 [03:14<23:00:51,  1.34s/it]  0%|          | 143/61904 [03:16<23:33:22,  1.37s/it]  0%|          | 144/61904 [03:17<22:39:27,  1.32s/it]  0%|          | 145/61904 [03:18<22:42:41,  1.32s/it]  0%|          | 146/61904 [03:20<24:18:07,  1.42s/it]  0%|          | 147/61904 [03:21<23:36:20,  1.38s/it]  0%|          | 148/61904 [03:23<24:03:53,  1.40s/it]  0%|          | 149/61904 [03:24<24:11:19,  1.41s/it]  0%|          | 150/61904 [03:26<24:55:14,  1.45s/it]  0%|          | 151/61904 [03:27<24:37:44,  1.44s/it]  0%|          | 152/61904 [03:28<24:01:05,  1.40s/it]  0%|          | 153/61904 [03:30<23:04:54,  1.35s/it]  0%|          | 154/61904 [03:31<23:40:56,  1.38s/it]  0%|          | 155/61904 [03:32<24:08:23,  1.41s/it]  0%|          | 156/61904 [03:34<23:38:14,  1.38s/it]  0%|          | 157/61904 [03:35<24:05:33,  1.40s/it]  0%|          | 158/61904 [03:36<23:21:07,  1.36s/it]  0%|          | 159/61904 [03:38<23:31:34,  1.37s/it]  0%|          | 160/61904 [03:39<22:45:53,  1.33s/it]                                                      {'loss': 3.4607, 'learning_rate': 1.6e-07, 'epoch': 0.04}
+  0%|          | 160/61904 [03:39<22:45:53,  1.33s/it]  0%|          | 161/61904 [03:40<23:01:25,  1.34s/it]  0%|          | 162/61904 [03:42<24:16:48,  1.42s/it]  0%|          | 163/61904 [03:43<23:34:30,  1.37s/it]  0%|          | 164/61904 [03:45<23:57:44,  1.40s/it]  0%|          | 165/61904 [03:46<23:32:17,  1.37s/it]  0%|          | 166/61904 [03:47<23:26:30,  1.37s/it]  0%|          | 167/61904 [03:49<23:39:12,  1.38s/it]  0%|          | 168/61904 [03:50<23:48:53,  1.39s/it]  0%|          | 169/61904 [03:52<23:38:48,  1.38s/it]  0%|          | 170/61904 [03:53<22:53:24,  1.33s/it]  0%|          | 171/61904 [03:54<22:42:09,  1.32s/it]  0%|          | 172/61904 [03:55<22:39:48,  1.32s/it]  0%|          | 173/61904 [03:57<22:22:01,  1.30s/it]  0%|          | 174/61904 [03:58<23:37:31,  1.38s/it]  0%|          | 175/61904 [04:00<23:03:09,  1.34s/it]  0%|          | 176/61904 [04:01<22:16:43,  1.30s/it]  0%|          | 177/61904 [04:02<22:57:35,  1.34s/it]  0%|          | 178/61904 [04:04<22:55:52,  1.34s/it]  0%|          | 179/61904 [04:05<23:05:31,  1.35s/it]  0%|          | 180/61904 [04:06<23:12:53,  1.35s/it]                                                      {'loss': 3.4372, 'learning_rate': 1.8e-07, 'epoch': 0.05}
+  0%|          | 180/61904 [04:06<23:12:53,  1.35s/it]  0%|          | 181/61904 [04:08<24:10:57,  1.41s/it]  0%|          | 182/61904 [04:09<23:36:24,  1.38s/it]  0%|          | 183/61904 [04:10<23:35:55,  1.38s/it]  0%|          | 184/61904 [04:12<23:25:37,  1.37s/it]  0%|          | 185/61904 [04:13<23:05:04,  1.35s/it]  0%|          | 186/61904 [04:14<23:11:19,  1.35s/it]  0%|          | 187/61904 [04:16<22:40:13,  1.32s/it]  0%|          | 188/61904 [04:17<22:36:33,  1.32s/it]  0%|          | 189/61904 [04:18<22:39:13,  1.32s/it]  0%|          | 190/61904 [04:20<22:36:49,  1.32s/it]  0%|          | 191/61904 [04:21<23:36:23,  1.38s/it]  0%|          | 192/61904 [04:23<23:19:19,  1.36s/it]  0%|          | 193/61904 [04:24<23:42:22,  1.38s/it]  0%|          | 194/61904 [04:25<23:27:00,  1.37s/it]  0%|          | 195/61904 [04:27<23:20:03,  1.36s/it]  0%|          | 196/61904 [04:28<23:03:04,  1.34s/it]  0%|          | 197/61904 [04:29<23:31:07,  1.37s/it]  0%|          | 198/61904 [04:31<24:14:21,  1.41s/it]  0%|          | 199/61904 [04:32<23:31:33,  1.37s/it]  0%|          | 200/61904 [04:34<23:45:01,  1.39s/it]                                                      {'loss': 3.3843, 'learning_rate': 2e-07, 'epoch': 0.05}
+  0%|          | 200/61904 [04:34<23:45:01,  1.39s/it]  0%|          | 201/61904 [04:35<23:50:29,  1.39s/it]  0%|          | 202/61904 [04:36<24:11:00,  1.41s/it]  0%|          | 203/61904 [04:38<23:24:45,  1.37s/it]  0%|          | 204/61904 [04:39<23:09:27,  1.35s/it]  0%|          | 205/61904 [04:40<23:09:40,  1.35s/it]  0%|          | 206/61904 [04:42<23:44:09,  1.38s/it]  0%|          | 207/61904 [04:43<24:05:33,  1.41s/it]  0%|          | 208/61904 [04:45<23:38:28,  1.38s/it]  0%|          | 209/61904 [04:46<23:23:47,  1.37s/it]  0%|          | 210/61904 [04:47<23:45:06,  1.39s/it]  0%|          | 211/61904 [04:49<23:26:40,  1.37s/it]  0%|          | 212/61904 [04:50<23:57:31,  1.40s/it]  0%|          | 213/61904 [04:51<23:17:54,  1.36s/it]  0%|          | 214/61904 [04:53<22:58:29,  1.34s/it]  0%|          | 215/61904 [04:54<23:01:42,  1.34s/it]  0%|          | 216/61904 [04:56<23:29:25,  1.37s/it]  0%|          | 217/61904 [04:57<23:31:03,  1.37s/it]  0%|          | 218/61904 [04:58<23:03:00,  1.35s/it]  0%|          | 219/61904 [05:00<24:10:06,  1.41s/it]  0%|          | 220/61904 [05:01<24:02:25,  1.40s/it]                                                      {'loss': 3.4237, 'learning_rate': 1.9996758719045768e-07, 'epoch': 0.06}
+  0%|          | 220/61904 [05:01<24:02:25,  1.40s/it]  0%|          | 221/61904 [05:03<24:02:26,  1.40s/it]  0%|          | 222/61904 [05:04<24:35:17,  1.44s/it]  0%|          | 223/61904 [05:05<24:22:28,  1.42s/it]  0%|          | 224/61904 [05:07<24:09:12,  1.41s/it]  0%|          | 225/61904 [05:08<23:51:47,  1.39s/it]  0%|          | 226/61904 [05:09<23:14:49,  1.36s/it]  0%|          | 227/61904 [05:11<23:59:56,  1.40s/it]  0%|          | 228/61904 [05:12<24:23:55,  1.42s/it]  0%|          | 229/61904 [05:14<24:03:33,  1.40s/it]  0%|          | 230/61904 [05:15<24:03:13,  1.40s/it]  0%|          | 231/61904 [05:17<24:05:25,  1.41s/it]  0%|          | 232/61904 [05:18<23:54:51,  1.40s/it]  0%|          | 233/61904 [05:19<23:31:00,  1.37s/it]  0%|          | 234/61904 [05:21<23:49:54,  1.39s/it]  0%|          | 235/61904 [05:22<24:16:14,  1.42s/it]  0%|          | 236/61904 [05:24<25:31:01,  1.49s/it]  0%|          | 237/61904 [05:25<24:48:20,  1.45s/it]  0%|          | 238/61904 [05:27<24:25:33,  1.43s/it]  0%|          | 239/61904 [05:28<23:49:51,  1.39s/it]  0%|          | 240/61904 [05:29<24:25:12,  1.43s/it]                                                      {'loss': 3.4052, 'learning_rate': 1.9993517438091531e-07, 'epoch': 0.06}
+  0%|          | 240/61904 [05:29<24:25:12,  1.43s/it]  0%|          | 241/61904 [05:31<24:28:20,  1.43s/it]  0%|          | 242/61904 [05:32<24:43:33,  1.44s/it]  0%|          | 243/61904 [05:34<24:50:14,  1.45s/it]  0%|          | 244/61904 [05:35<23:49:33,  1.39s/it]  0%|          | 245/61904 [05:36<23:43:01,  1.38s/it]  0%|          | 246/61904 [05:38<23:16:10,  1.36s/it]  0%|          | 247/61904 [05:39<23:45:59,  1.39s/it]  0%|          | 248/61904 [05:41<23:36:18,  1.38s/it]  0%|          | 249/61904 [05:42<22:57:33,  1.34s/it]  0%|          | 250/61904 [05:43<22:39:00,  1.32s/it]  0%|          | 251/61904 [05:44<23:02:40,  1.35s/it]  0%|          | 252/61904 [05:46<23:36:15,  1.38s/it]  0%|          | 253/61904 [05:47<23:44:22,  1.39s/it]  0%|          | 254/61904 [05:49<23:04:04,  1.35s/it]  0%|          | 255/61904 [05:50<23:40:11,  1.38s/it]  0%|          | 256/61904 [05:52<24:38:11,  1.44s/it]  0%|          | 257/61904 [05:53<25:21:23,  1.48s/it]  0%|          | 258/61904 [05:55<24:52:52,  1.45s/it]  0%|          | 259/61904 [05:56<24:24:09,  1.43s/it]  0%|          | 260/61904 [05:57<23:44:54,  1.39s/it]                                                      {'loss': 3.4037, 'learning_rate': 1.99902761571373e-07, 'epoch': 0.07}
+  0%|          | 260/61904 [05:57<23:44:54,  1.39s/it]  0%|          | 261/61904 [05:59<24:30:22,  1.43s/it]  0%|          | 262/61904 [06:00<24:04:45,  1.41s/it]  0%|          | 263/61904 [06:02<24:05:58,  1.41s/it]  0%|          | 264/61904 [06:03<23:38:28,  1.38s/it]  0%|          | 265/61904 [06:04<23:57:18,  1.40s/it]  0%|          | 266/61904 [06:06<23:27:13,  1.37s/it]  0%|          | 267/61904 [06:07<23:26:10,  1.37s/it]  0%|          | 268/61904 [06:08<23:12:19,  1.36s/it]  0%|          | 269/61904 [06:10<23:02:25,  1.35s/it]  0%|          | 270/61904 [06:11<22:53:15,  1.34s/it]  0%|          | 271/61904 [06:12<22:58:26,  1.34s/it]  0%|          | 272/61904 [06:14<22:49:07,  1.33s/it]  0%|          | 273/61904 [06:15<22:36:46,  1.32s/it]  0%|          | 274/61904 [06:16<22:40:13,  1.32s/it]  0%|          | 275/61904 [06:17<22:06:51,  1.29s/it]  0%|          | 276/61904 [06:19<22:09:19,  1.29s/it]  0%|          | 277/61904 [06:20<22:30:27,  1.31s/it]  0%|          | 278/61904 [06:21<23:03:24,  1.35s/it]  0%|          | 279/61904 [06:23<22:51:50,  1.34s/it]  0%|          | 280/61904 [06:24<23:07:32,  1.35s/it]                                                      {'loss': 3.4114, 'learning_rate': 1.9987034876183066e-07, 'epoch': 0.07}
+  0%|          | 280/61904 [06:24<23:07:32,  1.35s/it]  0%|          | 281/61904 [06:25<22:23:21,  1.31s/it]  0%|          | 282/61904 [06:27<23:26:24,  1.37s/it]  0%|          | 283/61904 [06:28<22:52:01,  1.34s/it]  0%|          | 284/61904 [06:30<23:09:26,  1.35s/it]  0%|          | 285/61904 [06:31<22:24:24,  1.31s/it]  0%|          | 286/61904 [06:32<22:18:08,  1.30s/it]  0%|          | 287/61904 [06:33<22:02:45,  1.29s/it]  0%|          | 288/61904 [06:35<23:05:58,  1.35s/it]  0%|          | 289/61904 [06:36<23:57:50,  1.40s/it]  0%|          | 290/61904 [06:38<24:02:34,  1.40s/it]  0%|          | 291/61904 [06:39<24:03:24,  1.41s/it]  0%|          | 292/61904 [06:41<24:03:14,  1.41s/it]  0%|          | 293/61904 [06:42<24:43:18,  1.44s/it]  0%|          | 294/61904 [06:44<25:26:24,  1.49s/it]  0%|          | 295/61904 [06:45<24:23:07,  1.42s/it]  0%|          | 296/61904 [06:46<24:13:12,  1.42s/it]  0%|          | 297/61904 [06:48<24:01:06,  1.40s/it]  0%|          | 298/61904 [06:49<23:14:51,  1.36s/it]  0%|          | 299/61904 [06:50<22:56:00,  1.34s/it]  0%|          | 300/61904 [06:52<23:41:15,  1.38s/it]                                                      {'loss': 3.4259, 'learning_rate': 1.9983793595228833e-07, 'epoch': 0.08}
+  0%|          | 300/61904 [06:52<23:41:15,  1.38s/it]  0%|          | 301/61904 [06:53<23:19:37,  1.36s/it]  0%|          | 302/61904 [06:54<23:22:51,  1.37s/it]  0%|          | 303/61904 [06:56<23:41:18,  1.38s/it]  0%|          | 304/61904 [06:57<24:03:16,  1.41s/it]  0%|          | 305/61904 [06:59<23:29:54,  1.37s/it]  0%|          | 306/61904 [07:00<23:14:50,  1.36s/it]  0%|          | 307/61904 [07:01<23:00:12,  1.34s/it]  0%|          | 308/61904 [07:03<23:13:31,  1.36s/it]  0%|          | 309/61904 [07:04<24:11:40,  1.41s/it]  1%|          | 310/61904 [07:06<24:39:52,  1.44s/it]  1%|          | 311/61904 [07:07<24:53:39,  1.46s/it]  1%|          | 312/61904 [07:09<24:46:12,  1.45s/it]  1%|          | 313/61904 [07:10<23:35:01,  1.38s/it]  1%|          | 314/61904 [07:11<23:10:56,  1.36s/it]  1%|          | 315/61904 [07:12<22:40:45,  1.33s/it]  1%|          | 316/61904 [07:14<22:54:01,  1.34s/it]  1%|          | 317/61904 [07:15<22:54:02,  1.34s/it]  1%|          | 318/61904 [07:17<23:42:00,  1.39s/it]  1%|          | 319/61904 [07:18<23:03:42,  1.35s/it]  1%|          | 320/61904 [07:19<22:19:21,  1.30s/it]                                                      {'loss': 3.3792, 'learning_rate': 1.9980552314274602e-07, 'epoch': 0.08}
+  1%|          | 320/61904 [07:19<22:19:21,  1.30s/it]  1%|          | 321/61904 [07:21<23:30:27,  1.37s/it]  1%|          | 322/61904 [07:22<23:30:04,  1.37s/it]  1%|          | 323/61904 [07:23<23:35:15,  1.38s/it]  1%|          | 324/61904 [07:25<23:25:42,  1.37s/it]  1%|          | 325/61904 [07:26<23:04:58,  1.35s/it]  1%|          | 326/61904 [07:27<23:05:28,  1.35s/it]  1%|          | 327/61904 [07:29<22:30:26,  1.32s/it]  1%|          | 328/61904 [07:30<23:14:56,  1.36s/it]  1%|          | 329/61904 [07:31<22:54:57,  1.34s/it]  1%|          | 330/61904 [07:33<23:18:18,  1.36s/it]  1%|          | 331/61904 [07:34<23:12:51,  1.36s/it]  1%|          | 332/61904 [07:35<23:07:43,  1.35s/it]  1%|          | 333/61904 [07:37<23:32:05,  1.38s/it]  1%|          | 334/61904 [07:38<23:16:37,  1.36s/it]  1%|          | 335/61904 [07:39<22:50:11,  1.34s/it]  1%|          | 336/61904 [07:41<23:44:44,  1.39s/it]  1%|          | 337/61904 [07:42<23:17:29,  1.36s/it]  1%|          | 338/61904 [07:44<22:47:33,  1.33s/it]  1%|          | 339/61904 [07:45<22:50:44,  1.34s/it]  1%|          | 340/61904 [07:46<22:28:05,  1.31s/it]                                                      {'loss': 3.2866, 'learning_rate': 1.9977311033320368e-07, 'epoch': 0.09}
+  1%|          | 340/61904 [07:46<22:28:05,  1.31s/it]  1%|          | 341/61904 [07:48<23:33:52,  1.38s/it]  1%|          | 342/61904 [07:49<22:54:41,  1.34s/it]  1%|          | 343/61904 [07:50<23:26:36,  1.37s/it]  1%|          | 344/61904 [07:52<23:21:13,  1.37s/it]  1%|          | 345/61904 [07:53<23:26:57,  1.37s/it]  1%|          | 346/61904 [07:54<22:46:27,  1.33s/it]  1%|          | 347/61904 [07:56<22:46:19,  1.33s/it]  1%|          | 348/61904 [07:57<22:27:49,  1.31s/it]  1%|          | 349/61904 [07:58<22:37:30,  1.32s/it]  1%|          | 350/61904 [08:00<23:14:25,  1.36s/it]  1%|          | 351/61904 [08:01<24:36:12,  1.44s/it]  1%|          | 352/61904 [08:03<24:03:02,  1.41s/it]  1%|          | 353/61904 [08:04<24:37:35,  1.44s/it]  1%|          | 354/61904 [08:06<23:45:41,  1.39s/it]  1%|          | 355/61904 [08:07<24:39:05,  1.44s/it]  1%|          | 356/61904 [08:08<23:31:10,  1.38s/it]  1%|          | 357/61904 [08:10<22:49:21,  1.33s/it]  1%|          | 358/61904 [08:11<22:54:08,  1.34s/it]  1%|          | 359/61904 [08:12<22:48:46,  1.33s/it]  1%|          | 360/61904 [08:13<22:35:19,  1.32s/it]                                                      {'loss': 3.3454, 'learning_rate': 1.9974069752366134e-07, 'epoch': 0.09}
+  1%|          | 360/61904 [08:13<22:35:19,  1.32s/it]  1%|          | 361/61904 [08:15<23:31:31,  1.38s/it]  1%|          | 362/61904 [08:16<23:28:11,  1.37s/it]  1%|          | 363/61904 [08:18<23:41:37,  1.39s/it]  1%|          | 364/61904 [08:19<23:11:42,  1.36s/it]  1%|          | 365/61904 [08:20<23:19:15,  1.36s/it]  1%|          | 366/61904 [08:22<22:55:10,  1.34s/it]  1%|          | 367/61904 [08:23<22:47:50,  1.33s/it]  1%|          | 368/61904 [08:24<22:24:22,  1.31s/it]  1%|          | 369/61904 [08:26<22:08:54,  1.30s/it]  1%|          | 370/61904 [08:27<22:02:33,  1.29s/it]  1%|          | 371/61904 [08:28<21:38:27,  1.27s/it]  1%|          | 372/61904 [08:29<22:09:48,  1.30s/it]  1%|          | 373/61904 [08:31<23:29:57,  1.37s/it]  1%|          | 374/61904 [08:32<23:24:42,  1.37s/it]  1%|          | 375/61904 [08:34<23:14:34,  1.36s/it]  1%|          | 376/61904 [08:35<22:48:56,  1.33s/it]  1%|          | 377/61904 [08:36<22:19:26,  1.31s/it]  1%|          | 378/61904 [08:38<23:04:07,  1.35s/it]  1%|          | 379/61904 [08:39<23:32:30,  1.38s/it]  1%|          | 380/61904 [08:40<23:31:20,  1.38s/it]                                                      {'loss': 3.3625, 'learning_rate': 1.9970828471411903e-07, 'epoch': 0.1}
+  1%|          | 380/61904 [08:40<23:31:20,  1.38s/it]  1%|          | 381/61904 [08:42<23:57:56,  1.40s/it]  1%|          | 382/61904 [08:43<24:14:46,  1.42s/it]  1%|          | 383/61904 [08:45<23:39:33,  1.38s/it]  1%|          | 384/61904 [08:46<23:42:12,  1.39s/it]  1%|          | 385/61904 [08:47<23:31:47,  1.38s/it]  1%|          | 386/61904 [08:49<23:33:11,  1.38s/it]  1%|          | 387/61904 [08:50<23:07:56,  1.35s/it]  1%|          | 388/61904 [08:51<22:57:56,  1.34s/it]  1%|          | 389/61904 [08:53<23:31:19,  1.38s/it]  1%|          | 390/61904 [08:54<23:28:15,  1.37s/it]  1%|          | 391/61904 [08:56<23:53:23,  1.40s/it]  1%|          | 392/61904 [08:57<24:42:04,  1.45s/it]  1%|          | 393/61904 [08:59<24:22:35,  1.43s/it]  1%|          | 394/61904 [09:00<23:33:25,  1.38s/it]  1%|          | 395/61904 [09:01<24:15:22,  1.42s/it]  1%|          | 396/61904 [09:03<24:03:26,  1.41s/it]  1%|          | 397/61904 [09:04<23:42:35,  1.39s/it]  1%|          | 398/61904 [09:05<23:20:57,  1.37s/it]  1%|          | 399/61904 [09:07<23:56:26,  1.40s/it]  1%|          | 400/61904 [09:08<23:46:34,  1.39s/it]                                                      {'loss': 3.3624, 'learning_rate': 1.9967587190457666e-07, 'epoch': 0.1}
+  1%|          | 400/61904 [09:08<23:46:34,  1.39s/it]  1%|          | 401/61904 [09:10<23:42:41,  1.39s/it]  1%|          | 402/61904 [09:11<25:15:38,  1.48s/it]  1%|          | 403/61904 [09:13<24:59:42,  1.46s/it]  1%|          | 404/61904 [09:14<25:11:45,  1.47s/it]  1%|          | 405/61904 [09:16<24:26:51,  1.43s/it]  1%|          | 406/61904 [09:17<23:56:44,  1.40s/it]  1%|          | 407/61904 [09:18<23:57:25,  1.40s/it]  1%|          | 408/61904 [09:20<23:28:14,  1.37s/it]  1%|          | 409/61904 [09:21<24:27:29,  1.43s/it]  1%|          | 410/61904 [09:23<24:18:43,  1.42s/it]  1%|          | 411/61904 [09:24<25:51:22,  1.51s/it]  1%|          | 412/61904 [09:26<25:34:02,  1.50s/it]  1%|          | 413/61904 [09:27<24:07:44,  1.41s/it]  1%|          | 414/61904 [09:29<24:54:20,  1.46s/it]  1%|          | 415/61904 [09:30<24:42:33,  1.45s/it]  1%|          | 416/61904 [09:32<24:58:16,  1.46s/it]  1%|          | 417/61904 [09:33<23:45:09,  1.39s/it]  1%|          | 418/61904 [09:34<24:39:30,  1.44s/it]  1%|          | 419/61904 [09:36<24:38:12,  1.44s/it]  1%|          | 420/61904 [09:37<24:39:36,  1.44s/it]                                                      {'loss': 3.3077, 'learning_rate': 1.9964345909503435e-07, 'epoch': 0.11}
+  1%|          | 420/61904 [09:37<24:39:36,  1.44s/it]  1%|          | 421/61904 [09:39<24:04:27,  1.41s/it]  1%|          | 422/61904 [09:40<23:28:41,  1.37s/it]  1%|          | 423/61904 [09:41<24:09:49,  1.41s/it]  1%|          | 424/61904 [09:43<24:18:08,  1.42s/it]  1%|          | 425/61904 [09:44<23:57:32,  1.40s/it]  1%|          | 426/61904 [09:46<24:01:22,  1.41s/it]  1%|          | 427/61904 [09:47<23:58:05,  1.40s/it]  1%|          | 428/61904 [09:48<23:56:13,  1.40s/it]  1%|          | 429/61904 [09:50<23:59:48,  1.41s/it]  1%|          | 430/61904 [09:51<23:36:34,  1.38s/it]  1%|          | 431/61904 [09:52<23:19:08,  1.37s/it]  1%|          | 432/61904 [09:54<22:54:57,  1.34s/it]  1%|          | 433/61904 [09:55<23:42:15,  1.39s/it]  1%|          | 434/61904 [09:57<23:15:47,  1.36s/it]  1%|          | 435/61904 [09:58<22:25:28,  1.31s/it]  1%|          | 436/61904 [09:59<22:51:14,  1.34s/it]  1%|          | 437/61904 [10:00<23:02:35,  1.35s/it]  1%|          | 438/61904 [10:02<22:32:54,  1.32s/it]  1%|          | 439/61904 [10:03<21:55:59,  1.28s/it]  1%|          | 440/61904 [10:04<21:56:06,  1.28s/it]                                                      {'loss': 3.274, 'learning_rate': 1.99611046285492e-07, 'epoch': 0.11}
+  1%|          | 440/61904 [10:04<21:56:06,  1.28s/it]  1%|          | 441/61904 [10:05<21:49:17,  1.28s/it]  1%|          | 442/61904 [10:07<22:36:53,  1.32s/it]  1%|          | 443/61904 [10:08<22:48:55,  1.34s/it]  1%|          | 444/61904 [10:10<23:17:06,  1.36s/it]  1%|          | 445/61904 [10:11<23:34:05,  1.38s/it]  1%|          | 446/61904 [10:13<23:42:50,  1.39s/it]  1%|          | 447/61904 [10:14<23:36:45,  1.38s/it]  1%|          | 448/61904 [10:15<23:54:29,  1.40s/it]  1%|          | 449/61904 [10:17<23:46:20,  1.39s/it]  1%|          | 450/61904 [10:18<23:03:42,  1.35s/it]  1%|          | 451/61904 [10:19<23:10:18,  1.36s/it]  1%|          | 452/61904 [10:21<23:14:31,  1.36s/it]  1%|          | 453/61904 [10:22<23:21:23,  1.37s/it]  1%|          | 454/61904 [10:23<23:13:00,  1.36s/it]  1%|          | 455/61904 [10:25<23:04:55,  1.35s/it]  1%|          | 456/61904 [10:26<22:57:56,  1.35s/it]  1%|          | 457/61904 [10:27<22:57:20,  1.34s/it]  1%|          | 458/61904 [10:29<22:53:03,  1.34s/it]  1%|          | 459/61904 [10:30<22:30:56,  1.32s/it]  1%|          | 460/61904 [10:31<22:45:57,  1.33s/it]                                                      {'loss': 3.3271, 'learning_rate': 1.9957863347594967e-07, 'epoch': 0.12}
+  1%|          | 460/61904 [10:31<22:45:57,  1.33s/it]  1%|          | 461/61904 [10:33<23:36:07,  1.38s/it]  1%|          | 462/61904 [10:34<22:50:13,  1.34s/it]  1%|          | 463/61904 [10:36<23:08:48,  1.36s/it]  1%|          | 464/61904 [10:37<22:43:32,  1.33s/it]  1%|          | 465/61904 [10:38<23:42:03,  1.39s/it]  1%|          | 466/61904 [10:40<23:24:33,  1.37s/it]  1%|          | 467/61904 [10:41<23:59:35,  1.41s/it]  1%|          | 468/61904 [10:43<24:06:44,  1.41s/it]  1%|          | 469/61904 [10:44<23:56:30,  1.40s/it]  1%|          | 470/61904 [10:45<23:13:52,  1.36s/it]  1%|          | 471/61904 [10:46<22:33:38,  1.32s/it]  1%|          | 472/61904 [10:48<23:33:35,  1.38s/it]  1%|          | 473/61904 [10:49<23:12:23,  1.36s/it]  1%|          | 474/61904 [10:51<23:43:36,  1.39s/it]  1%|          | 475/61904 [10:52<23:29:24,  1.38s/it]  1%|          | 476/61904 [10:53<23:25:58,  1.37s/it]  1%|          | 477/61904 [10:55<23:14:46,  1.36s/it]  1%|          | 478/61904 [10:56<22:58:36,  1.35s/it]  1%|          | 479/61904 [10:58<23:20:46,  1.37s/it]  1%|          | 480/61904 [10:59<24:03:25,  1.41s/it]                                                      {'loss': 3.2978, 'learning_rate': 1.9954622066640736e-07, 'epoch': 0.12}
+  1%|          | 480/61904 [10:59<24:03:25,  1.41s/it]  1%|          | 481/61904 [11:00<23:54:08,  1.40s/it]  1%|          | 482/61904 [11:02<24:17:08,  1.42s/it]  1%|          | 483/61904 [11:03<23:38:59,  1.39s/it]  1%|          | 484/61904 [11:05<23:54:04,  1.40s/it]  1%|          | 485/61904 [11:06<23:32:13,  1.38s/it]  1%|          | 486/61904 [11:07<23:28:54,  1.38s/it]  1%|          | 487/61904 [11:09<23:09:15,  1.36s/it]  1%|          | 488/61904 [11:10<24:29:09,  1.44s/it]  1%|          | 489/61904 [11:12<24:38:43,  1.44s/it]  1%|          | 490/61904 [11:13<23:41:30,  1.39s/it]  1%|          | 491/61904 [11:14<23:13:58,  1.36s/it]  1%|          | 492/61904 [11:16<23:05:11,  1.35s/it]  1%|          | 493/61904 [11:17<23:36:10,  1.38s/it]  1%|          | 494/61904 [11:18<23:40:54,  1.39s/it]  1%|          | 495/61904 [11:20<24:40:00,  1.45s/it]  1%|          | 496/61904 [11:21<24:00:19,  1.41s/it]  1%|          | 497/61904 [11:23<23:51:15,  1.40s/it]  1%|          | 498/61904 [11:24<23:13:03,  1.36s/it]  1%|          | 499/61904 [11:25<23:07:39,  1.36s/it]  1%|          | 500/61904 [11:27<23:13:42,  1.36s/it]                                                      {'loss': 3.3003, 'learning_rate': 1.9951380785686502e-07, 'epoch': 0.13}
+  1%|          | 500/61904 [11:27<23:13:42,  1.36s/it]  1%|          | 501/61904 [11:28<23:15:10,  1.36s/it]  1%|          | 502/61904 [11:30<23:33:36,  1.38s/it]  1%|          | 503/61904 [11:31<23:11:38,  1.36s/it]  1%|          | 504/61904 [11:32<23:13:29,  1.36s/it]  1%|          | 505/61904 [11:34<23:48:49,  1.40s/it]  1%|          | 506/61904 [11:35<24:12:24,  1.42s/it]  1%|          | 507/61904 [11:36<23:26:33,  1.37s/it]  1%|          | 508/61904 [11:38<23:23:20,  1.37s/it]  1%|          | 509/61904 [11:39<23:22:36,  1.37s/it]  1%|          | 510/61904 [11:41<23:40:33,  1.39s/it]  1%|          | 511/61904 [11:42<23:59:19,  1.41s/it]  1%|          | 512/61904 [11:43<23:27:47,  1.38s/it]  1%|          | 513/61904 [11:45<24:33:22,  1.44s/it]  1%|          | 514/61904 [11:46<24:27:23,  1.43s/it]  1%|          | 515/61904 [11:48<24:21:17,  1.43s/it]  1%|          | 516/61904 [11:49<24:07:14,  1.41s/it]  1%|          | 517/61904 [11:51<24:32:09,  1.44s/it]  1%|          | 518/61904 [11:52<24:15:23,  1.42s/it]  1%|          | 519/61904 [11:53<23:28:43,  1.38s/it]  1%|          | 520/61904 [11:55<23:24:00,  1.37s/it]                                                      {'loss': 3.2743, 'learning_rate': 1.9948139504732269e-07, 'epoch': 0.13}
+  1%|          | 520/61904 [11:55<23:24:00,  1.37s/it]  1%|          | 521/61904 [11:56<23:14:41,  1.36s/it]  1%|          | 522/61904 [11:57<23:04:14,  1.35s/it]  1%|          | 523/61904 [11:59<24:01:02,  1.41s/it]  1%|          | 524/61904 [12:00<24:06:02,  1.41s/it]  1%|          | 525/61904 [12:02<23:46:39,  1.39s/it]  1%|          | 526/61904 [12:03<23:40:41,  1.39s/it]  1%|          | 527/61904 [12:04<23:56:13,  1.40s/it]  1%|          | 528/61904 [12:06<23:57:33,  1.41s/it]  1%|          | 529/61904 [12:07<23:53:17,  1.40s/it]  1%|          | 530/61904 [12:09<24:26:05,  1.43s/it]  1%|          | 531/61904 [12:10<23:31:17,  1.38s/it]  1%|          | 532/61904 [12:11<23:35:44,  1.38s/it]  1%|          | 533/61904 [12:13<23:20:04,  1.37s/it]  1%|          | 534/61904 [12:14<23:51:36,  1.40s/it]  1%|          | 535/61904 [12:16<23:24:11,  1.37s/it]  1%|          | 536/61904 [12:17<23:25:09,  1.37s/it]  1%|          | 537/61904 [12:18<23:19:35,  1.37s/it]  1%|          | 538/61904 [12:20<23:22:52,  1.37s/it]  1%|          | 539/61904 [12:21<23:06:48,  1.36s/it]  1%|          | 540/61904 [12:22<23:02:28,  1.35s/it]                                                      {'loss': 3.3829, 'learning_rate': 1.9944898223778038e-07, 'epoch': 0.14}
+  1%|          | 540/61904 [12:22<23:02:28,  1.35s/it]  1%|          | 541/61904 [12:24<22:55:01,  1.34s/it]  1%|          | 542/61904 [12:25<22:05:02,  1.30s/it]  1%|          | 543/61904 [12:26<23:11:16,  1.36s/it]  1%|          | 544/61904 [12:28<22:54:36,  1.34s/it]  1%|          | 545/61904 [12:29<23:33:52,  1.38s/it]  1%|          | 546/61904 [12:31<23:51:02,  1.40s/it]  1%|          | 547/61904 [12:32<23:33:17,  1.38s/it]  1%|          | 548/61904 [12:33<22:57:21,  1.35s/it]  1%|          | 549/61904 [12:34<22:50:41,  1.34s/it]  1%|          | 550/61904 [12:36<23:03:23,  1.35s/it]  1%|          | 551/61904 [12:37<22:51:17,  1.34s/it]  1%|          | 552/61904 [12:39<23:05:14,  1.35s/it]  1%|          | 553/61904 [12:40<23:10:36,  1.36s/it]  1%|          | 554/61904 [12:41<23:30:14,  1.38s/it]  1%|          | 555/61904 [12:43<23:47:46,  1.40s/it]  1%|          | 556/61904 [12:44<23:34:27,  1.38s/it]  1%|          | 557/61904 [12:45<23:13:15,  1.36s/it]  1%|          | 558/61904 [12:47<23:08:29,  1.36s/it]  1%|          | 559/61904 [12:48<22:41:02,  1.33s/it]  1%|          | 560/61904 [12:49<22:54:53,  1.34s/it]                                                      {'loss': 3.2859, 'learning_rate': 1.9941656942823804e-07, 'epoch': 0.14}
+  1%|          | 560/61904 [12:49<22:54:53,  1.34s/it]  1%|          | 561/61904 [12:51<22:34:16,  1.32s/it]  1%|          | 562/61904 [12:52<22:41:05,  1.33s/it]  1%|          | 563/61904 [12:53<22:29:02,  1.32s/it]  1%|          | 564/61904 [12:55<23:03:58,  1.35s/it]  1%|          | 565/61904 [12:56<23:50:51,  1.40s/it]  1%|          | 566/61904 [12:58<23:33:34,  1.38s/it]  1%|          | 567/61904 [12:59<23:17:41,  1.37s/it]  1%|          | 568/61904 [13:00<23:23:15,  1.37s/it]  1%|          | 569/61904 [13:02<23:14:27,  1.36s/it]  1%|          | 570/61904 [13:03<23:24:45,  1.37s/it]  1%|          | 571/61904 [13:04<22:31:48,  1.32s/it]  1%|          | 572/61904 [13:06<22:28:55,  1.32s/it]  1%|          | 573/61904 [13:07<22:05:33,  1.30s/it]  1%|          | 574/61904 [13:08<22:02:36,  1.29s/it]  1%|          | 575/61904 [13:10<22:25:26,  1.32s/it]  1%|          | 576/61904 [13:11<22:23:04,  1.31s/it]  1%|          | 577/61904 [13:12<22:22:14,  1.31s/it]  1%|          | 578/61904 [13:13<22:05:12,  1.30s/it]  1%|          | 579/61904 [13:15<22:33:49,  1.32s/it]  1%|          | 580/61904 [13:16<22:42:42,  1.33s/it]                                                      {'loss': 3.2563, 'learning_rate': 1.993841566186957e-07, 'epoch': 0.15}
+  1%|          | 580/61904 [13:16<22:42:42,  1.33s/it]  1%|          | 581/61904 [13:17<22:15:16,  1.31s/it]  1%|          | 582/61904 [13:19<22:04:26,  1.30s/it]  1%|          | 583/61904 [13:20<22:21:50,  1.31s/it]  1%|          | 584/61904 [13:21<22:13:44,  1.31s/it]  1%|          | 585/61904 [13:23<22:49:00,  1.34s/it]  1%|          | 586/61904 [13:24<22:45:25,  1.34s/it]  1%|          | 587/61904 [13:25<23:03:44,  1.35s/it]  1%|          | 588/61904 [13:27<23:20:01,  1.37s/it]  1%|          | 589/61904 [13:28<23:11:08,  1.36s/it]  1%|          | 590/61904 [13:30<24:19:09,  1.43s/it]  1%|          | 591/61904 [13:31<23:42:26,  1.39s/it]  1%|          | 592/61904 [13:32<23:36:06,  1.39s/it]  1%|          | 593/61904 [13:34<23:14:13,  1.36s/it]  1%|          | 594/61904 [13:35<23:26:27,  1.38s/it]  1%|          | 595/61904 [13:37<23:54:38,  1.40s/it]  1%|          | 596/61904 [13:38<23:06:56,  1.36s/it]  1%|          | 597/61904 [13:39<23:08:31,  1.36s/it]  1%|          | 598/61904 [13:41<23:38:20,  1.39s/it]  1%|          | 599/61904 [13:42<24:16:27,  1.43s/it]  1%|          | 600/61904 [13:44<25:06:31,  1.47s/it]                                                      {'loss': 3.2624, 'learning_rate': 1.993517438091534e-07, 'epoch': 0.16}
+  1%|          | 600/61904 [13:44<25:06:31,  1.47s/it]  1%|          | 601/61904 [13:45<24:46:49,  1.46s/it]  1%|          | 602/61904 [13:47<24:02:15,  1.41s/it]  1%|          | 603/61904 [13:48<23:54:04,  1.40s/it]  1%|          | 604/61904 [13:49<23:32:27,  1.38s/it]  1%|          | 605/61904 [13:51<23:17:05,  1.37s/it]  1%|          | 606/61904 [13:52<23:13:51,  1.36s/it]  1%|          | 607/61904 [13:53<23:07:58,  1.36s/it]  1%|          | 608/61904 [13:55<23:15:13,  1.37s/it]  1%|          | 609/61904 [13:56<23:31:24,  1.38s/it]  1%|          | 610/61904 [13:58<24:06:25,  1.42s/it]  1%|          | 611/61904 [13:59<23:45:56,  1.40s/it]  1%|          | 612/61904 [14:00<23:51:59,  1.40s/it]  1%|          | 613/61904 [14:02<22:52:51,  1.34s/it]  1%|          | 614/61904 [14:03<23:33:54,  1.38s/it]  1%|          | 615/61904 [14:04<23:30:14,  1.38s/it]  1%|          | 616/61904 [14:06<24:26:10,  1.44s/it]  1%|          | 617/61904 [14:07<23:40:37,  1.39s/it]  1%|          | 618/61904 [14:09<23:09:47,  1.36s/it]  1%|          | 619/61904 [14:10<23:20:49,  1.37s/it]  1%|          | 620/61904 [14:11<22:40:34,  1.33s/it]                                                      {'loss': 3.3833, 'learning_rate': 1.9931933099961102e-07, 'epoch': 0.16}
+  1%|          | 620/61904 [14:11<22:40:34,  1.33s/it]  1%|          | 621/61904 [14:13<23:11:47,  1.36s/it]  1%|          | 622/61904 [14:14<23:05:22,  1.36s/it]  1%|          | 623/61904 [14:15<22:56:14,  1.35s/it]  1%|          | 624/61904 [14:17<23:03:33,  1.35s/it]  1%|          | 625/61904 [14:18<23:32:24,  1.38s/it]  1%|          | 626/61904 [14:20<23:49:53,  1.40s/it]  1%|          | 627/61904 [14:21<24:16:10,  1.43s/it]  1%|          | 628/61904 [14:22<23:47:14,  1.40s/it]  1%|          | 629/61904 [14:24<24:04:02,  1.41s/it]  1%|          | 630/61904 [14:25<23:54:07,  1.40s/it]  1%|          | 631/61904 [14:27<23:32:24,  1.38s/it]  1%|          | 632/61904 [14:28<23:43:59,  1.39s/it]  1%|          | 633/61904 [14:29<23:12:07,  1.36s/it]  1%|          | 634/61904 [14:31<23:31:25,  1.38s/it]  1%|          | 635/61904 [14:32<23:21:47,  1.37s/it]  1%|          | 636/61904 [14:34<24:02:51,  1.41s/it]  1%|          | 637/61904 [14:35<24:24:34,  1.43s/it]  1%|          | 638/61904 [14:36<24:06:36,  1.42s/it]  1%|          | 639/61904 [14:38<23:30:12,  1.38s/it]  1%|          | 640/61904 [14:39<23:39:53,  1.39s/it]                                                      {'loss': 3.2947, 'learning_rate': 1.992869181900687e-07, 'epoch': 0.17}
+  1%|          | 640/61904 [14:39<23:39:53,  1.39s/it]  1%|          | 641/61904 [14:40<23:35:34,  1.39s/it]  1%|          | 642/61904 [14:42<24:26:47,  1.44s/it]  1%|          | 643/61904 [14:43<24:37:51,  1.45s/it]  1%|          | 644/61904 [14:45<24:07:10,  1.42s/it]  1%|          | 645/61904 [14:46<24:27:43,  1.44s/it]  1%|          | 646/61904 [14:48<25:09:44,  1.48s/it]  1%|          | 647/61904 [14:49<24:32:25,  1.44s/it]  1%|          | 648/61904 [14:51<24:28:46,  1.44s/it]  1%|          | 649/61904 [14:52<24:45:10,  1.45s/it]  1%|          | 650/61904 [14:53<23:52:43,  1.40s/it]  1%|          | 651/61904 [14:55<24:05:41,  1.42s/it]  1%|          | 652/61904 [14:56<24:06:11,  1.42s/it]  1%|          | 653/61904 [14:58<23:47:38,  1.40s/it]  1%|          | 654/61904 [14:59<23:57:32,  1.41s/it]  1%|          | 655/61904 [15:01<24:18:23,  1.43s/it]  1%|          | 656/61904 [15:02<23:25:35,  1.38s/it]  1%|          | 657/61904 [15:03<23:19:00,  1.37s/it]  1%|          | 658/61904 [15:05<23:48:26,  1.40s/it]  1%|          | 659/61904 [15:06<23:28:07,  1.38s/it]  1%|          | 660/61904 [15:07<23:06:34,  1.36s/it]                                                      {'loss': 3.2239, 'learning_rate': 1.9925450538052637e-07, 'epoch': 0.17}
+  1%|          | 660/61904 [15:07<23:06:34,  1.36s/it]  1%|          | 661/61904 [15:09<23:08:28,  1.36s/it]  1%|          | 662/61904 [15:10<22:53:01,  1.35s/it]  1%|          | 663/61904 [15:11<23:26:13,  1.38s/it]  1%|          | 664/61904 [15:13<23:03:47,  1.36s/it]  1%|          | 665/61904 [15:14<23:24:48,  1.38s/it]  1%|          | 666/61904 [15:16<23:41:36,  1.39s/it]  1%|          | 667/61904 [15:17<23:45:01,  1.40s/it]  1%|          | 668/61904 [15:18<23:32:52,  1.38s/it]  1%|          | 669/61904 [15:20<23:38:21,  1.39s/it]  1%|          | 670/61904 [15:21<23:30:52,  1.38s/it]  1%|          | 671/61904 [15:23<23:33:24,  1.38s/it]  1%|          | 672/61904 [15:24<24:22:42,  1.43s/it]  1%|          | 673/61904 [15:25<24:19:35,  1.43s/it]  1%|          | 674/61904 [15:27<24:32:21,  1.44s/it]  1%|          | 675/61904 [15:28<24:38:22,  1.45s/it]  1%|          | 676/61904 [15:30<24:03:13,  1.41s/it]  1%|          | 677/61904 [15:31<23:46:13,  1.40s/it]  1%|          | 678/61904 [15:32<23:32:51,  1.38s/it]  1%|          | 679/61904 [15:34<23:22:21,  1.37s/it]  1%|          | 680/61904 [15:35<22:56:44,  1.35s/it]                                                      {'loss': 3.2292, 'learning_rate': 1.9922209257098403e-07, 'epoch': 0.18}
+  1%|          | 680/61904 [15:35<22:56:44,  1.35s/it]  1%|          | 681/61904 [15:36<23:00:22,  1.35s/it]  1%|          | 682/61904 [15:38<23:08:58,  1.36s/it]  1%|          | 683/61904 [15:39<23:28:18,  1.38s/it]  1%|          | 684/61904 [15:41<23:16:00,  1.37s/it]  1%|          | 685/61904 [15:42<23:40:05,  1.39s/it]  1%|          | 686/61904 [15:43<23:22:35,  1.37s/it]  1%|          | 687/61904 [15:45<23:40:48,  1.39s/it]  1%|          | 688/61904 [15:46<23:34:55,  1.39s/it]  1%|          | 689/61904 [15:48<23:16:29,  1.37s/it]  1%|          | 690/61904 [15:49<23:19:05,  1.37s/it]  1%|          | 691/61904 [15:50<23:32:06,  1.38s/it]  1%|          | 692/61904 [15:52<23:52:08,  1.40s/it]  1%|          | 693/61904 [15:53<23:25:37,  1.38s/it]  1%|          | 694/61904 [15:54<23:05:20,  1.36s/it]  1%|          | 695/61904 [15:56<22:53:30,  1.35s/it]  1%|          | 696/61904 [15:57<23:01:29,  1.35s/it]  1%|          | 697/61904 [15:58<22:32:50,  1.33s/it]  1%|          | 698/61904 [16:00<22:35:31,  1.33s/it]  1%|          | 699/61904 [16:01<22:27:18,  1.32s/it]  1%|          | 700/61904 [16:02<22:34:59,  1.33s/it]                                                      {'loss': 3.2841, 'learning_rate': 1.9918967976144172e-07, 'epoch': 0.18}
+  1%|          | 700/61904 [16:02<22:34:59,  1.33s/it]  1%|          | 701/61904 [16:04<22:56:26,  1.35s/it]  1%|          | 702/61904 [16:05<23:26:06,  1.38s/it]  1%|          | 703/61904 [16:07<24:20:55,  1.43s/it]  1%|          | 704/61904 [16:08<24:03:13,  1.41s/it]  1%|          | 705/61904 [16:10<24:02:03,  1.41s/it]  1%|          | 706/61904 [16:11<24:17:03,  1.43s/it]  1%|          | 707/61904 [16:12<23:47:40,  1.40s/it]  1%|          | 708/61904 [16:14<23:17:06,  1.37s/it]  1%|          | 709/61904 [16:15<23:12:53,  1.37s/it]  1%|          | 710/61904 [16:16<23:00:26,  1.35s/it]  1%|          | 711/61904 [16:18<22:42:09,  1.34s/it]  1%|          | 712/61904 [16:19<23:03:51,  1.36s/it]  1%|          | 713/61904 [16:20<22:50:47,  1.34s/it]  1%|          | 714/61904 [16:22<22:58:51,  1.35s/it]  1%|          | 715/61904 [16:23<23:44:46,  1.40s/it]  1%|          | 716/61904 [16:25<23:53:38,  1.41s/it]  1%|          | 717/61904 [16:26<23:25:49,  1.38s/it]  1%|          | 718/61904 [16:27<23:38:17,  1.39s/it]  1%|          | 719/61904 [16:29<24:16:45,  1.43s/it]  1%|          | 720/61904 [16:30<23:46:15,  1.40s/it]                                                      {'loss': 3.2612, 'learning_rate': 1.9915726695189938e-07, 'epoch': 0.19}
+  1%|          | 720/61904 [16:30<23:46:15,  1.40s/it]  1%|          | 721/61904 [16:32<23:35:17,  1.39s/it]  1%|          | 722/61904 [16:33<23:30:38,  1.38s/it]  1%|          | 723/61904 [16:34<23:44:46,  1.40s/it]  1%|          | 724/61904 [16:36<22:55:38,  1.35s/it]  1%|          | 725/61904 [16:37<23:25:55,  1.38s/it]  1%|          | 726/61904 [16:38<22:50:32,  1.34s/it]  1%|          | 727/61904 [16:40<23:35:03,  1.39s/it]  1%|          | 728/61904 [16:41<23:52:52,  1.41s/it]  1%|          | 729/61904 [16:43<23:40:47,  1.39s/it]  1%|          | 730/61904 [16:44<24:30:15,  1.44s/it]  1%|          | 731/61904 [16:46<24:14:39,  1.43s/it]  1%|          | 732/61904 [16:47<24:08:25,  1.42s/it]  1%|          | 733/61904 [16:48<23:32:28,  1.39s/it]  1%|          | 734/61904 [16:50<23:00:57,  1.35s/it]  1%|          | 735/61904 [16:51<22:39:22,  1.33s/it]  1%|          | 736/61904 [16:52<22:16:37,  1.31s/it]  1%|          | 737/61904 [16:54<23:12:56,  1.37s/it]  1%|          | 738/61904 [16:55<23:27:41,  1.38s/it]  1%|          | 739/61904 [16:56<22:55:39,  1.35s/it]  1%|          | 740/61904 [16:58<22:40:53,  1.33s/it]                                                      {'loss': 3.2516, 'learning_rate': 1.9912485414235705e-07, 'epoch': 0.19}
+  1%|          | 740/61904 [16:58<22:40:53,  1.33s/it]  1%|          | 741/61904 [16:59<23:03:09,  1.36s/it]  1%|          | 742/61904 [17:00<23:07:38,  1.36s/it]  1%|          | 743/61904 [17:02<22:56:22,  1.35s/it]  1%|          | 744/61904 [17:03<23:11:26,  1.37s/it]  1%|          | 745/61904 [17:05<24:47:36,  1.46s/it]  1%|          | 746/61904 [17:06<24:26:02,  1.44s/it]  1%|          | 747/61904 [17:08<25:05:42,  1.48s/it]  1%|          | 748/61904 [17:09<24:38:48,  1.45s/it]  1%|          | 749/61904 [17:11<24:47:20,  1.46s/it]  1%|          | 750/61904 [17:12<24:21:30,  1.43s/it]  1%|          | 751/61904 [17:13<23:33:46,  1.39s/it]  1%|          | 752/61904 [17:15<22:54:27,  1.35s/it]  1%|          | 753/61904 [17:16<22:49:08,  1.34s/it]  1%|          | 754/61904 [17:17<23:11:01,  1.36s/it]  1%|          | 755/61904 [17:19<23:41:33,  1.39s/it]  1%|          | 756/61904 [17:20<23:36:02,  1.39s/it]  1%|          | 757/61904 [17:22<25:41:10,  1.51s/it]  1%|          | 758/61904 [17:23<24:37:12,  1.45s/it]  1%|          | 759/61904 [17:25<24:19:21,  1.43s/it]  1%|          | 760/61904 [17:26<23:44:41,  1.40s/it]                                                      {'loss': 3.2687, 'learning_rate': 1.9909244133281474e-07, 'epoch': 0.2}
+  1%|          | 760/61904 [17:26<23:44:41,  1.40s/it]  1%|          | 761/61904 [17:27<23:52:49,  1.41s/it]  1%|          | 762/61904 [17:29<23:30:44,  1.38s/it]  1%|          | 763/61904 [17:30<23:48:57,  1.40s/it]  1%|          | 764/61904 [17:31<23:32:39,  1.39s/it]  1%|          | 765/61904 [17:33<23:48:00,  1.40s/it]  1%|          | 766/61904 [17:34<23:38:09,  1.39s/it]  1%|          | 767/61904 [17:36<23:25:34,  1.38s/it]  1%|          | 768/61904 [17:37<23:28:03,  1.38s/it]  1%|          | 769/61904 [17:38<23:16:11,  1.37s/it]  1%|          | 770/61904 [17:40<23:50:00,  1.40s/it]  1%|          | 771/61904 [17:41<24:01:40,  1.41s/it]  1%|          | 772/61904 [17:42<23:01:04,  1.36s/it]  1%|          | 773/61904 [17:44<22:32:16,  1.33s/it]  1%|▏         | 774/61904 [17:45<22:02:41,  1.30s/it]  1%|▏         | 775/61904 [17:46<22:31:02,  1.33s/it]  1%|▏         | 776/61904 [17:48<22:08:11,  1.30s/it]  1%|▏         | 777/61904 [17:49<22:09:49,  1.31s/it]  1%|▏         | 778/61904 [17:50<23:10:10,  1.36s/it]  1%|▏         | 779/61904 [17:52<22:28:14,  1.32s/it]  1%|▏         | 780/61904 [17:53<22:57:53,  1.35s/it]                                                      {'loss': 3.196, 'learning_rate': 1.9906002852327237e-07, 'epoch': 0.2}
+  1%|▏         | 780/61904 [17:53<22:57:53,  1.35s/it]  1%|▏         | 781/61904 [17:54<22:55:01,  1.35s/it]  1%|▏         | 782/61904 [17:56<24:01:38,  1.42s/it]  1%|▏         | 783/61904 [17:57<23:50:34,  1.40s/it]  1%|▏         | 784/61904 [17:59<23:32:33,  1.39s/it]  1%|▏         | 785/61904 [18:00<23:38:53,  1.39s/it]  1%|▏         | 786/61904 [18:02<24:08:18,  1.42s/it]  1%|▏         | 787/61904 [18:03<23:19:26,  1.37s/it]  1%|▏         | 788/61904 [18:04<23:21:32,  1.38s/it]  1%|▏         | 789/61904 [18:06<22:55:03,  1.35s/it]  1%|▏         | 790/61904 [18:07<23:14:42,  1.37s/it]  1%|▏         | 791/61904 [18:08<23:15:47,  1.37s/it]  1%|▏         | 792/61904 [18:10<22:55:22,  1.35s/it]  1%|▏         | 793/61904 [18:11<22:36:23,  1.33s/it]  1%|▏         | 794/61904 [18:12<22:29:12,  1.32s/it]  1%|▏         | 795/61904 [18:14<22:48:22,  1.34s/it]  1%|▏         | 796/61904 [18:15<22:13:40,  1.31s/it]  1%|▏         | 797/61904 [18:16<22:23:04,  1.32s/it]  1%|▏         | 798/61904 [18:17<22:18:21,  1.31s/it]  1%|▏         | 799/61904 [18:19<22:09:56,  1.31s/it]  1%|▏         | 800/61904 [18:20<21:53:43,  1.29s/it]                                                      {'loss': 3.2396, 'learning_rate': 1.9902761571373006e-07, 'epoch': 0.21}
+  1%|▏         | 800/61904 [18:20<21:53:43,  1.29s/it]  1%|▏         | 801/61904 [18:21<22:19:45,  1.32s/it]  1%|▏         | 802/61904 [18:23<23:28:20,  1.38s/it]  1%|▏         | 803/61904 [18:24<23:02:36,  1.36s/it]  1%|▏         | 804/61904 [18:26<23:17:56,  1.37s/it]  1%|▏         | 805/61904 [18:27<23:41:13,  1.40s/it]  1%|▏         | 806/61904 [18:28<22:44:47,  1.34s/it]  1%|▏         | 807/61904 [18:30<23:36:38,  1.39s/it]  1%|▏         | 808/61904 [18:31<24:09:15,  1.42s/it]  1%|▏         | 809/61904 [18:33<24:04:43,  1.42s/it]  1%|▏         | 810/61904 [18:34<23:32:02,  1.39s/it]  1%|▏         | 811/61904 [18:35<23:31:05,  1.39s/it]  1%|▏         | 812/61904 [18:37<23:27:58,  1.38s/it]  1%|▏         | 813/61904 [18:38<23:19:28,  1.37s/it]  1%|▏         | 814/61904 [18:40<23:15:09,  1.37s/it]  1%|▏         | 815/61904 [18:41<23:33:45,  1.39s/it]  1%|▏         | 816/61904 [18:42<23:26:45,  1.38s/it]  1%|▏         | 817/61904 [18:44<23:05:55,  1.36s/it]  1%|▏         | 818/61904 [18:45<22:49:40,  1.35s/it]  1%|▏         | 819/61904 [18:46<22:44:56,  1.34s/it]  1%|▏         | 820/61904 [18:48<23:12:58,  1.37s/it]                                                      {'loss': 3.2147, 'learning_rate': 1.9899520290418775e-07, 'epoch': 0.21}
+  1%|▏         | 820/61904 [18:48<23:12:58,  1.37s/it]  1%|▏         | 821/61904 [18:49<23:02:55,  1.36s/it]  1%|▏         | 822/61904 [18:50<22:54:11,  1.35s/it]  1%|▏         | 823/61904 [18:52<23:03:39,  1.36s/it]  1%|▏         | 824/61904 [18:53<22:45:17,  1.34s/it]  1%|▏         | 825/61904 [18:54<23:11:44,  1.37s/it]  1%|▏         | 826/61904 [18:56<23:17:32,  1.37s/it]  1%|▏         | 827/61904 [18:57<23:49:04,  1.40s/it]  1%|▏         | 828/61904 [18:59<23:22:25,  1.38s/it]  1%|▏         | 829/61904 [19:00<23:26:56,  1.38s/it]  1%|▏         | 830/61904 [19:01<22:50:52,  1.35s/it]  1%|▏         | 831/61904 [19:03<22:56:03,  1.35s/it]  1%|▏         | 832/61904 [19:04<23:28:07,  1.38s/it]  1%|▏         | 833/61904 [19:06<24:46:02,  1.46s/it]  1%|▏         | 834/61904 [19:07<24:21:13,  1.44s/it]  1%|▏         | 835/61904 [19:09<25:01:53,  1.48s/it]  1%|▏         | 836/61904 [19:10<24:42:20,  1.46s/it]  1%|▏         | 837/61904 [19:12<24:56:06,  1.47s/it]  1%|▏         | 838/61904 [19:13<23:44:43,  1.40s/it]  1%|▏         | 839/61904 [19:14<23:26:13,  1.38s/it]  1%|▏         | 840/61904 [19:16<24:33:44,  1.45s/it]                                                      {'loss': 3.1813, 'learning_rate': 1.9896279009464538e-07, 'epoch': 0.22}
+  1%|▏         | 840/61904 [19:16<24:33:44,  1.45s/it]  1%|▏         | 841/61904 [19:17<24:02:39,  1.42s/it]  1%|▏         | 842/61904 [19:19<23:59:48,  1.41s/it]  1%|▏         | 843/61904 [19:20<23:21:46,  1.38s/it]  1%|▏         | 844/61904 [19:21<23:35:39,  1.39s/it]  1%|▏         | 845/61904 [19:23<23:36:29,  1.39s/it]  1%|▏         | 846/61904 [19:24<23:05:21,  1.36s/it]  1%|▏         | 847/61904 [19:25<22:28:15,  1.32s/it]  1%|▏         | 848/61904 [19:27<22:57:27,  1.35s/it]  1%|▏         | 849/61904 [19:28<22:29:25,  1.33s/it]  1%|▏         | 850/61904 [19:29<22:03:42,  1.30s/it]  1%|▏         | 851/61904 [19:31<23:06:21,  1.36s/it]  1%|▏         | 852/61904 [19:32<22:55:47,  1.35s/it]  1%|▏         | 853/61904 [19:33<22:12:37,  1.31s/it]  1%|▏         | 854/61904 [19:35<22:37:54,  1.33s/it]  1%|▏         | 855/61904 [19:36<22:33:15,  1.33s/it]  1%|▏         | 856/61904 [19:37<23:01:25,  1.36s/it]  1%|▏         | 857/61904 [19:39<22:56:14,  1.35s/it]  1%|▏         | 858/61904 [19:40<22:45:39,  1.34s/it]  1%|▏         | 859/61904 [19:41<22:47:39,  1.34s/it]  1%|▏         | 860/61904 [19:43<22:59:56,  1.36s/it]                                                      {'loss': 3.2279, 'learning_rate': 1.9893037728510307e-07, 'epoch': 0.22}
+  1%|▏         | 860/61904 [19:43<22:59:56,  1.36s/it]  1%|▏         | 861/61904 [19:44<23:20:09,  1.38s/it]  1%|▏         | 862/61904 [19:45<23:12:15,  1.37s/it]  1%|▏         | 863/61904 [19:47<23:12:12,  1.37s/it]  1%|▏         | 864/61904 [19:48<22:24:00,  1.32s/it]  1%|▏         | 865/61904 [19:49<22:59:24,  1.36s/it]  1%|▏         | 866/61904 [19:51<23:29:38,  1.39s/it]  1%|▏         | 867/61904 [19:52<23:27:09,  1.38s/it]  1%|▏         | 868/61904 [19:54<22:54:31,  1.35s/it]  1%|▏         | 869/61904 [19:55<23:19:50,  1.38s/it]  1%|▏         | 870/61904 [19:56<23:02:11,  1.36s/it]  1%|▏         | 871/61904 [19:58<23:05:56,  1.36s/it]  1%|▏         | 872/61904 [19:59<23:37:31,  1.39s/it]  1%|▏         | 873/61904 [20:00<23:09:21,  1.37s/it]  1%|▏         | 874/61904 [20:02<22:52:06,  1.35s/it]  1%|▏         | 875/61904 [20:03<24:18:33,  1.43s/it]  1%|▏         | 876/61904 [20:05<24:08:18,  1.42s/it]  1%|▏         | 877/61904 [20:06<23:54:57,  1.41s/it]  1%|▏         | 878/61904 [20:07<23:09:16,  1.37s/it]  1%|▏         | 879/61904 [20:09<23:07:59,  1.36s/it]  1%|▏         | 880/61904 [20:10<23:38:59,  1.40s/it]                                                      {'loss': 3.2183, 'learning_rate': 1.9889796447556073e-07, 'epoch': 0.23}
+  1%|▏         | 880/61904 [20:10<23:38:59,  1.40s/it]  1%|▏         | 881/61904 [20:12<23:22:22,  1.38s/it]  1%|▏         | 882/61904 [20:13<24:02:30,  1.42s/it]  1%|▏         | 883/61904 [20:15<24:19:06,  1.43s/it]  1%|▏         | 884/61904 [20:16<23:32:26,  1.39s/it]  1%|▏         | 885/61904 [20:17<23:27:56,  1.38s/it]  1%|▏         | 886/61904 [20:19<23:04:32,  1.36s/it]  1%|▏         | 887/61904 [20:20<23:15:32,  1.37s/it]  1%|▏         | 888/61904 [20:21<23:04:54,  1.36s/it]  1%|▏         | 889/61904 [20:23<22:51:03,  1.35s/it]  1%|▏         | 890/61904 [20:24<22:44:09,  1.34s/it]  1%|▏         | 891/61904 [20:25<22:59:12,  1.36s/it]  1%|▏         | 892/61904 [20:27<23:16:12,  1.37s/it]  1%|▏         | 893/61904 [20:28<23:29:04,  1.39s/it]  1%|▏         | 894/61904 [20:30<23:39:10,  1.40s/it]  1%|▏         | 895/61904 [20:31<24:13:35,  1.43s/it]  1%|▏         | 896/61904 [20:32<23:08:56,  1.37s/it]  1%|▏         | 897/61904 [20:34<23:11:06,  1.37s/it]  1%|▏         | 898/61904 [20:35<22:46:01,  1.34s/it]  1%|▏         | 899/61904 [20:36<23:02:39,  1.36s/it]  1%|▏         | 900/61904 [20:38<23:11:30,  1.37s/it]                                                      {'loss': 3.2086, 'learning_rate': 1.988655516660184e-07, 'epoch': 0.23}
+  1%|▏         | 900/61904 [20:38<23:11:30,  1.37s/it]  1%|▏         | 901/61904 [20:39<23:18:33,  1.38s/it]  1%|▏         | 902/61904 [20:41<23:49:20,  1.41s/it]  1%|▏         | 903/61904 [20:42<23:33:40,  1.39s/it]  1%|▏         | 904/61904 [20:43<23:16:27,  1.37s/it]  1%|▏         | 905/61904 [20:45<24:23:49,  1.44s/it]  1%|▏         | 906/61904 [20:46<24:49:42,  1.47s/it]  1%|▏         | 907/61904 [20:48<24:48:23,  1.46s/it]  1%|▏         | 908/61904 [20:49<23:32:04,  1.39s/it]  1%|▏         | 909/61904 [20:51<24:08:09,  1.42s/it]  1%|▏         | 910/61904 [20:52<24:00:58,  1.42s/it]  1%|▏         | 911/61904 [20:53<24:11:13,  1.43s/it]  1%|▏         | 912/61904 [20:55<23:36:59,  1.39s/it]  1%|▏         | 913/61904 [20:56<23:25:47,  1.38s/it]  1%|▏         | 914/61904 [20:58<23:50:24,  1.41s/it]  1%|▏         | 915/61904 [20:59<24:11:58,  1.43s/it]  1%|▏         | 916/61904 [21:00<24:00:49,  1.42s/it]  1%|▏         | 917/61904 [21:02<23:24:15,  1.38s/it]  1%|▏         | 918/61904 [21:03<23:26:04,  1.38s/it]  1%|▏         | 919/61904 [21:05<24:17:18,  1.43s/it]  1%|▏         | 920/61904 [21:06<23:54:33,  1.41s/it]                                                      {'loss': 3.1735, 'learning_rate': 1.9883313885647608e-07, 'epoch': 0.24}
+  1%|▏         | 920/61904 [21:06<23:54:33,  1.41s/it]  1%|▏         | 921/61904 [21:07<23:03:26,  1.36s/it]  1%|▏         | 922/61904 [21:09<23:11:32,  1.37s/it]  1%|▏         | 923/61904 [21:10<22:33:21,  1.33s/it]  1%|▏         | 924/61904 [21:11<22:46:26,  1.34s/it]  1%|▏         | 925/61904 [21:13<22:08:49,  1.31s/it]  1%|▏         | 926/61904 [21:14<22:50:15,  1.35s/it]  1%|▏         | 927/61904 [21:15<22:44:35,  1.34s/it]  1%|▏         | 928/61904 [21:17<22:18:33,  1.32s/it]  2%|▏         | 929/61904 [21:18<22:20:06,  1.32s/it]  2%|▏         | 930/61904 [21:19<22:17:15,  1.32s/it]  2%|▏         | 931/61904 [21:21<22:19:53,  1.32s/it]  2%|▏         | 932/61904 [21:22<22:13:18,  1.31s/it]  2%|▏         | 933/61904 [21:23<22:45:51,  1.34s/it]  2%|▏         | 934/61904 [21:24<21:54:55,  1.29s/it]  2%|▏         | 935/61904 [21:26<22:10:16,  1.31s/it]  2%|▏         | 936/61904 [21:27<22:30:02,  1.33s/it]  2%|▏         | 937/61904 [21:29<22:51:05,  1.35s/it]  2%|▏         | 938/61904 [21:30<22:58:36,  1.36s/it]  2%|▏         | 939/61904 [21:31<22:42:13,  1.34s/it]  2%|▏         | 940/61904 [21:32<22:11:17,  1.31s/it]                                                      {'loss': 3.2435, 'learning_rate': 1.9880072604693374e-07, 'epoch': 0.24}
+  2%|▏         | 940/61904 [21:32<22:11:17,  1.31s/it]  2%|▏         | 941/61904 [21:34<21:55:21,  1.29s/it]  2%|▏         | 942/61904 [21:35<22:06:32,  1.31s/it]  2%|▏         | 943/61904 [21:36<21:52:33,  1.29s/it]  2%|▏         | 944/61904 [21:38<21:57:30,  1.30s/it]  2%|▏         | 945/61904 [21:39<22:25:34,  1.32s/it]  2%|▏         | 946/61904 [21:40<22:50:58,  1.35s/it]  2%|▏         | 947/61904 [21:42<22:36:26,  1.34s/it]  2%|▏         | 948/61904 [21:43<22:37:49,  1.34s/it]  2%|▏         | 949/61904 [21:44<22:31:18,  1.33s/it]  2%|▏         | 950/61904 [21:46<24:22:37,  1.44s/it]  2%|▏         | 951/61904 [21:48<24:40:52,  1.46s/it]  2%|▏         | 952/61904 [21:49<23:56:10,  1.41s/it]  2%|▏         | 953/61904 [21:50<24:31:43,  1.45s/it]  2%|▏         | 954/61904 [21:52<24:45:06,  1.46s/it]  2%|▏         | 955/61904 [21:53<23:55:36,  1.41s/it]  2%|▏         | 956/61904 [21:54<23:12:01,  1.37s/it]  2%|▏         | 957/61904 [21:56<23:32:53,  1.39s/it]  2%|▏         | 958/61904 [21:57<23:44:18,  1.40s/it]  2%|▏         | 959/61904 [21:59<24:21:18,  1.44s/it]  2%|▏         | 960/61904 [22:00<24:15:55,  1.43s/it]                                                      {'loss': 3.1959, 'learning_rate': 1.987683132373914e-07, 'epoch': 0.25}
+  2%|▏         | 960/61904 [22:00<24:15:55,  1.43s/it]  2%|▏         | 961/61904 [22:02<23:51:51,  1.41s/it]  2%|▏         | 962/61904 [22:03<23:57:59,  1.42s/it]  2%|▏         | 963/61904 [22:04<23:41:42,  1.40s/it]  2%|▏         | 964/61904 [22:06<23:12:55,  1.37s/it]  2%|▏         | 965/61904 [22:07<22:32:06,  1.33s/it]  2%|▏         | 966/61904 [22:08<22:27:21,  1.33s/it]  2%|▏         | 967/61904 [22:10<22:09:31,  1.31s/it]  2%|▏         | 968/61904 [22:11<22:06:51,  1.31s/it]  2%|▏         | 969/61904 [22:12<22:39:48,  1.34s/it]  2%|▏         | 970/61904 [22:14<22:51:03,  1.35s/it]  2%|▏         | 971/61904 [22:15<22:47:46,  1.35s/it]  2%|▏         | 972/61904 [22:16<22:53:59,  1.35s/it]  2%|▏         | 973/61904 [22:18<22:50:17,  1.35s/it]  2%|▏         | 974/61904 [22:19<22:57:32,  1.36s/it]  2%|▏         | 975/61904 [22:20<22:57:43,  1.36s/it]  2%|▏         | 976/61904 [22:22<22:55:35,  1.35s/it]  2%|▏         | 977/61904 [22:23<22:47:01,  1.35s/it]  2%|▏         | 978/61904 [22:25<23:04:09,  1.36s/it]  2%|▏         | 979/61904 [22:26<22:39:14,  1.34s/it]  2%|▏         | 980/61904 [22:27<22:53:27,  1.35s/it]                                                      {'loss': 3.1981, 'learning_rate': 1.987359004278491e-07, 'epoch': 0.25}
+  2%|▏         | 980/61904 [22:27<22:53:27,  1.35s/it]  2%|▏         | 981/61904 [22:28<22:35:43,  1.34s/it]  2%|▏         | 982/61904 [22:30<22:10:50,  1.31s/it]  2%|▏         | 983/61904 [22:31<22:18:19,  1.32s/it]  2%|▏         | 984/61904 [22:32<22:09:19,  1.31s/it]  2%|▏         | 985/61904 [22:34<22:15:04,  1.31s/it]  2%|▏         | 986/61904 [22:35<23:19:43,  1.38s/it]  2%|▏         | 987/61904 [22:36<22:40:04,  1.34s/it]  2%|▏         | 988/61904 [22:38<22:30:17,  1.33s/it]  2%|▏         | 989/61904 [22:39<21:59:30,  1.30s/it]  2%|▏         | 990/61904 [22:40<22:54:40,  1.35s/it]  2%|▏         | 991/61904 [22:42<22:04:00,  1.30s/it]  2%|▏         | 992/61904 [22:43<21:42:02,  1.28s/it]  2%|▏         | 993/61904 [22:44<21:32:23,  1.27s/it]  2%|▏         | 994/61904 [22:45<21:51:15,  1.29s/it]  2%|▏         | 995/61904 [22:47<22:03:30,  1.30s/it]  2%|▏         | 996/61904 [22:48<22:51:44,  1.35s/it]  2%|▏         | 997/61904 [22:50<22:54:42,  1.35s/it]  2%|▏         | 998/61904 [22:51<23:19:11,  1.38s/it]  2%|▏         | 999/61904 [22:53<23:47:34,  1.41s/it]  2%|▏         | 1000/61904 [22:54<23:35:25,  1.39s/it]                                                       {'loss': 3.166, 'learning_rate': 1.9870348761830673e-07, 'epoch': 0.26}
+  2%|▏         | 1000/61904 [22:54<23:35:25,  1.39s/it]  2%|▏         | 1001/61904 [22:55<23:14:11,  1.37s/it]  2%|▏         | 1002/61904 [22:57<23:32:29,  1.39s/it]  2%|▏         | 1003/61904 [22:58<25:26:15,  1.50s/it]  2%|▏         | 1004/61904 [23:00<24:49:29,  1.47s/it]  2%|▏         | 1005/61904 [23:01<24:20:32,  1.44s/it]  2%|▏         | 1006/61904 [23:03<24:02:55,  1.42s/it]  2%|▏         | 1007/61904 [23:04<23:23:23,  1.38s/it]  2%|▏         | 1008/61904 [23:05<23:30:57,  1.39s/it]  2%|▏         | 1009/61904 [23:07<23:50:06,  1.41s/it]  2%|▏         | 1010/61904 [23:08<23:37:39,  1.40s/it]  2%|▏         | 1011/61904 [23:09<22:58:32,  1.36s/it]  2%|▏         | 1012/61904 [23:11<22:29:00,  1.33s/it]  2%|▏         | 1013/61904 [23:12<22:20:29,  1.32s/it]  2%|▏         | 1014/61904 [23:13<22:59:09,  1.36s/it]  2%|▏         | 1015/61904 [23:15<22:41:17,  1.34s/it]  2%|▏         | 1016/61904 [23:16<22:23:02,  1.32s/it]  2%|▏         | 1017/61904 [23:17<22:35:18,  1.34s/it]  2%|▏         | 1018/61904 [23:19<22:18:30,  1.32s/it]  2%|▏         | 1019/61904 [23:20<21:49:15,  1.29s/it]  2%|▏         | 1020/61904 [23:21<22:47:42,  1.35s/it]                                                       {'loss': 3.2563, 'learning_rate': 1.9867107480876442e-07, 'epoch': 0.26}
+  2%|▏         | 1020/61904 [23:21<22:47:42,  1.35s/it]  2%|▏         | 1021/61904 [23:23<23:06:06,  1.37s/it]  2%|▏         | 1022/61904 [23:24<23:25:13,  1.38s/it]  2%|▏         | 1023/61904 [23:25<23:06:15,  1.37s/it]  2%|▏         | 1024/61904 [23:27<23:16:32,  1.38s/it]  2%|▏         | 1025/61904 [23:28<23:06:42,  1.37s/it]  2%|▏         | 1026/61904 [23:30<23:10:26,  1.37s/it]  2%|▏         | 1027/61904 [23:31<22:37:13,  1.34s/it]  2%|▏         | 1028/61904 [23:32<23:23:33,  1.38s/it]  2%|▏         | 1029/61904 [23:34<23:14:05,  1.37s/it]  2%|▏         | 1030/61904 [23:35<22:34:13,  1.33s/it]  2%|▏         | 1031/61904 [23:36<22:24:16,  1.32s/it]  2%|▏         | 1032/61904 [23:38<22:26:35,  1.33s/it]  2%|▏         | 1033/61904 [23:39<22:34:59,  1.34s/it]  2%|▏         | 1034/61904 [23:40<22:55:22,  1.36s/it]  2%|▏         | 1035/61904 [23:42<22:52:49,  1.35s/it]  2%|▏         | 1036/61904 [23:43<22:42:02,  1.34s/it]  2%|▏         | 1037/61904 [23:44<22:44:14,  1.34s/it]  2%|▏         | 1038/61904 [23:46<23:32:23,  1.39s/it]  2%|▏         | 1039/61904 [23:47<23:39:44,  1.40s/it]  2%|▏         | 1040/61904 [23:49<23:11:36,  1.37s/it]                                                       {'loss': 3.1861, 'learning_rate': 1.9863866199922208e-07, 'epoch': 0.27}
+  2%|▏         | 1040/61904 [23:49<23:11:36,  1.37s/it]  2%|▏         | 1041/61904 [23:50<22:46:43,  1.35s/it]  2%|▏         | 1042/61904 [23:51<22:43:56,  1.34s/it]  2%|▏         | 1043/61904 [23:53<22:53:57,  1.35s/it]  2%|▏         | 1044/61904 [23:54<23:12:25,  1.37s/it]  2%|▏         | 1045/61904 [23:55<23:30:42,  1.39s/it]  2%|▏         | 1046/61904 [23:57<23:58:04,  1.42s/it]  2%|▏         | 1047/61904 [23:58<23:37:52,  1.40s/it]  2%|▏         | 1048/61904 [24:00<23:16:44,  1.38s/it]  2%|▏         | 1049/61904 [24:01<22:48:59,  1.35s/it]  2%|▏         | 1050/61904 [24:02<21:56:31,  1.30s/it]  2%|▏         | 1051/61904 [24:03<22:18:57,  1.32s/it]  2%|▏         | 1052/61904 [24:05<22:55:19,  1.36s/it]  2%|▏         | 1053/61904 [24:06<22:51:38,  1.35s/it]  2%|▏         | 1054/61904 [24:07<22:35:14,  1.34s/it]  2%|▏         | 1055/61904 [24:09<22:52:56,  1.35s/it]  2%|▏         | 1056/61904 [24:10<22:40:14,  1.34s/it]  2%|▏         | 1057/61904 [24:12<22:41:45,  1.34s/it]  2%|▏         | 1058/61904 [24:13<23:00:38,  1.36s/it]  2%|▏         | 1059/61904 [24:14<23:16:15,  1.38s/it]  2%|▏         | 1060/61904 [24:16<23:41:26,  1.40s/it]                                                       {'loss': 3.1872, 'learning_rate': 1.9860624918967974e-07, 'epoch': 0.27}
+  2%|▏         | 1060/61904 [24:16<23:41:26,  1.40s/it]  2%|▏         | 1061/61904 [24:17<23:37:35,  1.40s/it]  2%|▏         | 1062/61904 [24:19<23:09:09,  1.37s/it]  2%|▏         | 1063/61904 [24:20<23:37:26,  1.40s/it]  2%|▏         | 1064/61904 [24:21<22:52:03,  1.35s/it]  2%|▏         | 1065/61904 [24:23<22:40:09,  1.34s/it]  2%|▏         | 1066/61904 [24:24<23:03:25,  1.36s/it]  2%|▏         | 1067/61904 [24:25<22:50:49,  1.35s/it]  2%|▏         | 1068/61904 [24:27<23:34:40,  1.40s/it]  2%|▏         | 1069/61904 [24:28<23:35:59,  1.40s/it]  2%|▏         | 1070/61904 [24:30<23:31:27,  1.39s/it]  2%|▏         | 1071/61904 [24:31<24:30:43,  1.45s/it]  2%|▏         | 1072/61904 [24:32<23:22:53,  1.38s/it]  2%|▏         | 1073/61904 [24:34<23:28:51,  1.39s/it]  2%|▏         | 1074/61904 [24:35<24:09:57,  1.43s/it]  2%|▏         | 1075/61904 [24:37<23:28:56,  1.39s/it]  2%|▏         | 1076/61904 [24:38<23:15:22,  1.38s/it]  2%|▏         | 1077/61904 [24:39<23:31:56,  1.39s/it]  2%|▏         | 1078/61904 [24:41<22:49:34,  1.35s/it]  2%|▏         | 1079/61904 [24:42<22:59:41,  1.36s/it]  2%|▏         | 1080/61904 [24:43<22:35:15,  1.34s/it]                                                       {'loss': 3.1865, 'learning_rate': 1.9857383638013743e-07, 'epoch': 0.28}
+  2%|▏         | 1080/61904 [24:43<22:35:15,  1.34s/it]  2%|▏         | 1081/61904 [24:45<23:02:27,  1.36s/it]  2%|▏         | 1082/61904 [24:46<23:04:58,  1.37s/it]  2%|▏         | 1083/61904 [24:47<22:49:23,  1.35s/it]  2%|▏         | 1084/61904 [24:49<22:15:08,  1.32s/it]  2%|▏         | 1085/61904 [24:50<22:36:20,  1.34s/it]  2%|▏         | 1086/61904 [24:51<22:21:26,  1.32s/it]  2%|▏         | 1087/61904 [24:53<22:06:25,  1.31s/it]  2%|▏         | 1088/61904 [24:54<22:26:51,  1.33s/it]  2%|▏         | 1089/61904 [24:55<22:13:54,  1.32s/it]  2%|▏         | 1090/61904 [24:57<23:15:57,  1.38s/it]  2%|▏         | 1091/61904 [24:58<23:09:00,  1.37s/it]  2%|▏         | 1092/61904 [25:00<23:31:17,  1.39s/it]  2%|▏         | 1093/61904 [25:01<22:49:17,  1.35s/it]  2%|▏         | 1094/61904 [25:02<23:12:27,  1.37s/it]  2%|▏         | 1095/61904 [25:04<23:17:34,  1.38s/it]  2%|▏         | 1096/61904 [25:05<23:25:42,  1.39s/it]  2%|▏         | 1097/61904 [25:06<22:55:03,  1.36s/it]  2%|▏         | 1098/61904 [25:08<23:09:12,  1.37s/it]  2%|▏         | 1099/61904 [25:09<23:52:37,  1.41s/it]  2%|▏         | 1100/61904 [25:11<23:33:03,  1.39s/it]                                                       {'loss': 3.2557, 'learning_rate': 1.985414235705951e-07, 'epoch': 0.28}
+  2%|▏         | 1100/61904 [25:11<23:33:03,  1.39s/it]  2%|▏         | 1101/61904 [25:12<23:41:38,  1.40s/it]  2%|▏         | 1102/61904 [25:13<23:21:16,  1.38s/it]  2%|▏         | 1103/61904 [25:15<22:37:54,  1.34s/it]  2%|▏         | 1104/61904 [25:16<22:27:21,  1.33s/it]  2%|▏         | 1105/61904 [25:17<22:42:20,  1.34s/it]  2%|▏         | 1106/61904 [25:19<23:19:03,  1.38s/it]  2%|▏         | 1107/61904 [25:20<23:48:55,  1.41s/it]  2%|▏         | 1108/61904 [25:22<23:32:43,  1.39s/it]  2%|▏         | 1109/61904 [25:23<23:12:24,  1.37s/it]  2%|▏         | 1110/61904 [25:24<22:50:23,  1.35s/it]  2%|▏         | 1111/61904 [25:26<23:25:26,  1.39s/it]  2%|▏         | 1112/61904 [25:27<23:12:02,  1.37s/it]  2%|▏         | 1113/61904 [25:28<23:09:41,  1.37s/it]  2%|▏         | 1114/61904 [25:30<23:36:50,  1.40s/it]  2%|▏         | 1115/61904 [25:31<24:29:34,  1.45s/it]  2%|▏         | 1116/61904 [25:33<24:08:27,  1.43s/it]  2%|▏         | 1117/61904 [25:34<23:47:09,  1.41s/it]  2%|▏         | 1118/61904 [25:36<23:21:39,  1.38s/it]  2%|▏         | 1119/61904 [25:37<23:32:07,  1.39s/it]  2%|▏         | 1120/61904 [25:38<23:48:24,  1.41s/it]                                                       {'loss': 3.1534, 'learning_rate': 1.9850901076105275e-07, 'epoch': 0.29}
+  2%|▏         | 1120/61904 [25:38<23:48:24,  1.41s/it]  2%|▏         | 1121/61904 [25:40<22:55:57,  1.36s/it]  2%|▏         | 1122/61904 [25:41<23:54:23,  1.42s/it]  2%|▏         | 1123/61904 [25:43<23:55:48,  1.42s/it]  2%|▏         | 1124/61904 [25:44<23:55:32,  1.42s/it]  2%|▏         | 1125/61904 [25:45<24:19:20,  1.44s/it]  2%|▏         | 1126/61904 [25:47<24:08:55,  1.43s/it]  2%|▏         | 1127/61904 [25:48<23:17:05,  1.38s/it]  2%|▏         | 1128/61904 [25:50<23:16:24,  1.38s/it]  2%|▏         | 1129/61904 [25:51<23:49:36,  1.41s/it]  2%|▏         | 1130/61904 [25:52<23:58:02,  1.42s/it]  2%|▏         | 1131/61904 [25:54<23:54:37,  1.42s/it]  2%|▏         | 1132/61904 [25:55<23:57:58,  1.42s/it]  2%|▏         | 1133/61904 [25:57<23:39:28,  1.40s/it]  2%|▏         | 1134/61904 [25:58<23:21:38,  1.38s/it]  2%|▏         | 1135/61904 [25:59<23:13:38,  1.38s/it]  2%|▏         | 1136/61904 [26:01<22:45:16,  1.35s/it]  2%|▏         | 1137/61904 [26:02<22:30:22,  1.33s/it]  2%|▏         | 1138/61904 [26:03<22:55:10,  1.36s/it]  2%|▏         | 1139/61904 [26:05<22:43:32,  1.35s/it]  2%|▏         | 1140/61904 [26:06<22:52:02,  1.35s/it]                                                       {'loss': 3.2257, 'learning_rate': 1.9847659795151044e-07, 'epoch': 0.29}
+  2%|▏         | 1140/61904 [26:06<22:52:02,  1.35s/it]  2%|▏         | 1141/61904 [26:07<22:39:24,  1.34s/it]  2%|▏         | 1142/61904 [26:09<22:48:25,  1.35s/it]  2%|▏         | 1143/61904 [26:10<22:31:46,  1.33s/it]  2%|▏         | 1144/61904 [26:11<22:43:31,  1.35s/it]  2%|▏         | 1145/61904 [26:13<23:00:26,  1.36s/it]  2%|▏         | 1146/61904 [26:14<22:49:07,  1.35s/it]  2%|▏         | 1147/61904 [26:16<23:04:12,  1.37s/it]  2%|▏         | 1148/61904 [26:17<22:46:19,  1.35s/it]  2%|▏         | 1149/61904 [26:18<23:02:06,  1.36s/it]  2%|▏         | 1150/61904 [26:20<23:02:32,  1.37s/it]  2%|▏         | 1151/61904 [26:21<22:47:21,  1.35s/it]  2%|▏         | 1152/61904 [26:22<23:01:21,  1.36s/it]  2%|▏         | 1153/61904 [26:24<22:49:25,  1.35s/it]  2%|▏         | 1154/61904 [26:25<22:30:24,  1.33s/it]  2%|▏         | 1155/61904 [26:26<22:42:37,  1.35s/it]  2%|▏         | 1156/61904 [26:28<22:23:24,  1.33s/it]  2%|▏         | 1157/61904 [26:29<22:56:23,  1.36s/it]  2%|▏         | 1158/61904 [26:30<23:26:56,  1.39s/it]  2%|▏         | 1159/61904 [26:32<23:44:54,  1.41s/it]  2%|▏         | 1160/61904 [26:33<23:11:06,  1.37s/it]                                                       {'loss': 3.2544, 'learning_rate': 1.984441851419681e-07, 'epoch': 0.3}
+  2%|▏         | 1160/61904 [26:33<23:11:06,  1.37s/it]  2%|▏         | 1161/61904 [26:35<25:12:23,  1.49s/it]  2%|▏         | 1162/61904 [26:36<24:56:08,  1.48s/it]  2%|▏         | 1163/61904 [26:38<24:00:39,  1.42s/it]  2%|▏         | 1164/61904 [26:39<23:39:52,  1.40s/it]  2%|▏         | 1165/61904 [26:40<23:33:28,  1.40s/it]  2%|▏         | 1166/61904 [26:42<23:56:38,  1.42s/it]  2%|▏         | 1167/61904 [26:43<23:11:11,  1.37s/it]  2%|▏         | 1168/61904 [26:45<22:58:27,  1.36s/it]  2%|▏         | 1169/61904 [26:46<23:18:31,  1.38s/it]  2%|▏         | 1170/61904 [26:47<23:03:47,  1.37s/it]  2%|▏         | 1171/61904 [26:49<24:00:25,  1.42s/it]  2%|▏         | 1172/61904 [26:50<23:51:52,  1.41s/it]  2%|▏         | 1173/61904 [26:52<23:40:09,  1.40s/it]  2%|▏         | 1174/61904 [26:53<23:41:44,  1.40s/it]  2%|▏         | 1175/61904 [26:54<23:28:19,  1.39s/it]  2%|▏         | 1176/61904 [26:56<24:23:21,  1.45s/it]  2%|▏         | 1177/61904 [26:57<23:33:33,  1.40s/it]  2%|▏         | 1178/61904 [26:59<23:35:04,  1.40s/it]  2%|▏         | 1179/61904 [27:00<23:26:27,  1.39s/it]  2%|▏         | 1180/61904 [27:02<24:14:25,  1.44s/it]                                                       {'loss': 3.1723, 'learning_rate': 1.9841177233242577e-07, 'epoch': 0.3}
+  2%|▏         | 1180/61904 [27:02<24:14:25,  1.44s/it]  2%|▏         | 1181/61904 [27:03<24:04:36,  1.43s/it]  2%|▏         | 1182/61904 [27:04<23:16:29,  1.38s/it]  2%|▏         | 1183/61904 [27:06<22:53:19,  1.36s/it]  2%|▏         | 1184/61904 [27:07<24:11:31,  1.43s/it]  2%|▏         | 1185/61904 [27:09<24:13:28,  1.44s/it]  2%|▏         | 1186/61904 [27:10<23:09:24,  1.37s/it]  2%|▏         | 1187/61904 [27:11<22:53:09,  1.36s/it]  2%|▏         | 1188/61904 [27:12<22:32:41,  1.34s/it]  2%|▏         | 1189/61904 [27:14<23:01:51,  1.37s/it]  2%|▏         | 1190/61904 [27:15<23:06:40,  1.37s/it]  2%|▏         | 1191/61904 [27:17<23:41:57,  1.41s/it]  2%|▏         | 1192/61904 [27:18<24:33:53,  1.46s/it]  2%|▏         | 1193/61904 [27:20<24:01:45,  1.42s/it]  2%|▏         | 1194/61904 [27:21<23:50:29,  1.41s/it]  2%|▏         | 1195/61904 [27:22<23:12:38,  1.38s/it]  2%|▏         | 1196/61904 [27:24<23:05:38,  1.37s/it]  2%|▏         | 1197/61904 [27:25<23:23:28,  1.39s/it]  2%|▏         | 1198/61904 [27:27<23:35:42,  1.40s/it]  2%|▏         | 1199/61904 [27:28<23:19:05,  1.38s/it]  2%|▏         | 1200/61904 [27:30<24:28:40,  1.45s/it]                                                       {'loss': 3.2413, 'learning_rate': 1.9837935952288345e-07, 'epoch': 0.31}
+  2%|▏         | 1200/61904 [27:30<24:28:40,  1.45s/it]  2%|▏         | 1201/61904 [27:31<24:09:52,  1.43s/it]  2%|▏         | 1202/61904 [27:32<23:34:09,  1.40s/it]  2%|▏         | 1203/61904 [27:34<24:25:31,  1.45s/it]  2%|▏         | 1204/61904 [27:35<23:47:06,  1.41s/it]  2%|▏         | 1205/61904 [27:36<23:01:56,  1.37s/it]  2%|▏         | 1206/61904 [27:38<23:07:56,  1.37s/it]  2%|▏         | 1207/61904 [27:39<22:46:46,  1.35s/it]  2%|▏         | 1208/61904 [27:41<24:05:44,  1.43s/it]  2%|▏         | 1209/61904 [27:42<23:33:19,  1.40s/it]  2%|▏         | 1210/61904 [27:43<23:13:03,  1.38s/it]  2%|▏         | 1211/61904 [27:45<23:11:21,  1.38s/it]  2%|▏         | 1212/61904 [27:46<22:48:45,  1.35s/it]  2%|▏         | 1213/61904 [27:47<22:11:54,  1.32s/it]  2%|▏         | 1214/61904 [27:49<22:58:57,  1.36s/it]  2%|▏         | 1215/61904 [27:50<22:51:30,  1.36s/it]  2%|▏         | 1216/61904 [27:51<23:04:12,  1.37s/it]  2%|▏         | 1217/61904 [27:53<24:20:20,  1.44s/it]  2%|▏         | 1218/61904 [27:54<24:15:23,  1.44s/it]  2%|▏         | 1219/61904 [27:56<23:36:49,  1.40s/it]  2%|▏         | 1220/61904 [27:57<23:02:44,  1.37s/it]                                                       {'loss': 3.1966, 'learning_rate': 1.983469467133411e-07, 'epoch': 0.32}
+  2%|▏         | 1220/61904 [27:57<23:02:44,  1.37s/it]  2%|▏         | 1221/61904 [27:58<22:22:32,  1.33s/it]  2%|▏         | 1222/61904 [28:00<22:36:04,  1.34s/it]  2%|▏         | 1223/61904 [28:01<22:34:20,  1.34s/it]  2%|▏         | 1224/61904 [28:02<22:54:33,  1.36s/it]  2%|▏         | 1225/61904 [28:04<22:45:44,  1.35s/it]  2%|▏         | 1226/61904 [28:05<22:58:03,  1.36s/it]  2%|▏         | 1227/61904 [28:07<23:08:06,  1.37s/it]  2%|▏         | 1228/61904 [28:08<23:09:24,  1.37s/it]  2%|▏         | 1229/61904 [28:09<22:52:17,  1.36s/it]  2%|▏         | 1230/61904 [28:10<21:53:21,  1.30s/it]  2%|▏         | 1231/61904 [28:12<22:20:21,  1.33s/it]  2%|▏         | 1232/61904 [28:13<22:18:18,  1.32s/it]  2%|▏         | 1233/61904 [28:14<22:21:42,  1.33s/it]  2%|▏         | 1234/61904 [28:16<22:33:00,  1.34s/it]  2%|▏         | 1235/61904 [28:17<22:44:10,  1.35s/it]  2%|▏         | 1236/61904 [28:19<22:43:50,  1.35s/it]  2%|▏         | 1237/61904 [28:20<23:14:19,  1.38s/it]  2%|▏         | 1238/61904 [28:21<22:58:05,  1.36s/it]  2%|▏         | 1239/61904 [28:23<24:03:40,  1.43s/it]  2%|▏         | 1240/61904 [28:24<23:31:29,  1.40s/it]                                                       {'loss': 3.1888, 'learning_rate': 1.9831453390379878e-07, 'epoch': 0.32}
+  2%|▏         | 1240/61904 [28:24<23:31:29,  1.40s/it]  2%|▏         | 1241/61904 [28:25<22:42:27,  1.35s/it]  2%|▏         | 1242/61904 [28:27<23:19:26,  1.38s/it]  2%|▏         | 1243/61904 [28:29<25:05:58,  1.49s/it]  2%|▏         | 1244/61904 [28:30<23:55:41,  1.42s/it]  2%|▏         | 1245/61904 [28:31<23:18:22,  1.38s/it]  2%|▏         | 1246/61904 [28:33<22:59:27,  1.36s/it]  2%|▏         | 1247/61904 [28:34<24:47:13,  1.47s/it]  2%|▏         | 1248/61904 [28:36<24:06:48,  1.43s/it]  2%|▏         | 1249/61904 [28:37<24:11:35,  1.44s/it]  2%|▏         | 1250/61904 [28:38<23:42:37,  1.41s/it]  2%|▏         | 1251/61904 [28:40<23:51:00,  1.42s/it]  2%|▏         | 1252/61904 [28:41<23:12:42,  1.38s/it]  2%|▏         | 1253/61904 [28:43<23:24:22,  1.39s/it]  2%|▏         | 1254/61904 [28:44<23:18:11,  1.38s/it]  2%|▏         | 1255/61904 [28:45<22:55:15,  1.36s/it]  2%|▏         | 1256/61904 [28:47<23:26:14,  1.39s/it]  2%|▏         | 1257/61904 [28:48<23:18:19,  1.38s/it]  2%|▏         | 1258/61904 [28:49<23:13:13,  1.38s/it]  2%|▏         | 1259/61904 [28:51<22:44:15,  1.35s/it]  2%|▏         | 1260/61904 [28:52<23:04:24,  1.37s/it]                                                       {'loss': 3.1284, 'learning_rate': 1.9828212109425644e-07, 'epoch': 0.33}
+  2%|▏         | 1260/61904 [28:52<23:04:24,  1.37s/it]  2%|▏         | 1261/61904 [28:53<22:56:29,  1.36s/it]  2%|▏         | 1262/61904 [28:55<23:10:43,  1.38s/it]  2%|▏         | 1263/61904 [28:56<22:41:19,  1.35s/it]  2%|▏         | 1264/61904 [28:58<22:52:52,  1.36s/it]  2%|▏         | 1265/61904 [28:59<22:41:09,  1.35s/it]  2%|▏         | 1266/61904 [29:00<22:25:47,  1.33s/it]  2%|▏         | 1267/61904 [29:01<22:28:20,  1.33s/it]  2%|▏         | 1268/61904 [29:03<22:38:34,  1.34s/it]  2%|▏         | 1269/61904 [29:04<23:07:29,  1.37s/it]  2%|▏         | 1270/61904 [29:05<22:15:36,  1.32s/it]  2%|▏         | 1271/61904 [29:07<22:01:46,  1.31s/it]  2%|▏         | 1272/61904 [29:08<22:39:33,  1.35s/it]  2%|▏         | 1273/61904 [29:10<22:58:26,  1.36s/it]  2%|▏         | 1274/61904 [29:11<23:20:21,  1.39s/it]  2%|▏         | 1275/61904 [29:12<23:14:26,  1.38s/it]  2%|▏         | 1276/61904 [29:14<23:59:30,  1.42s/it]  2%|▏         | 1277/61904 [29:15<23:58:55,  1.42s/it]  2%|▏         | 1278/61904 [29:17<23:22:26,  1.39s/it]  2%|▏         | 1279/61904 [29:18<22:53:21,  1.36s/it]  2%|▏         | 1280/61904 [29:19<23:06:11,  1.37s/it]                                                       {'loss': 3.2349, 'learning_rate': 1.982497082847141e-07, 'epoch': 0.33}
+  2%|▏         | 1280/61904 [29:19<23:06:11,  1.37s/it]  2%|▏         | 1281/61904 [29:21<23:22:21,  1.39s/it]  2%|▏         | 1282/61904 [29:22<22:29:17,  1.34s/it]  2%|▏         | 1283/61904 [29:23<22:44:20,  1.35s/it]  2%|▏         | 1284/61904 [29:25<22:19:10,  1.33s/it]  2%|▏         | 1285/61904 [29:26<22:20:25,  1.33s/it]  2%|▏         | 1286/61904 [29:27<22:01:35,  1.31s/it]  2%|▏         | 1287/61904 [29:28<21:43:40,  1.29s/it]  2%|▏         | 1288/61904 [29:30<21:38:07,  1.28s/it]  2%|▏         | 1289/61904 [29:31<21:59:11,  1.31s/it]  2%|▏         | 1290/61904 [29:32<22:26:30,  1.33s/it]  2%|▏         | 1291/61904 [29:34<22:41:51,  1.35s/it]  2%|▏         | 1292/61904 [29:35<22:22:16,  1.33s/it]  2%|▏         | 1293/61904 [29:37<22:50:06,  1.36s/it]  2%|▏         | 1294/61904 [29:38<22:42:17,  1.35s/it]  2%|▏         | 1295/61904 [29:39<22:52:47,  1.36s/it]  2%|▏         | 1296/61904 [29:41<23:49:00,  1.41s/it]  2%|▏         | 1297/61904 [29:42<24:13:21,  1.44s/it]  2%|▏         | 1298/61904 [29:44<23:37:55,  1.40s/it]  2%|▏         | 1299/61904 [29:45<23:00:33,  1.37s/it]  2%|▏         | 1300/61904 [29:46<23:36:47,  1.40s/it]                                                       {'loss': 3.1775, 'learning_rate': 1.982172954751718e-07, 'epoch': 0.34}
+  2%|▏         | 1300/61904 [29:46<23:36:47,  1.40s/it]  2%|▏         | 1301/61904 [29:48<22:42:55,  1.35s/it]  2%|▏         | 1302/61904 [29:49<22:28:54,  1.34s/it]  2%|▏         | 1303/61904 [29:50<22:26:42,  1.33s/it]  2%|▏         | 1304/61904 [29:52<22:58:18,  1.36s/it]  2%|▏         | 1305/61904 [29:53<23:03:02,  1.37s/it]  2%|▏         | 1306/61904 [29:54<22:40:15,  1.35s/it]  2%|▏         | 1307/61904 [29:56<22:52:50,  1.36s/it]  2%|▏         | 1308/61904 [29:57<23:31:22,  1.40s/it]  2%|▏         | 1309/61904 [29:59<22:50:08,  1.36s/it]  2%|▏         | 1310/61904 [30:00<23:32:17,  1.40s/it]  2%|▏         | 1311/61904 [30:01<23:19:10,  1.39s/it]  2%|▏         | 1312/61904 [30:03<22:36:01,  1.34s/it]  2%|▏         | 1313/61904 [30:04<22:45:18,  1.35s/it]  2%|▏         | 1314/61904 [30:05<23:15:34,  1.38s/it]  2%|▏         | 1315/61904 [30:07<23:11:15,  1.38s/it]  2%|▏         | 1316/61904 [30:08<22:31:25,  1.34s/it]  2%|▏         | 1317/61904 [30:09<22:41:40,  1.35s/it]  2%|▏         | 1318/61904 [30:11<23:36:54,  1.40s/it]  2%|▏         | 1319/61904 [30:12<22:59:38,  1.37s/it]  2%|▏         | 1320/61904 [30:14<23:16:02,  1.38s/it]                                                       {'loss': 3.1479, 'learning_rate': 1.9818488266562945e-07, 'epoch': 0.34}
+  2%|▏         | 1320/61904 [30:14<23:16:02,  1.38s/it]  2%|▏         | 1321/61904 [30:15<23:04:42,  1.37s/it]  2%|▏         | 1322/61904 [30:16<23:05:53,  1.37s/it]  2%|▏         | 1323/61904 [30:18<22:53:33,  1.36s/it]  2%|▏         | 1324/61904 [30:19<22:45:44,  1.35s/it]  2%|▏         | 1325/61904 [30:20<22:49:01,  1.36s/it]  2%|▏         | 1326/61904 [30:22<22:25:19,  1.33s/it]  2%|▏         | 1327/61904 [30:23<22:30:50,  1.34s/it]  2%|▏         | 1328/61904 [30:24<22:38:52,  1.35s/it]  2%|▏         | 1329/61904 [30:26<22:20:36,  1.33s/it]  2%|▏         | 1330/61904 [30:27<21:53:13,  1.30s/it]  2%|▏         | 1331/61904 [30:28<22:00:27,  1.31s/it]  2%|▏         | 1332/61904 [30:30<22:24:57,  1.33s/it]  2%|▏         | 1333/61904 [30:31<24:16:41,  1.44s/it]  2%|▏         | 1334/61904 [30:33<23:42:23,  1.41s/it]  2%|▏         | 1335/61904 [30:34<23:09:46,  1.38s/it]  2%|▏         | 1336/61904 [30:35<22:53:47,  1.36s/it]  2%|▏         | 1337/61904 [30:37<22:59:16,  1.37s/it]  2%|▏         | 1338/61904 [30:38<22:28:50,  1.34s/it]  2%|▏         | 1339/61904 [30:39<22:27:12,  1.33s/it]  2%|▏         | 1340/61904 [30:41<23:04:13,  1.37s/it]                                                       {'loss': 3.1342, 'learning_rate': 1.9815246985608711e-07, 'epoch': 0.35}
+  2%|▏         | 1340/61904 [30:41<23:04:13,  1.37s/it]  2%|▏         | 1341/61904 [30:42<23:00:06,  1.37s/it]  2%|▏         | 1342/61904 [30:44<23:56:18,  1.42s/it]  2%|▏         | 1343/61904 [30:45<24:05:52,  1.43s/it]  2%|▏         | 1344/61904 [30:47<24:16:58,  1.44s/it]  2%|▏         | 1345/61904 [30:48<23:25:12,  1.39s/it]  2%|▏         | 1346/61904 [30:49<24:13:57,  1.44s/it]  2%|▏         | 1347/61904 [30:51<23:45:58,  1.41s/it]  2%|▏         | 1348/61904 [30:52<23:52:40,  1.42s/it]  2%|▏         | 1349/61904 [30:54<24:27:03,  1.45s/it]  2%|▏         | 1350/61904 [30:55<24:50:57,  1.48s/it]  2%|▏         | 1351/61904 [30:57<23:57:05,  1.42s/it]  2%|▏         | 1352/61904 [30:58<23:16:17,  1.38s/it]  2%|▏         | 1353/61904 [30:59<22:25:15,  1.33s/it]  2%|▏         | 1354/61904 [31:00<22:12:26,  1.32s/it]  2%|▏         | 1355/61904 [31:02<22:36:18,  1.34s/it]  2%|▏         | 1356/61904 [31:03<23:13:57,  1.38s/it]  2%|▏         | 1357/61904 [31:05<23:33:16,  1.40s/it]  2%|▏         | 1358/61904 [31:06<23:40:00,  1.41s/it]  2%|▏         | 1359/61904 [31:07<22:53:29,  1.36s/it]  2%|▏         | 1360/61904 [31:09<23:59:32,  1.43s/it]                                                       {'loss': 3.1436, 'learning_rate': 1.981200570465448e-07, 'epoch': 0.35}
+  2%|▏         | 1360/61904 [31:09<23:59:32,  1.43s/it]  2%|▏         | 1361/61904 [31:10<24:05:51,  1.43s/it]  2%|▏         | 1362/61904 [31:12<23:12:38,  1.38s/it]  2%|▏         | 1363/61904 [31:13<23:26:23,  1.39s/it]  2%|▏         | 1364/61904 [31:14<23:20:05,  1.39s/it]  2%|▏         | 1365/61904 [31:16<23:32:58,  1.40s/it]  2%|▏         | 1366/61904 [31:17<23:24:16,  1.39s/it]  2%|▏         | 1367/61904 [31:18<22:46:53,  1.35s/it]  2%|▏         | 1368/61904 [31:20<23:45:01,  1.41s/it]  2%|▏         | 1369/61904 [31:21<23:30:02,  1.40s/it]  2%|▏         | 1370/61904 [31:23<23:12:18,  1.38s/it]  2%|▏         | 1371/61904 [31:24<23:03:54,  1.37s/it]  2%|▏         | 1372/61904 [31:25<22:56:30,  1.36s/it]  2%|▏         | 1373/61904 [31:27<23:19:46,  1.39s/it]  2%|▏         | 1374/61904 [31:28<23:37:45,  1.41s/it]  2%|▏         | 1375/61904 [31:30<23:19:24,  1.39s/it]  2%|▏         | 1376/61904 [31:31<22:56:14,  1.36s/it]  2%|▏         | 1377/61904 [31:32<22:33:45,  1.34s/it]  2%|▏         | 1378/61904 [31:34<22:38:46,  1.35s/it]  2%|▏         | 1379/61904 [31:35<23:05:50,  1.37s/it]  2%|▏         | 1380/61904 [31:36<23:05:48,  1.37s/it]                                                       {'loss': 3.1753, 'learning_rate': 1.9808764423700244e-07, 'epoch': 0.36}
+  2%|▏         | 1380/61904 [31:36<23:05:48,  1.37s/it]  2%|▏         | 1381/61904 [31:38<23:38:18,  1.41s/it]  2%|▏         | 1382/61904 [31:39<23:10:19,  1.38s/it]  2%|▏         | 1383/61904 [31:41<22:58:08,  1.37s/it]  2%|▏         | 1384/61904 [31:42<22:35:46,  1.34s/it]  2%|▏         | 1385/61904 [31:43<22:48:36,  1.36s/it]  2%|▏         | 1386/61904 [31:45<22:53:22,  1.36s/it]  2%|▏         | 1387/61904 [31:46<23:33:26,  1.40s/it]  2%|▏         | 1388/61904 [31:47<23:27:18,  1.40s/it]  2%|▏         | 1389/61904 [31:49<22:47:03,  1.36s/it]  2%|▏         | 1390/61904 [31:50<22:50:47,  1.36s/it]  2%|▏         | 1391/61904 [31:51<22:15:33,  1.32s/it]  2%|▏         | 1392/61904 [31:53<22:14:31,  1.32s/it]  2%|▏         | 1393/61904 [31:54<23:03:28,  1.37s/it]  2%|▏         | 1394/61904 [31:56<23:32:18,  1.40s/it]  2%|▏         | 1395/61904 [31:57<23:29:17,  1.40s/it]  2%|▏         | 1396/61904 [31:58<23:37:46,  1.41s/it]  2%|▏         | 1397/61904 [32:00<23:07:45,  1.38s/it]  2%|▏         | 1398/61904 [32:01<22:50:53,  1.36s/it]  2%|▏         | 1399/61904 [32:02<22:10:54,  1.32s/it]  2%|▏         | 1400/61904 [32:04<22:30:54,  1.34s/it]                                                       {'loss': 3.0928, 'learning_rate': 1.9805523142746013e-07, 'epoch': 0.36}
+  2%|▏         | 1400/61904 [32:04<22:30:54,  1.34s/it]  2%|▏         | 1401/61904 [32:05<22:47:13,  1.36s/it]  2%|▏         | 1402/61904 [32:07<23:14:22,  1.38s/it]  2%|▏         | 1403/61904 [32:08<23:46:43,  1.41s/it]  2%|▏         | 1404/61904 [32:09<23:00:12,  1.37s/it]  2%|▏         | 1405/61904 [32:11<23:35:15,  1.40s/it]  2%|▏         | 1406/61904 [32:12<22:56:46,  1.37s/it]  2%|▏         | 1407/61904 [32:14<23:30:07,  1.40s/it]  2%|▏         | 1408/61904 [32:15<23:28:34,  1.40s/it]  2%|▏         | 1409/61904 [32:16<23:18:14,  1.39s/it]  2%|▏         | 1410/61904 [32:18<22:57:00,  1.37s/it]  2%|▏         | 1411/61904 [32:19<24:10:43,  1.44s/it]  2%|▏         | 1412/61904 [32:21<23:55:31,  1.42s/it]  2%|▏         | 1413/61904 [32:22<22:54:26,  1.36s/it]  2%|▏         | 1414/61904 [32:23<22:13:23,  1.32s/it]  2%|▏         | 1415/61904 [32:24<22:01:43,  1.31s/it]  2%|▏         | 1416/61904 [32:26<22:42:36,  1.35s/it]  2%|▏         | 1417/61904 [32:27<22:16:27,  1.33s/it]  2%|▏         | 1418/61904 [32:29<22:59:42,  1.37s/it]  2%|▏         | 1419/61904 [32:30<23:00:50,  1.37s/it]  2%|▏         | 1420/61904 [32:31<23:14:47,  1.38s/it]                                                       {'loss': 3.0965, 'learning_rate': 1.9802281861791781e-07, 'epoch': 0.37}
+  2%|▏         | 1420/61904 [32:31<23:14:47,  1.38s/it]  2%|▏         | 1421/61904 [32:33<22:32:38,  1.34s/it]  2%|▏         | 1422/61904 [32:34<22:48:15,  1.36s/it]  2%|▏         | 1423/61904 [32:35<22:31:00,  1.34s/it]  2%|▏         | 1424/61904 [32:37<23:18:04,  1.39s/it]  2%|▏         | 1425/61904 [32:38<22:54:24,  1.36s/it]  2%|▏         | 1426/61904 [32:39<22:40:55,  1.35s/it]  2%|▏         | 1427/61904 [32:41<23:29:10,  1.40s/it]  2%|▏         | 1428/61904 [32:42<22:51:53,  1.36s/it]  2%|▏         | 1429/61904 [32:43<22:43:38,  1.35s/it]  2%|▏         | 1430/61904 [32:45<23:27:37,  1.40s/it]  2%|▏         | 1431/61904 [32:46<23:36:27,  1.41s/it]  2%|▏         | 1432/61904 [32:48<23:28:21,  1.40s/it]  2%|▏         | 1433/61904 [32:49<22:51:39,  1.36s/it]  2%|▏         | 1434/61904 [32:50<22:42:03,  1.35s/it]  2%|▏         | 1435/61904 [32:52<22:54:00,  1.36s/it]  2%|▏         | 1436/61904 [32:53<22:20:02,  1.33s/it]  2%|▏         | 1437/61904 [32:54<22:23:44,  1.33s/it]  2%|▏         | 1438/61904 [32:56<21:58:33,  1.31s/it]  2%|▏         | 1439/61904 [32:57<21:25:41,  1.28s/it]  2%|▏         | 1440/61904 [32:58<21:17:32,  1.27s/it]                                                       {'loss': 3.1065, 'learning_rate': 1.9799040580837545e-07, 'epoch': 0.37}
+  2%|▏         | 1440/61904 [32:58<21:17:32,  1.27s/it]  2%|▏         | 1441/61904 [32:59<21:52:30,  1.30s/it]  2%|▏         | 1442/61904 [33:01<21:44:34,  1.29s/it]  2%|▏         | 1443/61904 [33:02<21:57:54,  1.31s/it]  2%|▏         | 1444/61904 [33:03<21:34:08,  1.28s/it]  2%|▏         | 1445/61904 [33:05<21:23:47,  1.27s/it]  2%|▏         | 1446/61904 [33:06<22:13:20,  1.32s/it]  2%|▏         | 1447/61904 [33:07<22:36:36,  1.35s/it]  2%|▏         | 1448/61904 [33:09<23:42:26,  1.41s/it]  2%|▏         | 1449/61904 [33:10<23:52:58,  1.42s/it]  2%|▏         | 1450/61904 [33:12<23:38:37,  1.41s/it]  2%|▏         | 1451/61904 [33:13<23:10:38,  1.38s/it]  2%|▏         | 1452/61904 [33:14<23:00:50,  1.37s/it]  2%|▏         | 1453/61904 [33:16<22:50:15,  1.36s/it]  2%|▏         | 1454/61904 [33:17<23:57:59,  1.43s/it]  2%|▏         | 1455/61904 [33:19<23:14:43,  1.38s/it]  2%|▏         | 1456/61904 [33:20<23:18:05,  1.39s/it]  2%|▏         | 1457/61904 [33:21<23:22:57,  1.39s/it]  2%|▏         | 1458/61904 [33:23<23:25:33,  1.40s/it]  2%|▏         | 1459/61904 [33:24<23:26:22,  1.40s/it]  2%|▏         | 1460/61904 [33:26<23:07:23,  1.38s/it]                                                       {'loss': 3.1232, 'learning_rate': 1.9795799299883314e-07, 'epoch': 0.38}
+  2%|▏         | 1460/61904 [33:26<23:07:23,  1.38s/it]  2%|▏         | 1461/61904 [33:27<22:44:20,  1.35s/it]  2%|▏         | 1462/61904 [33:28<23:05:12,  1.38s/it]  2%|▏         | 1463/61904 [33:30<23:18:18,  1.39s/it]  2%|▏         | 1464/61904 [33:31<22:30:19,  1.34s/it]  2%|▏         | 1465/61904 [33:32<23:06:12,  1.38s/it]  2%|▏         | 1466/61904 [33:34<22:48:01,  1.36s/it]  2%|▏         | 1467/61904 [33:35<23:30:40,  1.40s/it]  2%|▏         | 1468/61904 [33:37<23:29:40,  1.40s/it]  2%|▏         | 1469/61904 [33:38<23:43:51,  1.41s/it]  2%|▏         | 1470/61904 [33:40<23:50:46,  1.42s/it]  2%|▏         | 1471/61904 [33:41<23:27:20,  1.40s/it]  2%|▏         | 1472/61904 [33:42<23:07:41,  1.38s/it]  2%|▏         | 1473/61904 [33:44<23:00:27,  1.37s/it]  2%|▏         | 1474/61904 [33:45<22:42:25,  1.35s/it]  2%|▏         | 1475/61904 [33:46<22:33:04,  1.34s/it]  2%|▏         | 1476/61904 [33:48<24:24:20,  1.45s/it]  2%|▏         | 1477/61904 [33:49<23:59:49,  1.43s/it]  2%|▏         | 1478/61904 [33:51<23:53:08,  1.42s/it]  2%|▏         | 1479/61904 [33:52<23:16:58,  1.39s/it]  2%|▏         | 1480/61904 [33:53<23:31:28,  1.40s/it]                                                       {'loss': 3.2101, 'learning_rate': 1.979255801892908e-07, 'epoch': 0.38}
+  2%|▏         | 1480/61904 [33:53<23:31:28,  1.40s/it]  2%|▏         | 1481/61904 [33:55<24:04:18,  1.43s/it]  2%|▏         | 1482/61904 [33:56<24:41:19,  1.47s/it]  2%|▏         | 1483/61904 [33:58<24:10:44,  1.44s/it]  2%|▏         | 1484/61904 [33:59<24:00:21,  1.43s/it]  2%|▏         | 1485/61904 [34:01<23:57:42,  1.43s/it]  2%|▏         | 1486/61904 [34:02<23:11:35,  1.38s/it]  2%|▏         | 1487/61904 [34:03<23:17:09,  1.39s/it]  2%|▏         | 1488/61904 [34:05<22:41:28,  1.35s/it]  2%|▏         | 1489/61904 [34:06<23:07:06,  1.38s/it]  2%|▏         | 1490/61904 [34:07<22:52:10,  1.36s/it]  2%|▏         | 1491/61904 [34:09<22:58:34,  1.37s/it]  2%|▏         | 1492/61904 [34:10<22:47:59,  1.36s/it]  2%|▏         | 1493/61904 [34:11<22:41:37,  1.35s/it]  2%|▏         | 1494/61904 [34:13<22:33:39,  1.34s/it]  2%|▏         | 1495/61904 [34:14<22:14:23,  1.33s/it]  2%|▏         | 1496/61904 [34:16<23:09:07,  1.38s/it]  2%|▏         | 1497/61904 [34:17<22:49:35,  1.36s/it]  2%|▏         | 1498/61904 [34:18<22:47:29,  1.36s/it]  2%|▏         | 1499/61904 [34:20<22:39:14,  1.35s/it]  2%|▏         | 1500/61904 [34:21<22:31:10,  1.34s/it]                                                       {'loss': 3.1625, 'learning_rate': 1.9789316737974846e-07, 'epoch': 0.39}
+  2%|▏         | 1500/61904 [34:21<22:31:10,  1.34s/it]  2%|▏         | 1501/61904 [34:22<22:29:25,  1.34s/it]  2%|▏         | 1502/61904 [34:24<22:25:49,  1.34s/it]  2%|▏         | 1503/61904 [34:25<22:44:02,  1.35s/it]  2%|▏         | 1504/61904 [34:26<22:52:21,  1.36s/it]  2%|▏         | 1505/61904 [34:28<22:39:23,  1.35s/it]  2%|▏         | 1506/61904 [34:29<22:39:01,  1.35s/it]  2%|▏         | 1507/61904 [34:30<23:12:00,  1.38s/it]  2%|▏         | 1508/61904 [34:32<23:29:38,  1.40s/it]  2%|▏         | 1509/61904 [34:33<23:24:48,  1.40s/it]  2%|▏         | 1510/61904 [34:35<23:23:24,  1.39s/it]  2%|▏         | 1511/61904 [34:36<22:27:16,  1.34s/it]  2%|▏         | 1512/61904 [34:37<22:37:56,  1.35s/it]  2%|▏         | 1513/61904 [34:39<22:15:41,  1.33s/it]  2%|▏         | 1514/61904 [34:40<22:03:46,  1.32s/it]  2%|▏         | 1515/61904 [34:41<21:41:22,  1.29s/it]  2%|▏         | 1516/61904 [34:42<22:12:34,  1.32s/it]  2%|▏         | 1517/61904 [34:44<22:00:53,  1.31s/it]  2%|▏         | 1518/61904 [34:45<22:23:40,  1.34s/it]  2%|▏         | 1519/61904 [34:46<22:07:19,  1.32s/it]  2%|▏         | 1520/61904 [34:48<22:09:54,  1.32s/it]                                                       {'loss': 3.0927, 'learning_rate': 1.9786075457020615e-07, 'epoch': 0.39}
+  2%|▏         | 1520/61904 [34:48<22:09:54,  1.32s/it]  2%|▏         | 1521/61904 [34:49<22:59:08,  1.37s/it]  2%|▏         | 1522/61904 [34:51<23:02:03,  1.37s/it]  2%|▏         | 1523/61904 [34:52<23:02:56,  1.37s/it]  2%|▏         | 1524/61904 [34:53<23:37:09,  1.41s/it]  2%|▏         | 1525/61904 [34:55<24:18:02,  1.45s/it]  2%|▏         | 1526/61904 [34:56<24:11:15,  1.44s/it]  2%|▏         | 1527/61904 [34:58<23:36:35,  1.41s/it]  2%|▏         | 1528/61904 [34:59<23:44:22,  1.42s/it]  2%|▏         | 1529/61904 [35:00<23:02:00,  1.37s/it]  2%|▏         | 1530/61904 [35:02<23:00:59,  1.37s/it]  2%|▏         | 1531/61904 [35:03<22:56:44,  1.37s/it]  2%|▏         | 1532/61904 [35:04<22:11:34,  1.32s/it]  2%|▏         | 1533/61904 [35:06<22:34:36,  1.35s/it]  2%|▏         | 1534/61904 [35:07<22:47:19,  1.36s/it]  2%|▏         | 1535/61904 [35:09<23:26:34,  1.40s/it]  2%|▏         | 1536/61904 [35:10<22:27:13,  1.34s/it]  2%|▏         | 1537/61904 [35:11<23:47:05,  1.42s/it]  2%|▏         | 1538/61904 [35:13<23:42:02,  1.41s/it]  2%|▏         | 1539/61904 [35:15<24:46:07,  1.48s/it]  2%|▏         | 1540/61904 [35:16<23:52:04,  1.42s/it]                                                       {'loss': 3.1796, 'learning_rate': 1.978283417606638e-07, 'epoch': 0.4}
+  2%|▏         | 1540/61904 [35:16<23:52:04,  1.42s/it]  2%|▏         | 1541/61904 [35:17<23:47:34,  1.42s/it]  2%|▏         | 1542/61904 [35:19<23:10:57,  1.38s/it]  2%|▏         | 1543/61904 [35:20<23:25:24,  1.40s/it]  2%|▏         | 1544/61904 [35:21<23:33:24,  1.40s/it]  2%|▏         | 1545/61904 [35:23<23:54:36,  1.43s/it]  2%|▏         | 1546/61904 [35:24<23:03:44,  1.38s/it]  2%|▏         | 1547/61904 [35:26<23:18:44,  1.39s/it]  3%|▎         | 1548/61904 [35:27<23:12:30,  1.38s/it]  3%|▎         | 1549/61904 [35:28<23:35:39,  1.41s/it]  3%|▎         | 1550/61904 [35:30<22:48:21,  1.36s/it]  3%|▎         | 1551/61904 [35:31<23:14:59,  1.39s/it]  3%|▎         | 1552/61904 [35:32<22:57:44,  1.37s/it]  3%|▎         | 1553/61904 [35:34<23:18:31,  1.39s/it]  3%|▎         | 1554/61904 [35:35<24:06:23,  1.44s/it]  3%|▎         | 1555/61904 [35:37<24:17:21,  1.45s/it]  3%|▎         | 1556/61904 [35:38<23:45:41,  1.42s/it]  3%|▎         | 1557/61904 [35:39<22:41:57,  1.35s/it]  3%|▎         | 1558/61904 [35:41<22:56:56,  1.37s/it]  3%|▎         | 1559/61904 [35:42<21:49:01,  1.30s/it]  3%|▎         | 1560/61904 [35:43<21:55:32,  1.31s/it]                                                       {'loss': 3.1212, 'learning_rate': 1.9779592895112147e-07, 'epoch': 0.4}
+  3%|▎         | 1560/61904 [35:43<21:55:32,  1.31s/it]  3%|▎         | 1561/61904 [35:45<22:25:57,  1.34s/it]  3%|▎         | 1562/61904 [35:46<22:45:26,  1.36s/it]  3%|▎         | 1563/61904 [35:47<22:37:03,  1.35s/it]  3%|▎         | 1564/61904 [35:49<22:52:14,  1.36s/it]  3%|▎         | 1565/61904 [35:50<22:32:38,  1.35s/it]  3%|▎         | 1566/61904 [35:51<21:57:56,  1.31s/it]  3%|▎         | 1567/61904 [35:53<21:38:52,  1.29s/it]  3%|▎         | 1568/61904 [35:54<22:12:19,  1.32s/it]  3%|▎         | 1569/61904 [35:55<22:30:49,  1.34s/it]  3%|▎         | 1570/61904 [35:57<22:46:47,  1.36s/it]  3%|▎         | 1571/61904 [35:58<21:51:31,  1.30s/it]  3%|▎         | 1572/61904 [35:59<21:58:25,  1.31s/it]  3%|▎         | 1573/61904 [36:01<22:16:19,  1.33s/it]  3%|▎         | 1574/61904 [36:02<22:24:57,  1.34s/it]  3%|▎         | 1575/61904 [36:03<22:30:29,  1.34s/it]  3%|▎         | 1576/61904 [36:05<23:29:12,  1.40s/it]  3%|▎         | 1577/61904 [36:06<23:11:24,  1.38s/it]  3%|▎         | 1578/61904 [36:08<23:21:52,  1.39s/it]  3%|▎         | 1579/61904 [36:09<23:19:44,  1.39s/it]  3%|▎         | 1580/61904 [36:10<22:44:28,  1.36s/it]                                                       {'loss': 3.2041, 'learning_rate': 1.9776351614157916e-07, 'epoch': 0.41}
+  3%|▎         | 1580/61904 [36:10<22:44:28,  1.36s/it]  3%|▎         | 1581/61904 [36:12<22:50:20,  1.36s/it]  3%|▎         | 1582/61904 [36:13<22:15:03,  1.33s/it]  3%|▎         | 1583/61904 [36:14<22:45:24,  1.36s/it]  3%|▎         | 1584/61904 [36:16<23:08:58,  1.38s/it]  3%|▎         | 1585/61904 [36:17<23:25:26,  1.40s/it]  3%|▎         | 1586/61904 [36:19<23:00:37,  1.37s/it]  3%|▎         | 1587/61904 [36:20<22:52:33,  1.37s/it]  3%|▎         | 1588/61904 [36:21<22:59:39,  1.37s/it]  3%|▎         | 1589/61904 [36:23<22:33:03,  1.35s/it]  3%|▎         | 1590/61904 [36:24<22:43:53,  1.36s/it]  3%|▎         | 1591/61904 [36:25<22:07:17,  1.32s/it]  3%|▎         | 1592/61904 [36:27<22:45:27,  1.36s/it]  3%|▎         | 1593/61904 [36:28<22:44:16,  1.36s/it]  3%|▎         | 1594/61904 [36:30<23:28:17,  1.40s/it]  3%|▎         | 1595/61904 [36:31<22:58:50,  1.37s/it]  3%|▎         | 1596/61904 [36:32<22:21:33,  1.33s/it]  3%|▎         | 1597/61904 [36:33<22:16:39,  1.33s/it]  3%|▎         | 1598/61904 [36:35<22:23:06,  1.34s/it]  3%|▎         | 1599/61904 [36:36<22:40:00,  1.35s/it]  3%|▎         | 1600/61904 [36:37<22:09:30,  1.32s/it]                                                       {'loss': 3.1158, 'learning_rate': 1.977311033320368e-07, 'epoch': 0.41}
+  3%|▎         | 1600/61904 [36:37<22:09:30,  1.32s/it]  3%|▎         | 1601/61904 [36:39<22:22:31,  1.34s/it]  3%|▎         | 1602/61904 [36:40<22:52:23,  1.37s/it]  3%|▎         | 1603/61904 [36:41<22:06:20,  1.32s/it]  3%|▎         | 1604/61904 [36:43<21:31:04,  1.28s/it]  3%|▎         | 1605/61904 [36:44<22:32:06,  1.35s/it]  3%|▎         | 1606/61904 [36:45<22:35:54,  1.35s/it]  3%|▎         | 1607/61904 [36:47<22:33:10,  1.35s/it]  3%|▎         | 1608/61904 [36:48<22:57:29,  1.37s/it]  3%|▎         | 1609/61904 [36:49<22:31:35,  1.34s/it]  3%|▎         | 1610/61904 [36:51<21:47:38,  1.30s/it]  3%|▎         | 1611/61904 [36:52<22:26:23,  1.34s/it]  3%|▎         | 1612/61904 [36:54<22:44:19,  1.36s/it]  3%|▎         | 1613/61904 [36:55<22:36:00,  1.35s/it]  3%|▎         | 1614/61904 [36:56<22:10:03,  1.32s/it]  3%|▎         | 1615/61904 [36:57<21:49:45,  1.30s/it]  3%|▎         | 1616/61904 [36:59<21:47:39,  1.30s/it]  3%|▎         | 1617/61904 [37:00<22:26:33,  1.34s/it]  3%|▎         | 1618/61904 [37:01<22:24:58,  1.34s/it]  3%|▎         | 1619/61904 [37:03<22:26:55,  1.34s/it]  3%|▎         | 1620/61904 [37:04<22:06:20,  1.32s/it]                                                       {'loss': 3.1244, 'learning_rate': 1.9769869052249449e-07, 'epoch': 0.42}
+  3%|▎         | 1620/61904 [37:04<22:06:20,  1.32s/it]  3%|▎         | 1621/61904 [37:06<23:00:27,  1.37s/it]  3%|▎         | 1622/61904 [37:07<23:27:32,  1.40s/it]  3%|▎         | 1623/61904 [37:08<23:27:23,  1.40s/it]  3%|▎         | 1624/61904 [37:10<22:55:20,  1.37s/it]  3%|▎         | 1625/61904 [37:11<22:49:30,  1.36s/it]  3%|▎         | 1626/61904 [37:12<22:14:04,  1.33s/it]  3%|▎         | 1627/61904 [37:14<22:56:41,  1.37s/it]  3%|▎         | 1628/61904 [37:15<22:26:07,  1.34s/it]  3%|▎         | 1629/61904 [37:16<22:48:19,  1.36s/it]  3%|▎         | 1630/61904 [37:18<22:39:44,  1.35s/it]  3%|▎         | 1631/61904 [37:19<22:59:52,  1.37s/it]  3%|▎         | 1632/61904 [37:21<22:58:35,  1.37s/it]  3%|▎         | 1633/61904 [37:22<22:46:16,  1.36s/it]  3%|▎         | 1634/61904 [37:23<22:52:37,  1.37s/it]  3%|▎         | 1635/61904 [37:25<22:33:12,  1.35s/it]  3%|▎         | 1636/61904 [37:26<22:44:36,  1.36s/it]  3%|▎         | 1637/61904 [37:27<22:38:01,  1.35s/it]  3%|▎         | 1638/61904 [37:29<23:06:51,  1.38s/it]  3%|▎         | 1639/61904 [37:30<22:43:23,  1.36s/it]  3%|▎         | 1640/61904 [37:31<22:21:01,  1.34s/it]                                                       {'loss': 3.1836, 'learning_rate': 1.9766627771295215e-07, 'epoch': 0.42}
+  3%|▎         | 1640/61904 [37:31<22:21:01,  1.34s/it]  3%|▎         | 1641/61904 [37:33<22:48:40,  1.36s/it]  3%|▎         | 1642/61904 [37:34<22:42:01,  1.36s/it]  3%|▎         | 1643/61904 [37:35<22:07:03,  1.32s/it]  3%|▎         | 1644/61904 [37:37<22:00:49,  1.32s/it]  3%|▎         | 1645/61904 [37:38<21:52:48,  1.31s/it]  3%|▎         | 1646/61904 [37:39<21:40:57,  1.30s/it]  3%|▎         | 1647/61904 [37:41<22:19:19,  1.33s/it]  3%|▎         | 1648/61904 [37:42<22:38:24,  1.35s/it]  3%|▎         | 1649/61904 [37:43<22:36:16,  1.35s/it]  3%|▎         | 1650/61904 [37:45<22:13:55,  1.33s/it]  3%|▎         | 1651/61904 [37:46<22:24:26,  1.34s/it]  3%|▎         | 1652/61904 [37:48<23:37:20,  1.41s/it]  3%|▎         | 1653/61904 [37:49<23:59:46,  1.43s/it]  3%|▎         | 1654/61904 [37:50<23:19:05,  1.39s/it]  3%|▎         | 1655/61904 [37:52<22:59:50,  1.37s/it]  3%|▎         | 1656/61904 [37:53<23:41:13,  1.42s/it]  3%|▎         | 1657/61904 [37:55<23:42:20,  1.42s/it]  3%|▎         | 1658/61904 [37:56<23:44:07,  1.42s/it]  3%|▎         | 1659/61904 [37:57<23:30:51,  1.41s/it]  3%|▎         | 1660/61904 [37:59<22:37:36,  1.35s/it]                                                       {'loss': 3.1079, 'learning_rate': 1.976338649034098e-07, 'epoch': 0.43}
+  3%|▎         | 1660/61904 [37:59<22:37:36,  1.35s/it]  3%|▎         | 1661/61904 [38:00<22:17:12,  1.33s/it]  3%|▎         | 1662/61904 [38:01<22:25:33,  1.34s/it]  3%|▎         | 1663/61904 [38:03<22:44:46,  1.36s/it]  3%|▎         | 1664/61904 [38:04<23:12:01,  1.39s/it]  3%|▎         | 1665/61904 [38:06<23:42:37,  1.42s/it]  3%|▎         | 1666/61904 [38:07<24:04:58,  1.44s/it]  3%|▎         | 1667/61904 [38:09<23:49:43,  1.42s/it]  3%|▎         | 1668/61904 [38:10<23:20:11,  1.39s/it]  3%|▎         | 1669/61904 [38:11<22:39:16,  1.35s/it]  3%|▎         | 1670/61904 [38:12<22:21:23,  1.34s/it]  3%|▎         | 1671/61904 [38:14<22:50:58,  1.37s/it]  3%|▎         | 1672/61904 [38:15<22:37:26,  1.35s/it]  3%|▎         | 1673/61904 [38:17<23:18:23,  1.39s/it]  3%|▎         | 1674/61904 [38:18<23:21:07,  1.40s/it]  3%|▎         | 1675/61904 [38:19<23:11:01,  1.39s/it]  3%|▎         | 1676/61904 [38:21<22:39:25,  1.35s/it]  3%|▎         | 1677/61904 [38:22<22:30:15,  1.35s/it]  3%|▎         | 1678/61904 [38:23<22:04:14,  1.32s/it]  3%|▎         | 1679/61904 [38:25<23:36:35,  1.41s/it]  3%|▎         | 1680/61904 [38:26<24:14:49,  1.45s/it]                                                       {'loss': 3.1643, 'learning_rate': 1.976014520938675e-07, 'epoch': 0.43}
+  3%|▎         | 1680/61904 [38:26<24:14:49,  1.45s/it]  3%|▎         | 1681/61904 [38:28<23:48:48,  1.42s/it]  3%|▎         | 1682/61904 [38:29<22:40:03,  1.36s/it]  3%|▎         | 1683/61904 [38:30<22:24:30,  1.34s/it]  3%|▎         | 1684/61904 [38:32<23:44:27,  1.42s/it]  3%|▎         | 1685/61904 [38:33<23:24:00,  1.40s/it]  3%|▎         | 1686/61904 [38:35<23:49:35,  1.42s/it]  3%|▎         | 1687/61904 [38:36<23:09:46,  1.38s/it]  3%|▎         | 1688/61904 [38:38<23:40:38,  1.42s/it]  3%|▎         | 1689/61904 [38:39<23:29:05,  1.40s/it]  3%|▎         | 1690/61904 [38:41<24:27:13,  1.46s/it]  3%|▎         | 1691/61904 [38:42<23:40:33,  1.42s/it]  3%|▎         | 1692/61904 [38:43<22:52:57,  1.37s/it]  3%|▎         | 1693/61904 [38:44<23:01:10,  1.38s/it]  3%|▎         | 1694/61904 [38:46<22:39:21,  1.35s/it]  3%|▎         | 1695/61904 [38:47<22:39:01,  1.35s/it]  3%|▎         | 1696/61904 [38:48<22:11:24,  1.33s/it]  3%|▎         | 1697/61904 [38:50<22:04:20,  1.32s/it]  3%|▎         | 1698/61904 [38:51<22:06:44,  1.32s/it]  3%|▎         | 1699/61904 [38:52<22:19:45,  1.34s/it]  3%|▎         | 1700/61904 [38:54<22:02:39,  1.32s/it]                                                       {'loss': 3.1435, 'learning_rate': 1.9756903928432516e-07, 'epoch': 0.44}
+  3%|▎         | 1700/61904 [38:54<22:02:39,  1.32s/it]  3%|▎         | 1701/61904 [38:55<21:53:46,  1.31s/it]  3%|▎         | 1702/61904 [38:56<21:56:49,  1.31s/it]  3%|▎         | 1703/61904 [38:58<22:36:18,  1.35s/it]  3%|▎         | 1704/61904 [38:59<22:35:15,  1.35s/it]  3%|▎         | 1705/61904 [39:00<22:11:52,  1.33s/it]  3%|▎         | 1706/61904 [39:02<23:11:29,  1.39s/it]  3%|▎         | 1707/61904 [39:03<23:18:41,  1.39s/it]  3%|▎         | 1708/61904 [39:05<23:26:27,  1.40s/it]  3%|▎         | 1709/61904 [39:06<23:31:50,  1.41s/it]  3%|▎         | 1710/61904 [39:07<22:48:53,  1.36s/it]  3%|▎         | 1711/61904 [39:09<23:02:09,  1.38s/it]  3%|▎         | 1712/61904 [39:10<22:34:27,  1.35s/it]  3%|▎         | 1713/61904 [39:12<22:58:58,  1.37s/it]  3%|▎         | 1714/61904 [39:13<22:47:51,  1.36s/it]  3%|▎         | 1715/61904 [39:14<23:32:47,  1.41s/it]  3%|▎         | 1716/61904 [39:16<23:03:46,  1.38s/it]  3%|▎         | 1717/61904 [39:17<22:39:37,  1.36s/it]  3%|▎         | 1718/61904 [39:18<22:40:12,  1.36s/it]  3%|▎         | 1719/61904 [39:20<23:35:16,  1.41s/it]  3%|▎         | 1720/61904 [39:21<23:18:48,  1.39s/it]                                                       {'loss': 3.2259, 'learning_rate': 1.9753662647478282e-07, 'epoch': 0.44}
+  3%|▎         | 1720/61904 [39:21<23:18:48,  1.39s/it]  3%|▎         | 1721/61904 [39:23<23:21:21,  1.40s/it]  3%|▎         | 1722/61904 [39:24<24:38:21,  1.47s/it]  3%|▎         | 1723/61904 [39:26<23:36:37,  1.41s/it]  3%|▎         | 1724/61904 [39:27<23:17:20,  1.39s/it]  3%|▎         | 1725/61904 [39:28<23:41:08,  1.42s/it]  3%|▎         | 1726/61904 [39:30<22:59:19,  1.38s/it]  3%|▎         | 1727/61904 [39:31<22:37:46,  1.35s/it]  3%|▎         | 1728/61904 [39:32<22:33:31,  1.35s/it]  3%|▎         | 1729/61904 [39:34<22:30:43,  1.35s/it]  3%|▎         | 1730/61904 [39:35<22:38:22,  1.35s/it]  3%|▎         | 1731/61904 [39:36<23:14:20,  1.39s/it]  3%|▎         | 1732/61904 [39:38<23:35:08,  1.41s/it]  3%|▎         | 1733/61904 [39:39<22:59:10,  1.38s/it]  3%|▎         | 1734/61904 [39:41<23:11:41,  1.39s/it]  3%|▎         | 1735/61904 [39:42<22:14:59,  1.33s/it]  3%|▎         | 1736/61904 [39:43<22:29:37,  1.35s/it]  3%|▎         | 1737/61904 [39:45<22:22:08,  1.34s/it]  3%|▎         | 1738/61904 [39:46<22:34:56,  1.35s/it]  3%|▎         | 1739/61904 [39:47<22:25:57,  1.34s/it]  3%|▎         | 1740/61904 [39:49<22:33:54,  1.35s/it]                                                       {'loss': 3.2045, 'learning_rate': 1.975042136652405e-07, 'epoch': 0.45}
+  3%|▎         | 1740/61904 [39:49<22:33:54,  1.35s/it]  3%|▎         | 1741/61904 [39:50<22:31:27,  1.35s/it]  3%|▎         | 1742/61904 [39:51<22:09:30,  1.33s/it]  3%|▎         | 1743/61904 [39:53<22:08:58,  1.33s/it]  3%|▎         | 1744/61904 [39:54<21:56:24,  1.31s/it]  3%|▎         | 1745/61904 [39:55<22:26:10,  1.34s/it]  3%|▎         | 1746/61904 [39:57<22:17:02,  1.33s/it]  3%|▎         | 1747/61904 [39:58<22:36:06,  1.35s/it]  3%|▎         | 1748/61904 [39:59<22:25:59,  1.34s/it]  3%|▎         | 1749/61904 [40:01<22:42:21,  1.36s/it]  3%|▎         | 1750/61904 [40:02<22:53:35,  1.37s/it]  3%|▎         | 1751/61904 [40:03<22:31:22,  1.35s/it]  3%|▎         | 1752/61904 [40:05<22:55:52,  1.37s/it]  3%|▎         | 1753/61904 [40:06<23:00:03,  1.38s/it]  3%|▎         | 1754/61904 [40:08<23:16:30,  1.39s/it]  3%|▎         | 1755/61904 [40:09<22:55:29,  1.37s/it]  3%|▎         | 1756/61904 [40:11<24:17:09,  1.45s/it]  3%|▎         | 1757/61904 [40:12<23:52:22,  1.43s/it]  3%|▎         | 1758/61904 [40:13<22:57:50,  1.37s/it]  3%|▎         | 1759/61904 [40:15<22:41:42,  1.36s/it]  3%|▎         | 1760/61904 [40:16<22:33:29,  1.35s/it]                                                       {'loss': 3.1356, 'learning_rate': 1.9747180085569817e-07, 'epoch': 0.45}
+  3%|▎         | 1760/61904 [40:16<22:33:29,  1.35s/it]  3%|▎         | 1761/61904 [40:17<22:09:25,  1.33s/it]  3%|▎         | 1762/61904 [40:19<22:27:41,  1.34s/it]  3%|▎         | 1763/61904 [40:20<22:03:30,  1.32s/it]  3%|▎         | 1764/61904 [40:21<21:35:20,  1.29s/it]  3%|▎         | 1765/61904 [40:22<22:15:07,  1.33s/it]  3%|▎         | 1766/61904 [40:24<22:53:49,  1.37s/it]  3%|▎         | 1767/61904 [40:25<22:59:52,  1.38s/it]  3%|▎         | 1768/61904 [40:27<23:05:02,  1.38s/it]  3%|▎         | 1769/61904 [40:28<23:56:31,  1.43s/it]  3%|▎         | 1770/61904 [40:30<23:51:01,  1.43s/it]  3%|▎         | 1771/61904 [40:31<23:34:37,  1.41s/it]  3%|▎         | 1772/61904 [40:32<22:59:40,  1.38s/it]  3%|▎         | 1773/61904 [40:34<24:05:30,  1.44s/it]  3%|▎         | 1774/61904 [40:35<23:40:31,  1.42s/it]  3%|▎         | 1775/61904 [40:37<23:30:44,  1.41s/it]  3%|▎         | 1776/61904 [40:38<23:22:34,  1.40s/it]  3%|▎         | 1777/61904 [40:39<23:24:15,  1.40s/it]  3%|▎         | 1778/61904 [40:41<22:48:54,  1.37s/it]  3%|▎         | 1779/61904 [40:42<23:35:14,  1.41s/it]  3%|▎         | 1780/61904 [40:43<22:49:53,  1.37s/it]                                                       {'loss': 3.1475, 'learning_rate': 1.9743938804615583e-07, 'epoch': 0.46}
+  3%|▎         | 1780/61904 [40:43<22:49:53,  1.37s/it]  3%|▎         | 1781/61904 [40:45<22:38:49,  1.36s/it]  3%|▎         | 1782/61904 [40:46<22:44:16,  1.36s/it]  3%|▎         | 1783/61904 [40:48<23:16:30,  1.39s/it]  3%|▎         | 1784/61904 [40:49<22:20:11,  1.34s/it]  3%|▎         | 1785/61904 [40:50<21:58:59,  1.32s/it]  3%|▎         | 1786/61904 [40:52<22:16:16,  1.33s/it]  3%|▎         | 1787/61904 [40:53<21:51:44,  1.31s/it]  3%|▎         | 1788/61904 [40:54<22:17:21,  1.33s/it]  3%|▎         | 1789/61904 [40:56<23:17:40,  1.40s/it]  3%|▎         | 1790/61904 [40:57<22:23:18,  1.34s/it]  3%|▎         | 1791/61904 [40:58<22:54:03,  1.37s/it]  3%|▎         | 1792/61904 [41:00<22:54:33,  1.37s/it]  3%|▎         | 1793/61904 [41:01<23:17:00,  1.39s/it]  3%|▎         | 1794/61904 [41:03<23:27:27,  1.40s/it]  3%|▎         | 1795/61904 [41:04<23:23:56,  1.40s/it]  3%|▎         | 1796/61904 [41:05<23:18:17,  1.40s/it]  3%|▎         | 1797/61904 [41:07<22:30:35,  1.35s/it]  3%|▎         | 1798/61904 [41:08<22:13:12,  1.33s/it]  3%|▎         | 1799/61904 [41:09<22:03:16,  1.32s/it]  3%|▎         | 1800/61904 [41:11<22:35:16,  1.35s/it]                                                       {'loss': 3.1801, 'learning_rate': 1.9740697523661352e-07, 'epoch': 0.47}
+  3%|▎         | 1800/61904 [41:11<22:35:16,  1.35s/it]  3%|▎         | 1801/61904 [41:12<22:49:10,  1.37s/it]  3%|▎         | 1802/61904 [41:13<22:18:06,  1.34s/it]  3%|▎         | 1803/61904 [41:15<22:44:29,  1.36s/it]  3%|▎         | 1804/61904 [41:16<21:57:23,  1.32s/it]  3%|▎         | 1805/61904 [41:17<21:44:43,  1.30s/it]  3%|▎         | 1806/61904 [41:19<22:33:13,  1.35s/it]  3%|▎         | 1807/61904 [41:20<22:02:44,  1.32s/it]  3%|▎         | 1808/61904 [41:21<22:15:25,  1.33s/it]  3%|▎         | 1809/61904 [41:23<22:06:40,  1.32s/it]  3%|▎         | 1810/61904 [41:24<22:19:39,  1.34s/it]  3%|▎         | 1811/61904 [41:25<22:11:11,  1.33s/it]  3%|▎         | 1812/61904 [41:27<22:42:44,  1.36s/it]  3%|▎         | 1813/61904 [41:28<22:54:29,  1.37s/it]  3%|▎         | 1814/61904 [41:29<22:48:32,  1.37s/it]  3%|▎         | 1815/61904 [41:31<22:33:05,  1.35s/it]  3%|▎         | 1816/61904 [41:32<22:08:09,  1.33s/it]  3%|▎         | 1817/61904 [41:33<21:36:00,  1.29s/it]  3%|▎         | 1818/61904 [41:35<22:17:58,  1.34s/it]  3%|▎         | 1819/61904 [41:36<22:55:22,  1.37s/it]  3%|▎         | 1820/61904 [41:38<23:09:57,  1.39s/it]                                                       {'loss': 3.1391, 'learning_rate': 1.9737456242707116e-07, 'epoch': 0.47}
+  3%|▎         | 1820/61904 [41:38<23:09:57,  1.39s/it]  3%|▎         | 1821/61904 [41:39<23:13:49,  1.39s/it]  3%|▎         | 1822/61904 [41:40<22:23:45,  1.34s/it]  3%|▎         | 1823/61904 [41:42<22:36:24,  1.35s/it]  3%|▎         | 1824/61904 [41:43<22:49:37,  1.37s/it]  3%|▎         | 1825/61904 [41:44<22:42:45,  1.36s/it]  3%|▎         | 1826/61904 [41:46<22:58:23,  1.38s/it]  3%|▎         | 1827/61904 [41:47<22:52:16,  1.37s/it]  3%|▎         | 1828/61904 [41:48<22:24:30,  1.34s/it]  3%|▎         | 1829/61904 [41:50<22:13:47,  1.33s/it]  3%|▎         | 1830/61904 [41:51<22:15:31,  1.33s/it]  3%|▎         | 1831/61904 [41:52<22:20:52,  1.34s/it]  3%|▎         | 1832/61904 [41:54<22:22:07,  1.34s/it]  3%|▎         | 1833/61904 [41:55<22:19:23,  1.34s/it]  3%|▎         | 1834/61904 [41:56<22:21:06,  1.34s/it]  3%|▎         | 1835/61904 [41:58<22:15:25,  1.33s/it]  3%|▎         | 1836/61904 [41:59<22:48:30,  1.37s/it]  3%|▎         | 1837/61904 [42:01<23:21:40,  1.40s/it]  3%|▎         | 1838/61904 [42:02<23:52:39,  1.43s/it]  3%|▎         | 1839/61904 [42:04<24:18:13,  1.46s/it]  3%|▎         | 1840/61904 [42:05<23:45:41,  1.42s/it]                                                       {'loss': 3.151, 'learning_rate': 1.9734214961752885e-07, 'epoch': 0.48}
+  3%|▎         | 1840/61904 [42:05<23:45:41,  1.42s/it]  3%|▎         | 1841/61904 [42:06<24:02:36,  1.44s/it]  3%|▎         | 1842/61904 [42:08<23:50:20,  1.43s/it]  3%|▎         | 1843/61904 [42:09<23:36:57,  1.42s/it]  3%|▎         | 1844/61904 [42:11<23:48:04,  1.43s/it]  3%|▎         | 1845/61904 [42:12<23:40:10,  1.42s/it]  3%|▎         | 1846/61904 [42:14<24:57:29,  1.50s/it]  3%|▎         | 1847/61904 [42:15<24:22:33,  1.46s/it]  3%|▎         | 1848/61904 [42:16<23:32:09,  1.41s/it]  3%|▎         | 1849/61904 [42:18<23:46:25,  1.43s/it]  3%|▎         | 1850/61904 [42:19<22:46:33,  1.37s/it]  3%|▎         | 1851/61904 [42:20<22:09:32,  1.33s/it]  3%|▎         | 1852/61904 [42:22<22:01:20,  1.32s/it]  3%|▎         | 1853/61904 [42:23<22:06:40,  1.33s/it]  3%|▎         | 1854/61904 [42:24<22:11:56,  1.33s/it]  3%|▎         | 1855/61904 [42:26<22:21:25,  1.34s/it]  3%|▎         | 1856/61904 [42:27<21:40:38,  1.30s/it]  3%|▎         | 1857/61904 [42:28<22:06:59,  1.33s/it]  3%|▎         | 1858/61904 [42:30<22:00:35,  1.32s/it]  3%|▎         | 1859/61904 [42:31<22:01:12,  1.32s/it]  3%|▎         | 1860/61904 [42:32<21:32:35,  1.29s/it]                                                       {'loss': 3.1714, 'learning_rate': 1.973097368079865e-07, 'epoch': 0.48}
+  3%|▎         | 1860/61904 [42:32<21:32:35,  1.29s/it]  3%|▎         | 1861/61904 [42:33<21:23:12,  1.28s/it]  3%|▎         | 1862/61904 [42:35<22:01:04,  1.32s/it]  3%|▎         | 1863/61904 [42:36<22:36:19,  1.36s/it]  3%|▎         | 1864/61904 [42:38<22:17:06,  1.34s/it]  3%|▎         | 1865/61904 [42:39<23:07:59,  1.39s/it]  3%|▎         | 1866/61904 [42:41<23:50:46,  1.43s/it]  3%|▎         | 1867/61904 [42:42<23:27:06,  1.41s/it]  3%|▎         | 1868/61904 [42:43<22:55:45,  1.37s/it]  3%|▎         | 1869/61904 [42:45<23:12:25,  1.39s/it]  3%|▎         | 1870/61904 [42:46<23:01:23,  1.38s/it]  3%|▎         | 1871/61904 [42:47<22:35:18,  1.35s/it]  3%|▎         | 1872/61904 [42:49<22:38:37,  1.36s/it]  3%|▎         | 1873/61904 [42:50<22:59:07,  1.38s/it]  3%|▎         | 1874/61904 [42:51<22:13:33,  1.33s/it]  3%|▎         | 1875/61904 [42:53<21:46:54,  1.31s/it]  3%|▎         | 1876/61904 [42:54<21:40:24,  1.30s/it]  3%|▎         | 1877/61904 [42:55<22:14:52,  1.33s/it]  3%|▎         | 1878/61904 [42:57<22:09:42,  1.33s/it]  3%|▎         | 1879/61904 [42:58<22:01:31,  1.32s/it]  3%|▎         | 1880/61904 [42:59<21:48:57,  1.31s/it]                                                       {'loss': 3.0818, 'learning_rate': 1.9727732399844417e-07, 'epoch': 0.49}
+  3%|▎         | 1880/61904 [42:59<21:48:57,  1.31s/it]  3%|▎         | 1881/61904 [43:00<21:36:46,  1.30s/it]  3%|▎         | 1882/61904 [43:02<23:10:11,  1.39s/it]  3%|▎         | 1883/61904 [43:03<22:47:02,  1.37s/it]  3%|▎         | 1884/61904 [43:05<22:35:51,  1.36s/it]  3%|▎         | 1885/61904 [43:06<23:08:38,  1.39s/it]  3%|▎         | 1886/61904 [43:07<22:43:52,  1.36s/it]  3%|▎         | 1887/61904 [43:09<22:54:50,  1.37s/it]  3%|▎         | 1888/61904 [43:10<22:17:57,  1.34s/it]  3%|▎         | 1889/61904 [43:11<22:05:07,  1.32s/it]  3%|▎         | 1890/61904 [43:13<22:28:19,  1.35s/it]  3%|▎         | 1891/61904 [43:14<22:35:53,  1.36s/it]  3%|▎         | 1892/61904 [43:15<21:50:01,  1.31s/it]  3%|▎         | 1893/61904 [43:17<22:06:59,  1.33s/it]  3%|▎         | 1894/61904 [43:18<22:17:32,  1.34s/it]  3%|▎         | 1895/61904 [43:19<22:10:27,  1.33s/it]  3%|▎         | 1896/61904 [43:21<21:59:21,  1.32s/it]  3%|▎         | 1897/61904 [43:22<22:14:51,  1.33s/it]  3%|▎         | 1898/61904 [43:24<22:29:19,  1.35s/it]  3%|▎         | 1899/61904 [43:25<22:12:45,  1.33s/it]  3%|▎         | 1900/61904 [43:26<22:47:37,  1.37s/it]                                                       {'loss': 3.0955, 'learning_rate': 1.9724491118890186e-07, 'epoch': 0.49}
+  3%|▎         | 1900/61904 [43:26<22:47:37,  1.37s/it]  3%|▎         | 1901/61904 [43:28<22:32:28,  1.35s/it]  3%|▎         | 1902/61904 [43:29<23:03:09,  1.38s/it]  3%|▎         | 1903/61904 [43:30<22:39:10,  1.36s/it]  3%|▎         | 1904/61904 [43:32<22:15:43,  1.34s/it]  3%|▎         | 1905/61904 [43:33<22:07:59,  1.33s/it]  3%|▎         | 1906/61904 [43:34<21:38:08,  1.30s/it]  3%|▎         | 1907/61904 [43:35<21:24:34,  1.28s/it]  3%|▎         | 1908/61904 [43:37<22:00:51,  1.32s/it]  3%|▎         | 1909/61904 [43:38<22:05:28,  1.33s/it]  3%|▎         | 1910/61904 [43:39<22:16:13,  1.34s/it]  3%|▎         | 1911/61904 [43:41<22:45:11,  1.37s/it]  3%|▎         | 1912/61904 [43:42<23:11:28,  1.39s/it]  3%|▎         | 1913/61904 [43:44<22:29:12,  1.35s/it]  3%|▎         | 1914/61904 [43:45<22:49:44,  1.37s/it]  3%|▎         | 1915/61904 [43:46<23:07:38,  1.39s/it]  3%|▎         | 1916/61904 [43:48<23:24:56,  1.41s/it]  3%|▎         | 1917/61904 [43:49<23:14:29,  1.39s/it]  3%|▎         | 1918/61904 [43:51<22:54:32,  1.37s/it]  3%|▎         | 1919/61904 [43:52<23:32:59,  1.41s/it]  3%|▎         | 1920/61904 [43:54<23:21:07,  1.40s/it]                                                       {'loss': 3.1134, 'learning_rate': 1.9721249837935952e-07, 'epoch': 0.5}
+  3%|▎         | 1920/61904 [43:54<23:21:07,  1.40s/it]  3%|▎         | 1921/61904 [43:55<23:30:01,  1.41s/it]  3%|▎         | 1922/61904 [43:56<23:16:15,  1.40s/it]  3%|▎         | 1923/61904 [43:58<24:27:42,  1.47s/it]  3%|▎         | 1924/61904 [43:59<23:39:00,  1.42s/it]  3%|▎         | 1925/61904 [44:01<23:06:17,  1.39s/it]  3%|▎         | 1926/61904 [44:02<23:12:52,  1.39s/it]  3%|▎         | 1927/61904 [44:04<24:21:10,  1.46s/it]  3%|▎         | 1928/61904 [44:05<23:30:55,  1.41s/it]  3%|▎         | 1929/61904 [44:06<23:09:07,  1.39s/it]  3%|▎         | 1930/61904 [44:08<23:23:24,  1.40s/it]  3%|▎         | 1931/61904 [44:09<23:05:41,  1.39s/it]  3%|▎         | 1932/61904 [44:10<23:05:50,  1.39s/it]  3%|▎         | 1933/61904 [44:12<23:20:13,  1.40s/it]  3%|▎         | 1934/61904 [44:13<23:16:59,  1.40s/it]  3%|▎         | 1935/61904 [44:15<22:52:44,  1.37s/it]  3%|▎         | 1936/61904 [44:16<22:41:57,  1.36s/it]  3%|▎         | 1937/61904 [44:17<22:20:21,  1.34s/it]  3%|▎         | 1938/61904 [44:19<22:31:31,  1.35s/it]  3%|▎         | 1939/61904 [44:20<22:24:33,  1.35s/it]  3%|▎         | 1940/61904 [44:21<21:51:46,  1.31s/it]                                                       {'loss': 3.1444, 'learning_rate': 1.9718008556981718e-07, 'epoch': 0.5}
+  3%|▎         | 1940/61904 [44:21<21:51:46,  1.31s/it]  3%|▎         | 1941/61904 [44:22<22:11:01,  1.33s/it]  3%|▎         | 1942/61904 [44:24<21:34:50,  1.30s/it]  3%|▎         | 1943/61904 [44:25<22:49:55,  1.37s/it]  3%|▎         | 1944/61904 [44:27<22:47:40,  1.37s/it]  3%|▎         | 1945/61904 [44:28<22:57:42,  1.38s/it]  3%|▎         | 1946/61904 [44:30<23:46:35,  1.43s/it]  3%|▎         | 1947/61904 [44:31<22:59:36,  1.38s/it]  3%|▎         | 1948/61904 [44:32<22:38:43,  1.36s/it]  3%|▎         | 1949/61904 [44:33<22:12:52,  1.33s/it]  3%|▎         | 1950/61904 [44:35<22:23:41,  1.34s/it]  3%|▎         | 1951/61904 [44:36<23:01:43,  1.38s/it]  3%|▎         | 1952/61904 [44:38<23:04:40,  1.39s/it]  3%|▎         | 1953/61904 [44:39<22:26:16,  1.35s/it]  3%|▎         | 1954/61904 [44:40<23:01:57,  1.38s/it]  3%|▎         | 1955/61904 [44:42<23:00:17,  1.38s/it]  3%|▎         | 1956/61904 [44:43<22:39:21,  1.36s/it]  3%|▎         | 1957/61904 [44:44<22:02:49,  1.32s/it]  3%|▎         | 1958/61904 [44:46<22:29:13,  1.35s/it]  3%|▎         | 1959/61904 [44:47<23:22:43,  1.40s/it]  3%|▎         | 1960/61904 [44:49<22:50:02,  1.37s/it]                                                       {'loss': 3.1412, 'learning_rate': 1.9714767276027487e-07, 'epoch': 0.51}
+  3%|▎         | 1960/61904 [44:49<22:50:02,  1.37s/it]  3%|▎         | 1961/61904 [44:50<22:29:00,  1.35s/it]  3%|▎         | 1962/61904 [44:51<22:44:01,  1.37s/it]  3%|▎         | 1963/61904 [44:53<22:53:46,  1.38s/it]  3%|▎         | 1964/61904 [44:54<22:36:34,  1.36s/it]  3%|▎         | 1965/61904 [44:55<22:11:54,  1.33s/it]  3%|▎         | 1966/61904 [44:57<22:24:33,  1.35s/it]  3%|▎         | 1967/61904 [44:58<21:55:28,  1.32s/it]  3%|▎         | 1968/61904 [44:59<21:53:00,  1.31s/it]  3%|▎         | 1969/61904 [45:00<21:02:15,  1.26s/it]  3%|▎         | 1970/61904 [45:02<21:34:50,  1.30s/it]  3%|▎         | 1971/61904 [45:03<21:46:31,  1.31s/it]  3%|▎         | 1972/61904 [45:04<22:25:28,  1.35s/it]  3%|▎         | 1973/61904 [45:06<21:56:55,  1.32s/it]  3%|▎         | 1974/61904 [45:07<22:39:23,  1.36s/it]  3%|▎         | 1975/61904 [45:08<22:14:48,  1.34s/it]  3%|▎         | 1976/61904 [45:10<21:50:09,  1.31s/it]  3%|▎         | 1977/61904 [45:11<22:11:10,  1.33s/it]  3%|▎         | 1978/61904 [45:12<21:17:15,  1.28s/it]  3%|▎         | 1979/61904 [45:14<21:21:50,  1.28s/it]  3%|▎         | 1980/61904 [45:15<22:24:41,  1.35s/it]                                                       {'loss': 3.1569, 'learning_rate': 1.971152599507325e-07, 'epoch': 0.51}
+  3%|▎         | 1980/61904 [45:15<22:24:41,  1.35s/it]  3%|▎         | 1981/61904 [45:16<21:53:20,  1.32s/it]  3%|▎         | 1982/61904 [45:18<21:55:16,  1.32s/it]  3%|▎         | 1983/61904 [45:19<21:59:18,  1.32s/it]  3%|▎         | 1984/61904 [45:20<22:07:20,  1.33s/it]  3%|▎         | 1985/61904 [45:22<22:55:22,  1.38s/it]  3%|▎         | 1986/61904 [45:23<22:56:42,  1.38s/it]  3%|▎         | 1987/61904 [45:25<23:48:09,  1.43s/it]  3%|▎         | 1988/61904 [45:26<24:49:02,  1.49s/it]  3%|▎         | 1989/61904 [45:28<24:04:30,  1.45s/it]  3%|▎         | 1990/61904 [45:29<23:26:33,  1.41s/it]  3%|▎         | 1991/61904 [45:30<23:11:16,  1.39s/it]  3%|▎         | 1992/61904 [45:32<22:24:29,  1.35s/it]  3%|▎         | 1993/61904 [45:33<22:45:54,  1.37s/it]  3%|▎         | 1994/61904 [45:35<23:51:39,  1.43s/it]  3%|▎         | 1995/61904 [45:36<23:02:45,  1.38s/it]  3%|▎         | 1996/61904 [45:37<23:03:17,  1.39s/it]  3%|▎         | 1997/61904 [45:38<22:20:07,  1.34s/it]  3%|▎         | 1998/61904 [45:40<23:15:24,  1.40s/it]  3%|▎         | 1999/61904 [45:41<22:50:17,  1.37s/it]  3%|▎         | 2000/61904 [45:43<23:05:47,  1.39s/it]                                                       {'loss': 3.1235, 'learning_rate': 1.970828471411902e-07, 'epoch': 0.52}
+  3%|▎         | 2000/61904 [45:43<23:05:47,  1.39s/it]  3%|▎         | 2001/61904 [45:44<23:05:22,  1.39s/it]  3%|▎         | 2002/61904 [45:46<23:06:10,  1.39s/it]  3%|▎         | 2003/61904 [45:47<23:05:42,  1.39s/it]  3%|▎         | 2004/61904 [45:48<22:33:06,  1.36s/it]  3%|▎         | 2005/61904 [45:50<23:04:58,  1.39s/it]  3%|▎         | 2006/61904 [45:51<22:18:44,  1.34s/it]  3%|▎         | 2007/61904 [45:52<22:48:16,  1.37s/it]  3%|▎         | 2008/61904 [45:54<23:01:25,  1.38s/it]  3%|▎         | 2009/61904 [45:55<22:24:38,  1.35s/it]  3%|▎         | 2010/61904 [45:56<22:24:42,  1.35s/it]  3%|▎         | 2011/61904 [45:58<22:44:12,  1.37s/it]  3%|▎         | 2012/61904 [45:59<21:58:52,  1.32s/it]  3%|▎         | 2013/61904 [46:00<22:30:54,  1.35s/it]  3%|▎         | 2014/61904 [46:02<22:41:11,  1.36s/it]  3%|▎         | 2015/61904 [46:03<22:19:05,  1.34s/it]  3%|▎         | 2016/61904 [46:04<22:29:27,  1.35s/it]  3%|▎         | 2017/61904 [46:06<23:16:30,  1.40s/it]  3%|▎         | 2018/61904 [46:07<23:00:11,  1.38s/it]  3%|▎         | 2019/61904 [46:09<22:49:17,  1.37s/it]  3%|▎         | 2020/61904 [46:10<22:48:48,  1.37s/it]                                                       {'loss': 3.0883, 'learning_rate': 1.9705043433164788e-07, 'epoch': 0.52}
+  3%|▎         | 2020/61904 [46:10<22:48:48,  1.37s/it]  3%|▎         | 2021/61904 [46:12<23:34:18,  1.42s/it]  3%|▎         | 2022/61904 [46:13<22:39:36,  1.36s/it]  3%|▎         | 2023/61904 [46:14<22:41:18,  1.36s/it]  3%|▎         | 2024/61904 [46:16<22:51:36,  1.37s/it]  3%|▎         | 2025/61904 [46:17<23:20:54,  1.40s/it]  3%|▎         | 2026/61904 [46:18<22:40:01,  1.36s/it]  3%|▎         | 2027/61904 [46:20<22:29:52,  1.35s/it]  3%|▎         | 2028/61904 [46:21<22:04:34,  1.33s/it]  3%|▎         | 2029/61904 [46:22<21:54:27,  1.32s/it]  3%|▎         | 2030/61904 [46:23<21:48:43,  1.31s/it]  3%|▎         | 2031/61904 [46:25<22:16:56,  1.34s/it]  3%|▎         | 2032/61904 [46:26<22:47:25,  1.37s/it]  3%|▎         | 2033/61904 [46:28<23:06:28,  1.39s/it]  3%|▎         | 2034/61904 [46:29<23:40:05,  1.42s/it]  3%|▎         | 2035/61904 [46:31<24:15:46,  1.46s/it]  3%|▎         | 2036/61904 [46:32<24:11:09,  1.45s/it]  3%|▎         | 2037/61904 [46:34<23:58:04,  1.44s/it]  3%|▎         | 2038/61904 [46:35<23:07:05,  1.39s/it]  3%|▎         | 2039/61904 [46:37<24:18:35,  1.46s/it]  3%|▎         | 2040/61904 [46:38<23:28:58,  1.41s/it]                                                       {'loss': 3.0439, 'learning_rate': 1.9701802152210552e-07, 'epoch': 0.53}
+  3%|▎         | 2040/61904 [46:38<23:28:58,  1.41s/it]  3%|▎         | 2041/61904 [46:39<24:00:24,  1.44s/it]  3%|▎         | 2042/61904 [46:41<23:32:09,  1.42s/it]  3%|▎         | 2043/61904 [46:42<23:01:33,  1.38s/it]  3%|▎         | 2044/61904 [46:43<23:11:27,  1.39s/it]  3%|▎         | 2045/61904 [46:45<23:26:15,  1.41s/it]  3%|▎         | 2046/61904 [46:46<23:24:22,  1.41s/it]  3%|▎         | 2047/61904 [46:48<23:07:43,  1.39s/it]  3%|▎         | 2048/61904 [46:49<22:46:23,  1.37s/it]  3%|▎         | 2049/61904 [46:50<22:46:36,  1.37s/it]  3%|▎         | 2050/61904 [46:52<23:07:29,  1.39s/it]  3%|▎         | 2051/61904 [46:53<23:19:50,  1.40s/it]  3%|▎         | 2052/61904 [46:55<24:02:50,  1.45s/it]  3%|▎         | 2053/61904 [46:56<23:52:14,  1.44s/it]  3%|▎         | 2054/61904 [46:58<23:59:45,  1.44s/it]  3%|▎         | 2055/61904 [46:59<23:44:15,  1.43s/it]  3%|▎         | 2056/61904 [47:00<23:18:29,  1.40s/it]  3%|▎         | 2057/61904 [47:02<22:55:24,  1.38s/it]  3%|▎         | 2058/61904 [47:03<23:26:54,  1.41s/it]  3%|▎         | 2059/61904 [47:04<22:50:34,  1.37s/it]  3%|▎         | 2060/61904 [47:06<22:50:20,  1.37s/it]                                                       {'loss': 3.0707, 'learning_rate': 1.969856087125632e-07, 'epoch': 0.53}
+  3%|▎         | 2060/61904 [47:06<22:50:20,  1.37s/it]  3%|▎         | 2061/61904 [47:07<22:56:13,  1.38s/it]  3%|▎         | 2062/61904 [47:09<22:49:25,  1.37s/it]  3%|▎         | 2063/61904 [47:10<23:21:11,  1.40s/it]  3%|▎         | 2064/61904 [47:12<23:44:58,  1.43s/it]  3%|▎         | 2065/61904 [47:13<23:50:58,  1.43s/it]  3%|▎         | 2066/61904 [47:14<23:57:34,  1.44s/it]  3%|▎         | 2067/61904 [47:16<23:25:51,  1.41s/it]  3%|▎         | 2068/61904 [47:17<22:51:38,  1.38s/it]  3%|▎         | 2069/61904 [47:18<22:25:59,  1.35s/it]  3%|▎         | 2070/61904 [47:20<22:59:31,  1.38s/it]  3%|▎         | 2071/61904 [47:21<22:01:47,  1.33s/it]  3%|▎         | 2072/61904 [47:22<22:08:51,  1.33s/it]  3%|▎         | 2073/61904 [47:24<21:42:15,  1.31s/it]  3%|▎         | 2074/61904 [47:25<22:30:19,  1.35s/it]  3%|▎         | 2075/61904 [47:27<23:11:12,  1.40s/it]  3%|▎         | 2076/61904 [47:28<23:12:42,  1.40s/it]  3%|▎         | 2077/61904 [47:29<22:37:44,  1.36s/it]  3%|▎         | 2078/61904 [47:31<22:16:49,  1.34s/it]  3%|▎         | 2079/61904 [47:32<22:31:29,  1.36s/it]  3%|▎         | 2080/61904 [47:33<22:08:25,  1.33s/it]                                                       {'loss': 3.1062, 'learning_rate': 1.9695319590302087e-07, 'epoch': 0.54}
+  3%|▎         | 2080/61904 [47:33<22:08:25,  1.33s/it]  3%|▎         | 2081/61904 [47:35<22:06:48,  1.33s/it]  3%|▎         | 2082/61904 [47:36<21:49:46,  1.31s/it]  3%|▎         | 2083/61904 [47:37<22:22:12,  1.35s/it]  3%|▎         | 2084/61904 [47:39<22:26:30,  1.35s/it]  3%|▎         | 2085/61904 [47:40<22:14:07,  1.34s/it]  3%|▎         | 2086/61904 [47:41<22:12:29,  1.34s/it]  3%|▎         | 2087/61904 [47:43<21:53:15,  1.32s/it]  3%|▎         | 2088/61904 [47:44<22:06:03,  1.33s/it]  3%|▎         | 2089/61904 [47:45<22:06:31,  1.33s/it]  3%|▎         | 2090/61904 [47:47<22:21:40,  1.35s/it]  3%|▎         | 2091/61904 [47:48<22:19:39,  1.34s/it]  3%|▎         | 2092/61904 [47:49<21:54:48,  1.32s/it]  3%|▎         | 2093/61904 [47:51<22:00:08,  1.32s/it]  3%|▎         | 2094/61904 [47:52<22:53:24,  1.38s/it]  3%|▎         | 2095/61904 [47:53<22:09:16,  1.33s/it]  3%|▎         | 2096/61904 [47:55<23:50:45,  1.44s/it]  3%|▎         | 2097/61904 [47:56<23:55:17,  1.44s/it]  3%|▎         | 2098/61904 [47:58<23:45:04,  1.43s/it]  3%|▎         | 2099/61904 [47:59<23:17:26,  1.40s/it]  3%|▎         | 2100/61904 [48:01<23:22:50,  1.41s/it]                                                       {'loss': 3.0252, 'learning_rate': 1.9692078309347853e-07, 'epoch': 0.54}
+  3%|▎         | 2100/61904 [48:01<23:22:50,  1.41s/it]  3%|▎         | 2101/61904 [48:02<23:22:58,  1.41s/it]  3%|▎         | 2102/61904 [48:04<24:15:55,  1.46s/it]  3%|▎         | 2103/61904 [48:05<23:23:30,  1.41s/it]  3%|▎         | 2104/61904 [48:06<23:46:24,  1.43s/it]  3%|▎         | 2105/61904 [48:08<23:16:54,  1.40s/it]  3%|▎         | 2106/61904 [48:09<24:05:06,  1.45s/it]  3%|▎         | 2107/61904 [48:11<24:13:39,  1.46s/it]  3%|▎         | 2108/61904 [48:12<23:22:21,  1.41s/it]  3%|▎         | 2109/61904 [48:13<23:10:07,  1.39s/it]  3%|▎         | 2110/61904 [48:15<23:49:06,  1.43s/it]  3%|▎         | 2111/61904 [48:16<23:01:04,  1.39s/it]  3%|▎         | 2112/61904 [48:17<22:37:55,  1.36s/it]  3%|▎         | 2113/61904 [48:19<23:19:42,  1.40s/it]  3%|▎         | 2114/61904 [48:20<22:54:48,  1.38s/it]  3%|▎         | 2115/61904 [48:22<22:45:32,  1.37s/it]  3%|▎         | 2116/61904 [48:23<22:58:22,  1.38s/it]  3%|▎         | 2117/61904 [48:24<22:09:31,  1.33s/it]  3%|▎         | 2118/61904 [48:26<22:09:26,  1.33s/it]  3%|▎         | 2119/61904 [48:27<22:39:32,  1.36s/it]  3%|▎         | 2120/61904 [48:28<22:25:40,  1.35s/it]                                                       {'loss': 3.0621, 'learning_rate': 1.9688837028393622e-07, 'epoch': 0.55}
+  3%|▎         | 2120/61904 [48:28<22:25:40,  1.35s/it]  3%|▎         | 2121/61904 [48:30<22:34:44,  1.36s/it]  3%|▎         | 2122/61904 [48:31<23:15:44,  1.40s/it]  3%|▎         | 2123/61904 [48:33<23:30:24,  1.42s/it]  3%|▎         | 2124/61904 [48:34<23:04:00,  1.39s/it]  3%|▎         | 2125/61904 [48:35<22:46:31,  1.37s/it]  3%|▎         | 2126/61904 [48:37<22:35:17,  1.36s/it]  3%|▎         | 2127/61904 [48:38<22:30:44,  1.36s/it]  3%|▎         | 2128/61904 [48:39<22:28:49,  1.35s/it]  3%|▎         | 2129/61904 [48:41<22:37:28,  1.36s/it]  3%|▎         | 2130/61904 [48:42<22:20:12,  1.35s/it]  3%|▎         | 2131/61904 [48:43<22:02:11,  1.33s/it]  3%|▎         | 2132/61904 [48:45<21:55:58,  1.32s/it]  3%|▎         | 2133/61904 [48:46<22:21:53,  1.35s/it]  3%|▎         | 2134/61904 [48:47<22:25:43,  1.35s/it]  3%|▎         | 2135/61904 [48:49<22:54:42,  1.38s/it]  3%|▎         | 2136/61904 [48:50<22:26:27,  1.35s/it]  3%|▎         | 2137/61904 [48:51<22:27:17,  1.35s/it]  3%|▎         | 2138/61904 [48:53<22:59:51,  1.39s/it]  3%|▎         | 2139/61904 [48:54<23:00:43,  1.39s/it]  3%|▎         | 2140/61904 [48:56<22:40:03,  1.37s/it]                                                       {'loss': 3.1098, 'learning_rate': 1.9685595747439388e-07, 'epoch': 0.55}
+  3%|▎         | 2140/61904 [48:56<22:40:03,  1.37s/it]  3%|▎         | 2141/61904 [48:57<22:30:01,  1.36s/it]  3%|▎         | 2142/61904 [48:58<22:25:58,  1.35s/it]  3%|▎         | 2143/61904 [49:00<22:39:30,  1.36s/it]  3%|▎         | 2144/61904 [49:01<23:27:57,  1.41s/it]  3%|▎         | 2145/61904 [49:03<23:33:11,  1.42s/it]  3%|▎         | 2146/61904 [49:04<23:49:37,  1.44s/it]  3%|▎         | 2147/61904 [49:05<23:05:50,  1.39s/it]  3%|▎         | 2148/61904 [49:07<22:36:03,  1.36s/it]  3%|▎         | 2149/61904 [49:08<22:21:57,  1.35s/it]  3%|▎         | 2150/61904 [49:09<22:50:36,  1.38s/it]  3%|▎         | 2151/61904 [49:11<21:45:50,  1.31s/it]  3%|▎         | 2152/61904 [49:12<22:19:28,  1.35s/it]  3%|▎         | 2153/61904 [49:14<22:53:46,  1.38s/it]  3%|▎         | 2154/61904 [49:15<23:24:16,  1.41s/it]  3%|▎         | 2155/61904 [49:16<23:27:51,  1.41s/it]  3%|▎         | 2156/61904 [49:18<23:14:29,  1.40s/it]  3%|▎         | 2157/61904 [49:19<23:26:31,  1.41s/it]  3%|▎         | 2158/61904 [49:21<23:16:20,  1.40s/it]  3%|▎         | 2159/61904 [49:22<23:56:48,  1.44s/it]  3%|▎         | 2160/61904 [49:23<23:06:33,  1.39s/it]                                                       {'loss': 3.0647, 'learning_rate': 1.9682354466485154e-07, 'epoch': 0.56}
+  3%|▎         | 2160/61904 [49:23<23:06:33,  1.39s/it]  3%|▎         | 2161/61904 [49:25<23:18:15,  1.40s/it]  3%|▎         | 2162/61904 [49:26<22:47:40,  1.37s/it]  3%|▎         | 2163/61904 [49:28<22:47:04,  1.37s/it]  3%|▎         | 2164/61904 [49:29<22:37:39,  1.36s/it]  3%|▎         | 2165/61904 [49:30<22:00:11,  1.33s/it]  3%|▎         | 2166/61904 [49:31<21:44:20,  1.31s/it]  4%|▎         | 2167/61904 [49:33<22:38:17,  1.36s/it]  4%|▎         | 2168/61904 [49:34<22:49:07,  1.38s/it]  4%|▎         | 2169/61904 [49:36<23:00:44,  1.39s/it]  4%|▎         | 2170/61904 [49:37<23:06:21,  1.39s/it]  4%|▎         | 2171/61904 [49:39<23:23:42,  1.41s/it]  4%|▎         | 2172/61904 [49:40<23:03:04,  1.39s/it]  4%|▎         | 2173/61904 [49:41<22:33:35,  1.36s/it]  4%|▎         | 2174/61904 [49:43<23:25:39,  1.41s/it]  4%|▎         | 2175/61904 [49:44<22:09:07,  1.34s/it]  4%|▎         | 2176/61904 [49:45<23:01:46,  1.39s/it]  4%|▎         | 2177/61904 [49:47<22:56:31,  1.38s/it]  4%|▎         | 2178/61904 [49:48<22:50:24,  1.38s/it]  4%|▎         | 2179/61904 [49:49<22:28:54,  1.36s/it]  4%|▎         | 2180/61904 [49:51<23:50:36,  1.44s/it]                                                       {'loss': 3.0435, 'learning_rate': 1.9679113185530923e-07, 'epoch': 0.56}
+  4%|▎         | 2180/61904 [49:51<23:50:36,  1.44s/it]  4%|▎         | 2181/61904 [49:52<23:09:42,  1.40s/it]  4%|▎         | 2182/61904 [49:54<22:29:54,  1.36s/it]  4%|▎         | 2183/61904 [49:55<22:00:20,  1.33s/it]  4%|▎         | 2184/61904 [49:56<21:44:38,  1.31s/it]  4%|▎         | 2185/61904 [49:58<22:21:31,  1.35s/it]  4%|▎         | 2186/61904 [49:59<22:30:23,  1.36s/it]  4%|▎         | 2187/61904 [50:00<23:05:37,  1.39s/it]  4%|▎         | 2188/61904 [50:02<22:53:05,  1.38s/it]  4%|▎         | 2189/61904 [50:03<22:51:31,  1.38s/it]  4%|▎         | 2190/61904 [50:05<23:02:29,  1.39s/it]  4%|▎         | 2191/61904 [50:06<23:15:13,  1.40s/it]  4%|▎         | 2192/61904 [50:07<23:24:15,  1.41s/it]  4%|▎         | 2193/61904 [50:09<23:27:28,  1.41s/it]  4%|▎         | 2194/61904 [50:10<23:42:10,  1.43s/it]  4%|▎         | 2195/61904 [50:12<23:47:59,  1.43s/it]  4%|▎         | 2196/61904 [50:13<23:31:20,  1.42s/it]  4%|▎         | 2197/61904 [50:14<23:03:15,  1.39s/it]  4%|▎         | 2198/61904 [50:16<22:19:25,  1.35s/it]  4%|▎         | 2199/61904 [50:17<21:49:25,  1.32s/it]  4%|▎         | 2200/61904 [50:18<22:00:18,  1.33s/it]                                                       {'loss': 3.0728, 'learning_rate': 1.9675871904576687e-07, 'epoch': 0.57}
+  4%|▎         | 2200/61904 [50:18<22:00:18,  1.33s/it]  4%|▎         | 2201/61904 [50:20<22:24:00,  1.35s/it]  4%|▎         | 2202/61904 [50:21<22:05:28,  1.33s/it]  4%|▎         | 2203/61904 [50:22<21:49:06,  1.32s/it]  4%|▎         | 2204/61904 [50:24<21:27:03,  1.29s/it]  4%|▎         | 2205/61904 [50:25<21:54:13,  1.32s/it]  4%|▎         | 2206/61904 [50:26<21:52:27,  1.32s/it]  4%|▎         | 2207/61904 [50:28<21:44:04,  1.31s/it]  4%|▎         | 2208/61904 [50:29<22:13:20,  1.34s/it]  4%|▎         | 2209/61904 [50:30<21:40:25,  1.31s/it]  4%|▎         | 2210/61904 [50:31<21:32:21,  1.30s/it]  4%|▎         | 2211/61904 [50:33<22:06:15,  1.33s/it]  4%|▎         | 2212/61904 [50:34<21:55:59,  1.32s/it]  4%|▎         | 2213/61904 [50:35<22:00:18,  1.33s/it]  4%|▎         | 2214/61904 [50:37<22:03:38,  1.33s/it]  4%|▎         | 2215/61904 [50:38<22:28:12,  1.36s/it]  4%|▎         | 2216/61904 [50:40<23:28:25,  1.42s/it]  4%|▎         | 2217/61904 [50:41<23:37:51,  1.43s/it]  4%|▎         | 2218/61904 [50:43<23:05:03,  1.39s/it]  4%|▎         | 2219/61904 [50:44<22:46:30,  1.37s/it]  4%|▎         | 2220/61904 [50:45<23:35:00,  1.42s/it]                                                       {'loss': 3.1617, 'learning_rate': 1.9672630623622455e-07, 'epoch': 0.57}
+  4%|▎         | 2220/61904 [50:45<23:35:00,  1.42s/it]  4%|▎         | 2221/61904 [50:47<23:18:20,  1.41s/it]  4%|▎         | 2222/61904 [50:48<23:02:35,  1.39s/it]  4%|▎         | 2223/61904 [50:49<22:38:32,  1.37s/it]  4%|▎         | 2224/61904 [50:51<22:20:50,  1.35s/it]  4%|▎         | 2225/61904 [50:52<22:05:37,  1.33s/it]  4%|▎         | 2226/61904 [50:54<22:40:50,  1.37s/it]  4%|▎         | 2227/61904 [50:55<24:00:02,  1.45s/it]  4%|▎         | 2228/61904 [50:56<23:32:18,  1.42s/it]  4%|▎         | 2229/61904 [50:58<23:22:02,  1.41s/it]  4%|▎         | 2230/61904 [50:59<22:49:19,  1.38s/it]  4%|▎         | 2231/61904 [51:00<21:53:17,  1.32s/it]  4%|▎         | 2232/61904 [51:02<22:01:48,  1.33s/it]  4%|▎         | 2233/61904 [51:03<22:32:25,  1.36s/it]  4%|▎         | 2234/61904 [51:05<22:45:29,  1.37s/it]  4%|▎         | 2235/61904 [51:06<22:33:50,  1.36s/it]  4%|▎         | 2236/61904 [51:07<22:43:50,  1.37s/it]  4%|▎         | 2237/61904 [51:09<22:45:55,  1.37s/it]  4%|▎         | 2238/61904 [51:10<22:23:13,  1.35s/it]  4%|▎         | 2239/61904 [51:11<22:34:52,  1.36s/it]  4%|▎         | 2240/61904 [51:13<22:49:41,  1.38s/it]                                                       {'loss': 3.1428, 'learning_rate': 1.9669389342668222e-07, 'epoch': 0.58}
+  4%|▎         | 2240/61904 [51:13<22:49:41,  1.38s/it]  4%|▎         | 2241/61904 [51:14<23:37:34,  1.43s/it]  4%|▎         | 2242/61904 [51:16<24:26:45,  1.48s/it]  4%|▎         | 2243/61904 [51:17<23:34:08,  1.42s/it]  4%|▎         | 2244/61904 [51:19<23:14:10,  1.40s/it]  4%|▎         | 2245/61904 [51:20<23:19:11,  1.41s/it]  4%|▎         | 2246/61904 [51:21<22:55:41,  1.38s/it]  4%|▎         | 2247/61904 [51:23<22:48:16,  1.38s/it]  4%|▎         | 2248/61904 [51:24<22:40:22,  1.37s/it]  4%|▎         | 2249/61904 [51:25<22:21:42,  1.35s/it]  4%|▎         | 2250/61904 [51:27<22:04:45,  1.33s/it]  4%|▎         | 2251/61904 [51:28<22:42:09,  1.37s/it]  4%|▎         | 2252/61904 [51:30<23:07:09,  1.40s/it]  4%|▎         | 2253/61904 [51:31<23:24:48,  1.41s/it]  4%|▎         | 2254/61904 [51:32<22:51:38,  1.38s/it]  4%|▎         | 2255/61904 [51:34<23:55:37,  1.44s/it]  4%|▎         | 2256/61904 [51:35<23:49:04,  1.44s/it]  4%|▎         | 2257/61904 [51:37<22:56:23,  1.38s/it]  4%|▎         | 2258/61904 [51:38<23:06:03,  1.39s/it]  4%|▎         | 2259/61904 [51:39<23:03:38,  1.39s/it]  4%|▎         | 2260/61904 [51:41<22:43:09,  1.37s/it]                                                       {'loss': 3.0638, 'learning_rate': 1.9666148061713988e-07, 'epoch': 0.58}
+  4%|▎         | 2260/61904 [51:41<22:43:09,  1.37s/it]  4%|▎         | 2261/61904 [51:42<22:00:21,  1.33s/it]  4%|▎         | 2262/61904 [51:43<21:59:47,  1.33s/it]  4%|▎         | 2263/61904 [51:45<21:56:03,  1.32s/it]  4%|▎         | 2264/61904 [51:46<22:22:23,  1.35s/it]  4%|▎         | 2265/61904 [51:47<22:18:02,  1.35s/it]  4%|▎         | 2266/61904 [51:49<22:16:48,  1.34s/it]  4%|▎         | 2267/61904 [51:50<22:42:43,  1.37s/it]  4%|▎         | 2268/61904 [51:51<22:35:13,  1.36s/it]  4%|▎         | 2269/61904 [51:53<22:09:43,  1.34s/it]  4%|▎         | 2270/61904 [51:54<22:31:32,  1.36s/it]  4%|▎         | 2271/61904 [51:55<22:32:41,  1.36s/it]  4%|▎         | 2272/61904 [51:57<22:32:11,  1.36s/it]  4%|▎         | 2273/61904 [51:58<21:42:29,  1.31s/it]  4%|▎         | 2274/61904 [51:59<21:54:21,  1.32s/it]  4%|▎         | 2275/61904 [52:01<22:15:59,  1.34s/it]  4%|▎         | 2276/61904 [52:02<22:36:34,  1.37s/it]  4%|▎         | 2277/61904 [52:03<21:57:28,  1.33s/it]  4%|▎         | 2278/61904 [52:05<22:12:03,  1.34s/it]  4%|▎         | 2279/61904 [52:06<22:14:58,  1.34s/it]  4%|▎         | 2280/61904 [52:07<21:59:04,  1.33s/it]                                                       {'loss': 3.0397, 'learning_rate': 1.9662906780759757e-07, 'epoch': 0.59}
+  4%|▎         | 2280/61904 [52:07<21:59:04,  1.33s/it]  4%|▎         | 2281/61904 [52:09<21:58:51,  1.33s/it]  4%|▎         | 2282/61904 [52:10<22:53:46,  1.38s/it]  4%|▎         | 2283/61904 [52:12<22:26:49,  1.36s/it]  4%|▎         | 2284/61904 [52:13<22:25:32,  1.35s/it]  4%|▎         | 2285/61904 [52:14<22:33:27,  1.36s/it]  4%|▎         | 2286/61904 [52:16<22:17:11,  1.35s/it]  4%|▎         | 2287/61904 [52:17<22:11:38,  1.34s/it]  4%|▎         | 2288/61904 [52:18<22:23:34,  1.35s/it]  4%|▎         | 2289/61904 [52:20<22:12:15,  1.34s/it]  4%|▎         | 2290/61904 [52:21<22:42:24,  1.37s/it]  4%|▎         | 2291/61904 [52:22<22:19:07,  1.35s/it]  4%|▎         | 2292/61904 [52:24<22:52:39,  1.38s/it]  4%|▎         | 2293/61904 [52:25<23:04:44,  1.39s/it]  4%|▎         | 2294/61904 [52:27<22:51:19,  1.38s/it]  4%|▎         | 2295/61904 [52:28<22:26:56,  1.36s/it]  4%|▎         | 2296/61904 [52:29<21:49:14,  1.32s/it]  4%|▎         | 2297/61904 [52:30<21:37:50,  1.31s/it]  4%|▎         | 2298/61904 [52:32<22:42:35,  1.37s/it]  4%|▎         | 2299/61904 [52:33<23:03:15,  1.39s/it]  4%|▎         | 2300/61904 [52:35<22:39:08,  1.37s/it]                                                       {'loss': 3.107, 'learning_rate': 1.9659665499805523e-07, 'epoch': 0.59}
+  4%|▎         | 2300/61904 [52:35<22:39:08,  1.37s/it]  4%|▎         | 2301/61904 [52:36<22:17:32,  1.35s/it]  4%|▎         | 2302/61904 [52:37<22:57:32,  1.39s/it]  4%|▎         | 2303/61904 [52:39<23:03:18,  1.39s/it]  4%|▎         | 2304/61904 [52:40<23:26:53,  1.42s/it]  4%|▎         | 2305/61904 [52:42<23:11:58,  1.40s/it]  4%|▎         | 2306/61904 [52:43<23:15:59,  1.41s/it]  4%|▎         | 2307/61904 [52:44<22:20:36,  1.35s/it]  4%|▎         | 2308/61904 [52:46<22:25:22,  1.35s/it]  4%|▎         | 2309/61904 [52:47<22:29:37,  1.36s/it]  4%|▎         | 2310/61904 [52:48<22:42:59,  1.37s/it]  4%|▎         | 2311/61904 [52:50<22:11:31,  1.34s/it]  4%|▎         | 2312/61904 [52:51<22:22:01,  1.35s/it]  4%|▎         | 2313/61904 [52:52<22:00:00,  1.33s/it]  4%|▎         | 2314/61904 [52:54<21:40:23,  1.31s/it]  4%|▎         | 2315/61904 [52:55<21:32:37,  1.30s/it]  4%|▎         | 2316/61904 [52:56<21:53:24,  1.32s/it]  4%|▎         | 2317/61904 [52:58<22:09:37,  1.34s/it]  4%|▎         | 2318/61904 [52:59<21:55:16,  1.32s/it]  4%|▎         | 2319/61904 [53:00<21:48:32,  1.32s/it]  4%|▎         | 2320/61904 [53:02<22:41:40,  1.37s/it]                                                       {'loss': 3.0346, 'learning_rate': 1.965642421885129e-07, 'epoch': 0.6}
+  4%|▎         | 2320/61904 [53:02<22:41:40,  1.37s/it]  4%|▎         | 2321/61904 [53:03<23:23:27,  1.41s/it]  4%|▍         | 2322/61904 [53:05<23:17:33,  1.41s/it]  4%|▍         | 2323/61904 [53:06<23:10:47,  1.40s/it]  4%|▍         | 2324/61904 [53:07<23:23:24,  1.41s/it]  4%|▍         | 2325/61904 [53:09<23:01:57,  1.39s/it]  4%|▍         | 2326/61904 [53:10<23:32:36,  1.42s/it]  4%|▍         | 2327/61904 [53:12<24:01:31,  1.45s/it]  4%|▍         | 2328/61904 [53:13<23:56:33,  1.45s/it]  4%|▍         | 2329/61904 [53:15<24:00:18,  1.45s/it]  4%|▍         | 2330/61904 [53:16<23:26:37,  1.42s/it]  4%|▍         | 2331/61904 [53:17<23:20:09,  1.41s/it]  4%|▍         | 2332/61904 [53:19<23:27:21,  1.42s/it]  4%|▍         | 2333/61904 [53:20<23:28:04,  1.42s/it]  4%|▍         | 2334/61904 [53:22<23:08:52,  1.40s/it]  4%|▍         | 2335/61904 [53:23<22:34:24,  1.36s/it]  4%|▍         | 2336/61904 [53:24<22:19:37,  1.35s/it]  4%|▍         | 2337/61904 [53:26<22:09:28,  1.34s/it]  4%|▍         | 2338/61904 [53:27<22:41:55,  1.37s/it]  4%|▍         | 2339/61904 [53:28<22:38:30,  1.37s/it]  4%|▍         | 2340/61904 [53:30<22:14:18,  1.34s/it]                                                       {'loss': 3.129, 'learning_rate': 1.9653182937897058e-07, 'epoch': 0.6}
+  4%|▍         | 2340/61904 [53:30<22:14:18,  1.34s/it]  4%|▍         | 2341/61904 [53:31<21:50:18,  1.32s/it]  4%|▍         | 2342/61904 [53:32<21:36:22,  1.31s/it]  4%|▍         | 2343/61904 [53:33<20:51:10,  1.26s/it]  4%|▍         | 2344/61904 [53:35<20:52:52,  1.26s/it]  4%|▍         | 2345/61904 [53:36<21:13:06,  1.28s/it]  4%|▍         | 2346/61904 [53:37<22:09:51,  1.34s/it]  4%|▍         | 2347/61904 [53:39<22:14:55,  1.34s/it]  4%|▍         | 2348/61904 [53:40<21:52:17,  1.32s/it]  4%|▍         | 2349/61904 [53:41<22:07:53,  1.34s/it]  4%|▍         | 2350/61904 [53:43<22:25:03,  1.36s/it]  4%|▍         | 2351/61904 [53:44<22:20:22,  1.35s/it]  4%|▍         | 2352/61904 [53:46<22:18:46,  1.35s/it]  4%|▍         | 2353/61904 [53:47<22:01:00,  1.33s/it]  4%|▍         | 2354/61904 [53:48<23:13:01,  1.40s/it]  4%|▍         | 2355/61904 [53:50<22:39:57,  1.37s/it]  4%|▍         | 2356/61904 [53:51<22:25:26,  1.36s/it]  4%|▍         | 2357/61904 [53:52<22:12:30,  1.34s/it]  4%|▍         | 2358/61904 [53:54<22:24:08,  1.35s/it]  4%|▍         | 2359/61904 [53:55<22:19:16,  1.35s/it]  4%|▍         | 2360/61904 [53:57<22:55:49,  1.39s/it]                                                       {'loss': 3.1397, 'learning_rate': 1.9649941656942821e-07, 'epoch': 0.61}
+  4%|▍         | 2360/61904 [53:57<22:55:49,  1.39s/it]  4%|▍         | 2361/61904 [53:58<22:52:57,  1.38s/it]  4%|▍         | 2362/61904 [53:59<22:21:54,  1.35s/it]  4%|▍         | 2363/61904 [54:01<22:40:54,  1.37s/it]  4%|▍         | 2364/61904 [54:02<22:49:33,  1.38s/it]  4%|▍         | 2365/61904 [54:03<22:34:14,  1.36s/it]  4%|▍         | 2366/61904 [54:05<22:17:20,  1.35s/it]  4%|▍         | 2367/61904 [54:06<22:30:14,  1.36s/it]  4%|▍         | 2368/61904 [54:07<22:07:15,  1.34s/it]  4%|▍         | 2369/61904 [54:09<21:44:11,  1.31s/it]  4%|▍         | 2370/61904 [54:10<22:08:37,  1.34s/it]  4%|▍         | 2371/61904 [54:11<22:13:45,  1.34s/it]  4%|▍         | 2372/61904 [54:13<21:58:46,  1.33s/it]  4%|▍         | 2373/61904 [54:14<22:29:41,  1.36s/it]  4%|▍         | 2374/61904 [54:16<23:00:25,  1.39s/it]  4%|▍         | 2375/61904 [54:17<23:12:55,  1.40s/it]  4%|▍         | 2376/61904 [54:18<23:40:33,  1.43s/it]  4%|▍         | 2377/61904 [54:20<23:41:26,  1.43s/it]  4%|▍         | 2378/61904 [54:21<22:48:58,  1.38s/it]  4%|▍         | 2379/61904 [54:23<22:53:32,  1.38s/it]  4%|▍         | 2380/61904 [54:24<23:29:29,  1.42s/it]                                                       {'loss': 3.1279, 'learning_rate': 1.964670037598859e-07, 'epoch': 0.62}
+  4%|▍         | 2380/61904 [54:24<23:29:29,  1.42s/it]  4%|▍         | 2381/61904 [54:25<23:22:56,  1.41s/it]  4%|▍         | 2382/61904 [54:27<22:48:48,  1.38s/it]  4%|▍         | 2383/61904 [54:28<22:31:28,  1.36s/it]  4%|▍         | 2384/61904 [54:29<22:03:43,  1.33s/it]  4%|▍         | 2385/61904 [54:31<22:17:09,  1.35s/it]  4%|▍         | 2386/61904 [54:32<22:00:17,  1.33s/it]  4%|▍         | 2387/61904 [54:33<22:17:19,  1.35s/it]  4%|▍         | 2388/61904 [54:35<22:21:36,  1.35s/it]  4%|▍         | 2389/61904 [54:36<22:29:30,  1.36s/it]  4%|▍         | 2390/61904 [54:38<22:36:56,  1.37s/it]  4%|▍         | 2391/61904 [54:39<22:21:13,  1.35s/it]  4%|▍         | 2392/61904 [54:40<21:47:08,  1.32s/it]  4%|▍         | 2393/61904 [54:41<21:12:48,  1.28s/it]  4%|▍         | 2394/61904 [54:43<22:05:06,  1.34s/it]  4%|▍         | 2395/61904 [54:44<22:05:06,  1.34s/it]  4%|▍         | 2396/61904 [54:45<22:14:45,  1.35s/it]  4%|▍         | 2397/61904 [54:47<22:37:22,  1.37s/it]  4%|▍         | 2398/61904 [54:48<23:11:53,  1.40s/it]  4%|▍         | 2399/61904 [54:50<23:41:49,  1.43s/it]  4%|▍         | 2400/61904 [54:51<22:45:23,  1.38s/it]                                                       {'loss': 3.0967, 'learning_rate': 1.9643459095034356e-07, 'epoch': 0.62}
+  4%|▍         | 2400/61904 [54:51<22:45:23,  1.38s/it]  4%|▍         | 2401/61904 [54:52<21:47:10,  1.32s/it]  4%|▍         | 2402/61904 [54:54<21:53:31,  1.32s/it]  4%|▍         | 2403/61904 [54:55<21:49:16,  1.32s/it]  4%|▍         | 2404/61904 [54:56<21:44:27,  1.32s/it]  4%|▍         | 2405/61904 [54:57<21:35:28,  1.31s/it]  4%|▍         | 2406/61904 [54:59<21:32:17,  1.30s/it]  4%|▍         | 2407/61904 [55:00<22:00:18,  1.33s/it]  4%|▍         | 2408/61904 [55:01<21:46:22,  1.32s/it]  4%|▍         | 2409/61904 [55:03<21:59:43,  1.33s/it]  4%|▍         | 2410/61904 [55:04<21:59:14,  1.33s/it]  4%|▍         | 2411/61904 [55:05<21:27:45,  1.30s/it]  4%|▍         | 2412/61904 [55:07<21:25:30,  1.30s/it]  4%|▍         | 2413/61904 [55:08<21:18:46,  1.29s/it]  4%|▍         | 2414/61904 [55:09<21:38:43,  1.31s/it]  4%|▍         | 2415/61904 [55:11<22:16:58,  1.35s/it]  4%|▍         | 2416/61904 [55:12<22:03:36,  1.34s/it]  4%|▍         | 2417/61904 [55:13<21:59:51,  1.33s/it]  4%|▍         | 2418/61904 [55:15<22:25:52,  1.36s/it]  4%|▍         | 2419/61904 [55:16<22:56:36,  1.39s/it]  4%|▍         | 2420/61904 [55:18<22:15:42,  1.35s/it]                                                       {'loss': 3.1463, 'learning_rate': 1.9640217814080123e-07, 'epoch': 0.63}
+  4%|▍         | 2420/61904 [55:18<22:15:42,  1.35s/it]  4%|▍         | 2421/61904 [55:19<22:22:30,  1.35s/it]  4%|▍         | 2422/61904 [55:20<22:32:04,  1.36s/it]  4%|▍         | 2423/61904 [55:22<23:07:01,  1.40s/it]  4%|▍         | 2424/61904 [55:23<22:24:57,  1.36s/it]  4%|▍         | 2425/61904 [55:25<23:24:47,  1.42s/it]  4%|▍         | 2426/61904 [55:26<23:05:50,  1.40s/it]  4%|▍         | 2427/61904 [55:27<22:47:43,  1.38s/it]  4%|▍         | 2428/61904 [55:29<23:48:46,  1.44s/it]  4%|▍         | 2429/61904 [55:30<23:28:01,  1.42s/it]  4%|▍         | 2430/61904 [55:32<23:03:33,  1.40s/it]  4%|▍         | 2431/61904 [55:33<22:59:55,  1.39s/it]  4%|▍         | 2432/61904 [55:34<22:48:00,  1.38s/it]  4%|▍         | 2433/61904 [55:36<22:14:00,  1.35s/it]  4%|▍         | 2434/61904 [55:37<22:53:55,  1.39s/it]  4%|▍         | 2435/61904 [55:38<23:06:43,  1.40s/it]  4%|▍         | 2436/61904 [55:40<22:43:08,  1.38s/it]  4%|▍         | 2437/61904 [55:41<22:22:37,  1.35s/it]  4%|▍         | 2438/61904 [55:42<22:34:22,  1.37s/it]  4%|▍         | 2439/61904 [55:44<22:28:19,  1.36s/it]  4%|▍         | 2440/61904 [55:45<23:34:48,  1.43s/it]                                                       {'loss': 3.1406, 'learning_rate': 1.9636976533125891e-07, 'epoch': 0.63}
+  4%|▍         | 2440/61904 [55:45<23:34:48,  1.43s/it]  4%|▍         | 2441/61904 [55:47<22:53:50,  1.39s/it]  4%|▍         | 2442/61904 [55:48<23:11:00,  1.40s/it]  4%|▍         | 2443/61904 [55:49<22:42:36,  1.37s/it]  4%|▍         | 2444/61904 [55:51<22:36:16,  1.37s/it]  4%|▍         | 2445/61904 [55:52<21:51:18,  1.32s/it]  4%|▍         | 2446/61904 [55:53<22:28:57,  1.36s/it]  4%|▍         | 2447/61904 [55:55<21:59:22,  1.33s/it]  4%|▍         | 2448/61904 [55:56<22:39:38,  1.37s/it]  4%|▍         | 2449/61904 [55:58<22:41:05,  1.37s/it]  4%|▍         | 2450/61904 [55:59<22:35:06,  1.37s/it]  4%|▍         | 2451/61904 [56:00<22:32:48,  1.37s/it]  4%|▍         | 2452/61904 [56:02<22:15:16,  1.35s/it]  4%|▍         | 2453/61904 [56:03<22:30:43,  1.36s/it]  4%|▍         | 2454/61904 [56:04<22:18:53,  1.35s/it]  4%|▍         | 2455/61904 [56:06<22:33:42,  1.37s/it]  4%|▍         | 2456/61904 [56:07<22:20:37,  1.35s/it]  4%|▍         | 2457/61904 [56:09<23:02:16,  1.40s/it]  4%|▍         | 2458/61904 [56:10<23:04:00,  1.40s/it]  4%|▍         | 2459/61904 [56:11<23:03:02,  1.40s/it]  4%|▍         | 2460/61904 [56:13<23:11:05,  1.40s/it]                                                       {'loss': 3.082, 'learning_rate': 1.9633735252171658e-07, 'epoch': 0.64}
+  4%|▍         | 2460/61904 [56:13<23:11:05,  1.40s/it]  4%|▍         | 2461/61904 [56:14<23:19:15,  1.41s/it]  4%|▍         | 2462/61904 [56:16<23:15:00,  1.41s/it]  4%|▍         | 2463/61904 [56:17<23:16:38,  1.41s/it]  4%|▍         | 2464/61904 [56:18<23:26:11,  1.42s/it]  4%|▍         | 2465/61904 [56:20<22:54:01,  1.39s/it]  4%|▍         | 2466/61904 [56:21<22:31:55,  1.36s/it]  4%|▍         | 2467/61904 [56:23<23:11:33,  1.40s/it]  4%|▍         | 2468/61904 [56:24<24:35:31,  1.49s/it]  4%|▍         | 2469/61904 [56:26<23:39:36,  1.43s/it]  4%|▍         | 2470/61904 [56:27<22:54:05,  1.39s/it]  4%|▍         | 2471/61904 [56:28<22:48:26,  1.38s/it]  4%|▍         | 2472/61904 [56:30<22:26:16,  1.36s/it]  4%|▍         | 2473/61904 [56:31<23:09:12,  1.40s/it]  4%|▍         | 2474/61904 [56:32<22:31:53,  1.36s/it]  4%|▍         | 2475/61904 [56:34<22:39:05,  1.37s/it]  4%|▍         | 2476/61904 [56:35<21:55:10,  1.33s/it]  4%|▍         | 2477/61904 [56:36<21:43:28,  1.32s/it]  4%|▍         | 2478/61904 [56:38<21:58:39,  1.33s/it]  4%|▍         | 2479/61904 [56:39<21:27:28,  1.30s/it]  4%|▍         | 2480/61904 [56:40<21:41:04,  1.31s/it]                                                       {'loss': 3.1255, 'learning_rate': 1.9630493971217424e-07, 'epoch': 0.64}
+  4%|▍         | 2480/61904 [56:40<21:41:04,  1.31s/it]  4%|▍         | 2481/61904 [56:41<21:33:20,  1.31s/it]  4%|▍         | 2482/61904 [56:43<21:56:39,  1.33s/it]  4%|▍         | 2483/61904 [56:44<22:46:24,  1.38s/it]  4%|▍         | 2484/61904 [56:46<22:11:46,  1.34s/it]  4%|▍         | 2485/61904 [56:47<21:51:30,  1.32s/it]  4%|▍         | 2486/61904 [56:48<22:21:31,  1.35s/it]  4%|▍         | 2487/61904 [56:49<21:43:11,  1.32s/it]  4%|▍         | 2488/61904 [56:51<21:37:38,  1.31s/it]  4%|▍         | 2489/61904 [56:52<21:54:41,  1.33s/it]  4%|▍         | 2490/61904 [56:54<21:59:28,  1.33s/it]  4%|▍         | 2491/61904 [56:55<21:52:04,  1.33s/it]  4%|▍         | 2492/61904 [56:56<22:07:47,  1.34s/it]  4%|▍         | 2493/61904 [56:58<22:39:57,  1.37s/it]  4%|▍         | 2494/61904 [56:59<23:38:24,  1.43s/it]  4%|▍         | 2495/61904 [57:01<23:34:22,  1.43s/it]  4%|▍         | 2496/61904 [57:02<23:00:57,  1.39s/it]  4%|▍         | 2497/61904 [57:03<23:05:11,  1.40s/it]  4%|▍         | 2498/61904 [57:05<23:01:33,  1.40s/it]  4%|▍         | 2499/61904 [57:06<24:22:19,  1.48s/it]  4%|▍         | 2500/61904 [57:08<24:13:22,  1.47s/it]                                                       {'loss': 3.1521, 'learning_rate': 1.9627252690263193e-07, 'epoch': 0.65}
+  4%|▍         | 2500/61904 [57:08<24:13:22,  1.47s/it]  4%|▍         | 2501/61904 [57:09<24:03:56,  1.46s/it]  4%|▍         | 2502/61904 [57:11<23:17:16,  1.41s/it]  4%|▍         | 2503/61904 [57:12<23:11:56,  1.41s/it]  4%|▍         | 2504/61904 [57:13<23:13:53,  1.41s/it]  4%|▍         | 2505/61904 [57:15<23:08:35,  1.40s/it]  4%|▍         | 2506/61904 [57:16<23:50:50,  1.45s/it]  4%|▍         | 2507/61904 [57:18<23:18:43,  1.41s/it]  4%|▍         | 2508/61904 [57:19<22:14:12,  1.35s/it]  4%|▍         | 2509/61904 [57:20<22:52:11,  1.39s/it]  4%|▍         | 2510/61904 [57:22<22:33:38,  1.37s/it]  4%|▍         | 2511/61904 [57:23<22:58:59,  1.39s/it]  4%|▍         | 2512/61904 [57:24<22:39:02,  1.37s/it]  4%|▍         | 2513/61904 [57:26<22:09:33,  1.34s/it]  4%|▍         | 2514/61904 [57:27<22:13:50,  1.35s/it]  4%|▍         | 2515/61904 [57:28<21:55:07,  1.33s/it]  4%|▍         | 2516/61904 [57:30<22:05:06,  1.34s/it]  4%|▍         | 2517/61904 [57:31<22:02:02,  1.34s/it]  4%|▍         | 2518/61904 [57:32<21:49:42,  1.32s/it]  4%|▍         | 2519/61904 [57:34<22:00:18,  1.33s/it]  4%|▍         | 2520/61904 [57:35<21:58:38,  1.33s/it]                                                       {'loss': 3.0601, 'learning_rate': 1.9624011409308956e-07, 'epoch': 0.65}
+  4%|▍         | 2520/61904 [57:35<21:58:38,  1.33s/it]  4%|▍         | 2521/61904 [57:37<23:01:18,  1.40s/it]  4%|▍         | 2522/61904 [57:38<22:21:08,  1.36s/it]  4%|▍         | 2523/61904 [57:39<22:18:57,  1.35s/it]  4%|▍         | 2524/61904 [57:41<23:10:25,  1.40s/it]  4%|▍         | 2525/61904 [57:42<23:06:35,  1.40s/it]  4%|▍         | 2526/61904 [57:43<22:46:06,  1.38s/it]  4%|▍         | 2527/61904 [57:45<22:48:28,  1.38s/it]  4%|▍         | 2528/61904 [57:46<22:48:42,  1.38s/it]  4%|▍         | 2529/61904 [57:47<22:21:41,  1.36s/it]  4%|▍         | 2530/61904 [57:49<21:54:55,  1.33s/it]  4%|▍         | 2531/61904 [57:50<22:21:26,  1.36s/it]  4%|▍         | 2532/61904 [57:51<21:57:07,  1.33s/it]  4%|▍         | 2533/61904 [57:53<22:06:06,  1.34s/it]  4%|▍         | 2534/61904 [57:54<22:20:14,  1.35s/it]  4%|▍         | 2535/61904 [57:56<23:02:26,  1.40s/it]  4%|▍         | 2536/61904 [57:57<23:11:46,  1.41s/it]  4%|▍         | 2537/61904 [57:58<22:53:12,  1.39s/it]  4%|▍         | 2538/61904 [58:00<22:30:37,  1.37s/it]  4%|▍         | 2539/61904 [58:01<22:03:48,  1.34s/it]  4%|▍         | 2540/61904 [58:02<21:53:22,  1.33s/it]                                                       {'loss': 3.0209, 'learning_rate': 1.9620770128354725e-07, 'epoch': 0.66}
+  4%|▍         | 2540/61904 [58:02<21:53:22,  1.33s/it]  4%|▍         | 2541/61904 [58:04<21:46:03,  1.32s/it]  4%|▍         | 2542/61904 [58:05<22:02:50,  1.34s/it]  4%|▍         | 2543/61904 [58:06<22:07:30,  1.34s/it]  4%|▍         | 2544/61904 [58:08<23:15:44,  1.41s/it]  4%|▍         | 2545/61904 [58:09<22:34:06,  1.37s/it]  4%|▍         | 2546/61904 [58:11<22:16:00,  1.35s/it]  4%|▍         | 2547/61904 [58:12<22:19:18,  1.35s/it]  4%|▍         | 2548/61904 [58:13<22:47:05,  1.38s/it]  4%|▍         | 2549/61904 [58:15<22:15:04,  1.35s/it]  4%|▍         | 2550/61904 [58:16<21:52:24,  1.33s/it]  4%|▍         | 2551/61904 [58:17<21:47:36,  1.32s/it]  4%|▍         | 2552/61904 [58:19<21:42:03,  1.32s/it]  4%|▍         | 2553/61904 [58:20<22:31:50,  1.37s/it]  4%|▍         | 2554/61904 [58:21<22:11:54,  1.35s/it]  4%|▍         | 2555/61904 [58:23<21:46:11,  1.32s/it]  4%|▍         | 2556/61904 [58:24<22:06:06,  1.34s/it]  4%|▍         | 2557/61904 [58:25<22:09:57,  1.34s/it]  4%|▍         | 2558/61904 [58:27<22:09:35,  1.34s/it]  4%|▍         | 2559/61904 [58:28<22:57:34,  1.39s/it]  4%|▍         | 2560/61904 [58:30<23:12:31,  1.41s/it]                                                       {'loss': 3.1306, 'learning_rate': 1.9617528847400494e-07, 'epoch': 0.66}
+  4%|▍         | 2560/61904 [58:30<23:12:31,  1.41s/it]  4%|▍         | 2561/61904 [58:31<22:43:00,  1.38s/it]  4%|▍         | 2562/61904 [58:32<22:16:19,  1.35s/it]  4%|▍         | 2563/61904 [58:34<22:43:19,  1.38s/it]  4%|▍         | 2564/61904 [58:35<23:18:50,  1.41s/it]  4%|▍         | 2565/61904 [58:36<22:55:17,  1.39s/it]  4%|▍         | 2566/61904 [58:38<22:29:01,  1.36s/it]  4%|▍         | 2567/61904 [58:39<22:00:03,  1.33s/it]  4%|▍         | 2568/61904 [58:40<22:37:29,  1.37s/it]  4%|▍         | 2569/61904 [58:42<22:12:18,  1.35s/it]  4%|▍         | 2570/61904 [58:43<22:04:23,  1.34s/it]  4%|▍         | 2571/61904 [58:44<22:03:47,  1.34s/it]  4%|▍         | 2572/61904 [58:46<22:39:16,  1.37s/it]  4%|▍         | 2573/61904 [58:47<21:52:05,  1.33s/it]  4%|▍         | 2574/61904 [58:48<21:54:23,  1.33s/it]  4%|▍         | 2575/61904 [58:50<22:13:32,  1.35s/it]  4%|▍         | 2576/61904 [58:51<21:44:41,  1.32s/it]  4%|▍         | 2577/61904 [58:52<21:40:22,  1.32s/it]  4%|▍         | 2578/61904 [58:54<21:44:26,  1.32s/it]  4%|▍         | 2579/61904 [58:55<21:53:07,  1.33s/it]  4%|▍         | 2580/61904 [58:56<22:13:22,  1.35s/it]                                                       {'loss': 3.0942, 'learning_rate': 1.9614287566446257e-07, 'epoch': 0.67}
+  4%|▍         | 2580/61904 [58:56<22:13:22,  1.35s/it]  4%|▍         | 2581/61904 [58:58<22:00:13,  1.34s/it]  4%|▍         | 2582/61904 [58:59<22:35:18,  1.37s/it]  4%|▍         | 2583/61904 [59:01<22:30:44,  1.37s/it]  4%|▍         | 2584/61904 [59:02<21:57:27,  1.33s/it]  4%|▍         | 2585/61904 [59:03<22:47:01,  1.38s/it]  4%|▍         | 2586/61904 [59:05<22:01:13,  1.34s/it]  4%|▍         | 2587/61904 [59:06<21:57:52,  1.33s/it]  4%|▍         | 2588/61904 [59:07<22:14:20,  1.35s/it]  4%|▍         | 2589/61904 [59:09<23:05:33,  1.40s/it]  4%|▍         | 2590/61904 [59:10<23:50:38,  1.45s/it]  4%|▍         | 2591/61904 [59:12<23:07:32,  1.40s/it]  4%|▍         | 2592/61904 [59:13<22:52:43,  1.39s/it]  4%|▍         | 2593/61904 [59:15<23:29:19,  1.43s/it]  4%|▍         | 2594/61904 [59:16<23:02:41,  1.40s/it]  4%|▍         | 2595/61904 [59:17<22:38:13,  1.37s/it]  4%|▍         | 2596/61904 [59:19<22:41:29,  1.38s/it]  4%|▍         | 2597/61904 [59:20<22:50:21,  1.39s/it]  4%|▍         | 2598/61904 [59:21<22:41:33,  1.38s/it]  4%|▍         | 2599/61904 [59:23<23:24:39,  1.42s/it]  4%|▍         | 2600/61904 [59:24<23:11:46,  1.41s/it]                                                       {'loss': 3.0927, 'learning_rate': 1.9611046285492026e-07, 'epoch': 0.67}
+  4%|▍         | 2600/61904 [59:24<23:11:46,  1.41s/it]  4%|▍         | 2601/61904 [59:25<22:23:42,  1.36s/it]  4%|▍         | 2602/61904 [59:27<22:18:32,  1.35s/it]  4%|▍         | 2603/61904 [59:28<21:52:22,  1.33s/it]  4%|▍         | 2604/61904 [59:30<22:33:28,  1.37s/it]  4%|▍         | 2605/61904 [59:31<22:46:02,  1.38s/it]  4%|▍         | 2606/61904 [59:32<22:16:24,  1.35s/it]  4%|▍         | 2607/61904 [59:34<22:52:39,  1.39s/it]  4%|▍         | 2608/61904 [59:35<22:32:41,  1.37s/it]  4%|▍         | 2609/61904 [59:36<22:45:30,  1.38s/it]  4%|▍         | 2610/61904 [59:38<22:10:14,  1.35s/it]  4%|▍         | 2611/61904 [59:39<22:02:14,  1.34s/it]  4%|▍         | 2612/61904 [59:40<22:31:13,  1.37s/it]  4%|▍         | 2613/61904 [59:42<22:01:02,  1.34s/it]  4%|▍         | 2614/61904 [59:43<22:28:37,  1.36s/it]  4%|▍         | 2615/61904 [59:44<21:55:46,  1.33s/it]  4%|▍         | 2616/61904 [59:46<21:18:13,  1.29s/it]  4%|▍         | 2617/61904 [59:47<22:10:58,  1.35s/it]  4%|▍         | 2618/61904 [59:48<21:48:55,  1.32s/it]  4%|▍         | 2619/61904 [59:50<21:38:02,  1.31s/it]  4%|▍         | 2620/61904 [59:51<21:19:50,  1.30s/it]                                                       {'loss': 3.0501, 'learning_rate': 1.9607805004537792e-07, 'epoch': 0.68}
+  4%|▍         | 2620/61904 [59:51<21:19:50,  1.30s/it]  4%|▍         | 2621/61904 [59:52<21:21:27,  1.30s/it]  4%|▍         | 2622/61904 [59:54<22:14:25,  1.35s/it]  4%|▍         | 2623/61904 [59:55<22:37:21,  1.37s/it]  4%|▍         | 2624/61904 [59:57<23:27:55,  1.43s/it]  4%|▍         | 2625/61904 [59:58<23:24:13,  1.42s/it]  4%|▍         | 2626/61904 [59:59<22:27:42,  1.36s/it]  4%|▍         | 2627/61904 [1:00:01<22:59:47,  1.40s/it]  4%|▍         | 2628/61904 [1:00:02<22:34:30,  1.37s/it]  4%|▍         | 2629/61904 [1:00:03<22:18:41,  1.36s/it]  4%|▍         | 2630/61904 [1:00:05<22:54:47,  1.39s/it]  4%|▍         | 2631/61904 [1:00:06<23:03:28,  1.40s/it]  4%|▍         | 2632/61904 [1:00:08<22:28:47,  1.37s/it]  4%|▍         | 2633/61904 [1:00:09<22:06:35,  1.34s/it]  4%|▍         | 2634/61904 [1:00:11<23:59:31,  1.46s/it]  4%|▍         | 2635/61904 [1:00:12<23:27:24,  1.42s/it]  4%|▍         | 2636/61904 [1:00:13<23:18:06,  1.42s/it]  4%|▍         | 2637/61904 [1:00:15<22:27:44,  1.36s/it]  4%|▍         | 2638/61904 [1:00:16<21:58:55,  1.34s/it]  4%|▍         | 2639/61904 [1:00:17<22:38:25,  1.38s/it]  4%|▍         | 2640/61904 [1:00:19<22:10:40,  1.35s/it]                                                         {'loss': 3.0339, 'learning_rate': 1.9604563723583559e-07, 'epoch': 0.68}
+  4%|▍         | 2640/61904 [1:00:19<22:10:40,  1.35s/it]  4%|▍         | 2641/61904 [1:00:20<22:11:55,  1.35s/it]  4%|▍         | 2642/61904 [1:00:21<22:23:43,  1.36s/it]  4%|▍         | 2643/61904 [1:00:23<22:48:37,  1.39s/it]  4%|▍         | 2644/61904 [1:00:24<23:07:38,  1.40s/it]  4%|▍         | 2645/61904 [1:00:26<23:35:58,  1.43s/it]  4%|▍         | 2646/61904 [1:00:27<23:34:24,  1.43s/it]  4%|▍         | 2647/61904 [1:00:28<23:01:52,  1.40s/it]  4%|▍         | 2648/61904 [1:00:30<23:06:09,  1.40s/it]  4%|▍         | 2649/61904 [1:00:31<23:25:37,  1.42s/it]  4%|▍         | 2650/61904 [1:00:33<22:42:59,  1.38s/it]  4%|▍         | 2651/61904 [1:00:34<22:42:51,  1.38s/it]  4%|▍         | 2652/61904 [1:00:35<22:48:57,  1.39s/it]  4%|▍         | 2653/61904 [1:00:37<22:33:02,  1.37s/it]  4%|▍         | 2654/61904 [1:00:38<22:42:26,  1.38s/it]  4%|▍         | 2655/61904 [1:00:40<23:32:53,  1.43s/it]  4%|▍         | 2656/61904 [1:00:41<23:11:19,  1.41s/it]  4%|▍         | 2657/61904 [1:00:42<22:56:34,  1.39s/it]  4%|▍         | 2658/61904 [1:00:44<22:54:40,  1.39s/it]  4%|▍         | 2659/61904 [1:00:45<22:18:36,  1.36s/it]  4%|▍         | 2660/61904 [1:00:46<22:28:53,  1.37s/it]                                                         {'loss': 3.03, 'learning_rate': 1.9601322442629327e-07, 'epoch': 0.69}
+  4%|▍         | 2660/61904 [1:00:46<22:28:53,  1.37s/it]  4%|▍         | 2661/61904 [1:00:48<22:07:38,  1.34s/it]  4%|▍         | 2662/61904 [1:00:49<22:16:39,  1.35s/it]  4%|▍         | 2663/61904 [1:00:50<21:59:50,  1.34s/it]  4%|▍         | 2664/61904 [1:00:52<22:24:28,  1.36s/it]  4%|▍         | 2665/61904 [1:00:53<22:13:43,  1.35s/it]  4%|▍         | 2666/61904 [1:00:55<22:03:21,  1.34s/it]  4%|▍         | 2667/61904 [1:00:56<21:56:09,  1.33s/it]  4%|▍         | 2668/61904 [1:00:57<21:27:18,  1.30s/it]  4%|▍         | 2669/61904 [1:00:58<21:29:11,  1.31s/it]  4%|▍         | 2670/61904 [1:01:00<21:44:46,  1.32s/it]  4%|▍         | 2671/61904 [1:01:01<22:39:16,  1.38s/it]  4%|▍         | 2672/61904 [1:01:03<22:21:04,  1.36s/it]  4%|▍         | 2673/61904 [1:01:04<22:04:13,  1.34s/it]  4%|▍         | 2674/61904 [1:01:05<21:57:49,  1.33s/it]  4%|▍         | 2675/61904 [1:01:07<22:14:21,  1.35s/it]  4%|▍         | 2676/61904 [1:01:08<21:36:41,  1.31s/it]  4%|▍         | 2677/61904 [1:01:09<21:46:10,  1.32s/it]  4%|▍         | 2678/61904 [1:01:10<21:40:01,  1.32s/it]  4%|▍         | 2679/61904 [1:01:12<21:56:57,  1.33s/it]  4%|▍         | 2680/61904 [1:01:13<22:18:36,  1.36s/it]                                                         {'loss': 3.0811, 'learning_rate': 1.9598081161675094e-07, 'epoch': 0.69}
+  4%|▍         | 2680/61904 [1:01:13<22:18:36,  1.36s/it]  4%|▍         | 2681/61904 [1:01:15<22:25:46,  1.36s/it]  4%|▍         | 2682/61904 [1:01:16<21:51:49,  1.33s/it]  4%|▍         | 2683/61904 [1:01:17<22:05:06,  1.34s/it]  4%|▍         | 2684/61904 [1:01:19<22:18:23,  1.36s/it]  4%|▍         | 2685/61904 [1:01:20<22:32:47,  1.37s/it]  4%|▍         | 2686/61904 [1:01:21<22:36:59,  1.37s/it]  4%|▍         | 2687/61904 [1:01:23<22:19:39,  1.36s/it]  4%|▍         | 2688/61904 [1:01:24<22:03:10,  1.34s/it]  4%|▍         | 2689/61904 [1:01:25<22:10:10,  1.35s/it]  4%|▍         | 2690/61904 [1:01:27<22:54:42,  1.39s/it]  4%|▍         | 2691/61904 [1:01:28<23:16:21,  1.41s/it]  4%|▍         | 2692/61904 [1:01:30<22:41:24,  1.38s/it]  4%|▍         | 2693/61904 [1:01:31<22:15:57,  1.35s/it]  4%|▍         | 2694/61904 [1:01:32<22:01:04,  1.34s/it]  4%|▍         | 2695/61904 [1:01:34<22:14:08,  1.35s/it]  4%|▍         | 2696/61904 [1:01:35<22:04:17,  1.34s/it]  4%|▍         | 2697/61904 [1:01:36<22:12:04,  1.35s/it]  4%|▍         | 2698/61904 [1:01:38<22:14:30,  1.35s/it]  4%|▍         | 2699/61904 [1:01:39<21:28:52,  1.31s/it]  4%|▍         | 2700/61904 [1:01:40<21:33:28,  1.31s/it]                                                         {'loss': 3.0863, 'learning_rate': 1.959483988072086e-07, 'epoch': 0.7}
+  4%|▍         | 2700/61904 [1:01:40<21:33:28,  1.31s/it]  4%|▍         | 2701/61904 [1:01:41<21:06:58,  1.28s/it]  4%|▍         | 2702/61904 [1:01:43<20:53:53,  1.27s/it]  4%|▍         | 2703/61904 [1:01:44<22:15:53,  1.35s/it]  4%|▍         | 2704/61904 [1:01:45<21:52:24,  1.33s/it]  4%|▍         | 2705/61904 [1:01:47<22:18:08,  1.36s/it]  4%|▍         | 2706/61904 [1:01:48<23:29:06,  1.43s/it]  4%|▍         | 2707/61904 [1:01:50<23:16:15,  1.42s/it]  4%|▍         | 2708/61904 [1:01:51<22:32:31,  1.37s/it]  4%|▍         | 2709/61904 [1:01:53<23:05:15,  1.40s/it]  4%|▍         | 2710/61904 [1:01:54<22:46:24,  1.39s/it]  4%|▍         | 2711/61904 [1:01:55<22:32:46,  1.37s/it]  4%|▍         | 2712/61904 [1:01:57<22:47:15,  1.39s/it]  4%|▍         | 2713/61904 [1:01:58<22:56:56,  1.40s/it]  4%|▍         | 2714/61904 [1:02:00<23:03:34,  1.40s/it]  4%|▍         | 2715/61904 [1:02:01<22:50:48,  1.39s/it]  4%|▍         | 2716/61904 [1:02:02<23:08:02,  1.41s/it]  4%|▍         | 2717/61904 [1:02:04<23:03:57,  1.40s/it]  4%|▍         | 2718/61904 [1:02:05<22:27:58,  1.37s/it]  4%|▍         | 2719/61904 [1:02:06<22:09:03,  1.35s/it]  4%|▍         | 2720/61904 [1:02:08<22:40:28,  1.38s/it]                                                         {'loss': 3.0027, 'learning_rate': 1.9591598599766629e-07, 'epoch': 0.7}
+  4%|▍         | 2720/61904 [1:02:08<22:40:28,  1.38s/it]  4%|▍         | 2721/61904 [1:02:09<21:45:08,  1.32s/it]  4%|▍         | 2722/61904 [1:02:10<22:12:20,  1.35s/it]  4%|▍         | 2723/61904 [1:02:12<21:53:52,  1.33s/it]  4%|▍         | 2724/61904 [1:02:13<21:37:29,  1.32s/it]  4%|▍         | 2725/61904 [1:02:14<21:42:29,  1.32s/it]  4%|▍         | 2726/61904 [1:02:16<21:32:02,  1.31s/it]  4%|▍         | 2727/61904 [1:02:17<21:41:21,  1.32s/it]  4%|▍         | 2728/61904 [1:02:19<23:04:35,  1.40s/it]  4%|▍         | 2729/61904 [1:02:20<22:52:04,  1.39s/it]  4%|▍         | 2730/61904 [1:02:21<23:33:48,  1.43s/it]  4%|▍         | 2731/61904 [1:02:23<22:33:22,  1.37s/it]  4%|▍         | 2732/61904 [1:02:24<22:46:05,  1.39s/it]  4%|▍         | 2733/61904 [1:02:25<22:36:57,  1.38s/it]  4%|▍         | 2734/61904 [1:02:27<22:50:10,  1.39s/it]  4%|▍         | 2735/61904 [1:02:28<22:58:10,  1.40s/it]  4%|▍         | 2736/61904 [1:02:30<22:49:49,  1.39s/it]  4%|▍         | 2737/61904 [1:02:31<22:40:58,  1.38s/it]  4%|▍         | 2738/61904 [1:02:32<22:39:35,  1.38s/it]  4%|▍         | 2739/61904 [1:02:34<22:42:38,  1.38s/it]  4%|▍         | 2740/61904 [1:02:35<22:31:43,  1.37s/it]                                                         {'loss': 3.0467, 'learning_rate': 1.9588357318812392e-07, 'epoch': 0.71}
+  4%|▍         | 2740/61904 [1:02:35<22:31:43,  1.37s/it]  4%|▍         | 2741/61904 [1:02:36<22:30:33,  1.37s/it]  4%|▍         | 2742/61904 [1:02:38<21:49:48,  1.33s/it]  4%|▍         | 2743/61904 [1:02:39<21:50:02,  1.33s/it]  4%|▍         | 2744/61904 [1:02:40<21:23:04,  1.30s/it]  4%|▍         | 2745/61904 [1:02:42<22:18:08,  1.36s/it]  4%|▍         | 2746/61904 [1:02:43<22:12:42,  1.35s/it]  4%|▍         | 2747/61904 [1:02:44<21:52:57,  1.33s/it]  4%|▍         | 2748/61904 [1:02:46<22:24:41,  1.36s/it]  4%|▍         | 2749/61904 [1:02:47<22:40:24,  1.38s/it]  4%|▍         | 2750/61904 [1:02:49<22:45:37,  1.39s/it]  4%|▍         | 2751/61904 [1:02:50<22:43:39,  1.38s/it]  4%|▍         | 2752/61904 [1:02:51<22:48:47,  1.39s/it]  4%|▍         | 2753/61904 [1:02:53<22:46:48,  1.39s/it]  4%|▍         | 2754/61904 [1:02:54<22:33:30,  1.37s/it]  4%|▍         | 2755/61904 [1:02:55<21:50:21,  1.33s/it]  4%|▍         | 2756/61904 [1:02:57<22:41:25,  1.38s/it]  4%|▍         | 2757/61904 [1:02:58<22:43:51,  1.38s/it]  4%|▍         | 2758/61904 [1:03:00<22:57:15,  1.40s/it]  4%|▍         | 2759/61904 [1:03:01<22:41:34,  1.38s/it]  4%|▍         | 2760/61904 [1:03:02<22:19:00,  1.36s/it]                                                         {'loss': 3.1305, 'learning_rate': 1.958511603785816e-07, 'epoch': 0.71}
+  4%|▍         | 2760/61904 [1:03:02<22:19:00,  1.36s/it]  4%|▍         | 2761/61904 [1:03:04<22:06:51,  1.35s/it]  4%|▍         | 2762/61904 [1:03:05<22:59:05,  1.40s/it]  4%|▍         | 2763/61904 [1:03:07<22:57:00,  1.40s/it]  4%|▍         | 2764/61904 [1:03:08<22:25:19,  1.36s/it]  4%|▍         | 2765/61904 [1:03:09<21:49:34,  1.33s/it]  4%|▍         | 2766/61904 [1:03:10<21:51:32,  1.33s/it]  4%|▍         | 2767/61904 [1:03:12<21:32:18,  1.31s/it]  4%|▍         | 2768/61904 [1:03:13<22:03:13,  1.34s/it]  4%|▍         | 2769/61904 [1:03:14<21:51:59,  1.33s/it]  4%|▍         | 2770/61904 [1:03:16<22:11:31,  1.35s/it]  4%|▍         | 2771/61904 [1:03:17<21:37:37,  1.32s/it]  4%|▍         | 2772/61904 [1:03:19<22:22:27,  1.36s/it]  4%|▍         | 2773/61904 [1:03:20<22:40:04,  1.38s/it]  4%|▍         | 2774/61904 [1:03:21<23:21:55,  1.42s/it]  4%|▍         | 2775/61904 [1:03:23<25:08:24,  1.53s/it]  4%|▍         | 2776/61904 [1:03:25<23:55:28,  1.46s/it]  4%|▍         | 2777/61904 [1:03:26<23:23:34,  1.42s/it]  4%|▍         | 2778/61904 [1:03:27<23:40:51,  1.44s/it]  4%|▍         | 2779/61904 [1:03:29<23:56:02,  1.46s/it]  4%|▍         | 2780/61904 [1:03:30<22:54:36,  1.39s/it]                                                         {'loss': 3.0583, 'learning_rate': 1.9581874756903927e-07, 'epoch': 0.72}
+  4%|▍         | 2780/61904 [1:03:30<22:54:36,  1.39s/it]  4%|▍         | 2781/61904 [1:03:31<22:40:05,  1.38s/it]  4%|▍         | 2782/61904 [1:03:33<22:15:14,  1.36s/it]  4%|▍         | 2783/61904 [1:03:34<22:14:31,  1.35s/it]  4%|▍         | 2784/61904 [1:03:36<22:34:02,  1.37s/it]  4%|▍         | 2785/61904 [1:03:37<22:35:30,  1.38s/it]  5%|▍         | 2786/61904 [1:03:38<22:03:12,  1.34s/it]  5%|▍         | 2787/61904 [1:03:40<22:06:14,  1.35s/it]  5%|▍         | 2788/61904 [1:03:41<22:06:59,  1.35s/it]  5%|▍         | 2789/61904 [1:03:42<22:21:45,  1.36s/it]  5%|▍         | 2790/61904 [1:03:44<22:43:44,  1.38s/it]  5%|▍         | 2791/61904 [1:03:45<22:14:32,  1.35s/it]  5%|▍         | 2792/61904 [1:03:46<22:27:34,  1.37s/it]  5%|▍         | 2793/61904 [1:03:48<21:47:11,  1.33s/it]  5%|▍         | 2794/61904 [1:03:49<21:21:46,  1.30s/it]  5%|▍         | 2795/61904 [1:03:50<21:57:50,  1.34s/it]  5%|▍         | 2796/61904 [1:03:52<21:56:07,  1.34s/it]  5%|▍         | 2797/61904 [1:03:53<22:16:27,  1.36s/it]  5%|▍         | 2798/61904 [1:03:54<22:24:33,  1.36s/it]  5%|▍         | 2799/61904 [1:03:56<22:46:47,  1.39s/it]  5%|▍         | 2800/61904 [1:03:57<22:23:27,  1.36s/it]                                                         {'loss': 3.0924, 'learning_rate': 1.9578633475949693e-07, 'epoch': 0.72}
+  5%|▍         | 2800/61904 [1:03:57<22:23:27,  1.36s/it]  5%|▍         | 2801/61904 [1:03:59<22:20:44,  1.36s/it]  5%|▍         | 2802/61904 [1:04:00<22:35:44,  1.38s/it]  5%|▍         | 2803/61904 [1:04:01<22:41:02,  1.38s/it]  5%|▍         | 2804/61904 [1:04:03<23:29:44,  1.43s/it]  5%|▍         | 2805/61904 [1:04:04<23:28:29,  1.43s/it]  5%|▍         | 2806/61904 [1:04:06<22:56:36,  1.40s/it]  5%|▍         | 2807/61904 [1:04:07<23:10:11,  1.41s/it]  5%|▍         | 2808/61904 [1:04:08<22:54:39,  1.40s/it]  5%|▍         | 2809/61904 [1:04:10<22:44:06,  1.39s/it]  5%|▍         | 2810/61904 [1:04:11<23:28:33,  1.43s/it]  5%|▍         | 2811/61904 [1:04:13<24:03:52,  1.47s/it]  5%|▍         | 2812/61904 [1:04:14<23:19:40,  1.42s/it]  5%|▍         | 2813/61904 [1:04:16<23:31:27,  1.43s/it]  5%|▍         | 2814/61904 [1:04:17<23:26:24,  1.43s/it]  5%|▍         | 2815/61904 [1:04:18<22:38:16,  1.38s/it]  5%|▍         | 2816/61904 [1:04:20<23:17:37,  1.42s/it]  5%|▍         | 2817/61904 [1:04:21<22:17:21,  1.36s/it]  5%|▍         | 2818/61904 [1:04:22<22:03:04,  1.34s/it]  5%|▍         | 2819/61904 [1:04:24<22:19:33,  1.36s/it]  5%|▍         | 2820/61904 [1:04:25<21:58:29,  1.34s/it]                                                         {'loss': 3.0459, 'learning_rate': 1.9575392194995462e-07, 'epoch': 0.73}
+  5%|▍         | 2820/61904 [1:04:25<21:58:29,  1.34s/it]  5%|▍         | 2821/61904 [1:04:26<22:23:06,  1.36s/it]  5%|▍         | 2822/61904 [1:04:28<22:35:44,  1.38s/it]  5%|▍         | 2823/61904 [1:04:29<22:59:05,  1.40s/it]  5%|▍         | 2824/61904 [1:04:31<24:01:49,  1.46s/it]  5%|▍         | 2825/61904 [1:04:32<23:16:24,  1.42s/it]  5%|▍         | 2826/61904 [1:04:34<22:42:00,  1.38s/it]  5%|▍         | 2827/61904 [1:04:35<24:20:17,  1.48s/it]  5%|▍         | 2828/61904 [1:04:37<24:00:35,  1.46s/it]  5%|▍         | 2829/61904 [1:04:38<23:29:30,  1.43s/it]  5%|▍         | 2830/61904 [1:04:40<23:50:17,  1.45s/it]  5%|▍         | 2831/61904 [1:04:41<22:56:45,  1.40s/it]  5%|▍         | 2832/61904 [1:04:42<22:34:00,  1.38s/it]  5%|▍         | 2833/61904 [1:04:44<22:31:50,  1.37s/it]  5%|▍         | 2834/61904 [1:04:45<22:49:36,  1.39s/it]  5%|▍         | 2835/61904 [1:04:46<22:51:38,  1.39s/it]  5%|▍         | 2836/61904 [1:04:48<23:21:26,  1.42s/it]  5%|▍         | 2837/61904 [1:04:49<23:12:51,  1.41s/it]  5%|▍         | 2838/61904 [1:04:51<22:58:46,  1.40s/it]  5%|▍         | 2839/61904 [1:04:52<22:40:45,  1.38s/it]  5%|▍         | 2840/61904 [1:04:53<21:48:57,  1.33s/it]                                                         {'loss': 3.0549, 'learning_rate': 1.9572150914041228e-07, 'epoch': 0.73}
+  5%|▍         | 2840/61904 [1:04:53<21:48:57,  1.33s/it]  5%|▍         | 2841/61904 [1:04:55<21:58:47,  1.34s/it]  5%|▍         | 2842/61904 [1:04:56<22:26:43,  1.37s/it]  5%|▍         | 2843/61904 [1:04:57<22:27:51,  1.37s/it]  5%|▍         | 2844/61904 [1:04:59<23:11:09,  1.41s/it]  5%|▍         | 2845/61904 [1:05:00<23:41:45,  1.44s/it]  5%|▍         | 2846/61904 [1:05:02<22:56:32,  1.40s/it]  5%|▍         | 2847/61904 [1:05:03<22:36:18,  1.38s/it]  5%|▍         | 2848/61904 [1:05:04<22:03:49,  1.34s/it]  5%|▍         | 2849/61904 [1:05:06<22:25:25,  1.37s/it]  5%|▍         | 2850/61904 [1:05:07<22:42:00,  1.38s/it]  5%|▍         | 2851/61904 [1:05:08<22:47:44,  1.39s/it]  5%|▍         | 2852/61904 [1:05:10<22:28:17,  1.37s/it]  5%|▍         | 2853/61904 [1:05:11<22:13:37,  1.36s/it]  5%|▍         | 2854/61904 [1:05:12<22:11:56,  1.35s/it]  5%|▍         | 2855/61904 [1:05:14<22:54:24,  1.40s/it]  5%|▍         | 2856/61904 [1:05:15<23:22:48,  1.43s/it]  5%|▍         | 2857/61904 [1:05:17<23:17:20,  1.42s/it]  5%|▍         | 2858/61904 [1:05:18<23:29:23,  1.43s/it]  5%|▍         | 2859/61904 [1:05:20<22:36:09,  1.38s/it]  5%|▍         | 2860/61904 [1:05:21<22:25:35,  1.37s/it]                                                         {'loss': 3.1416, 'learning_rate': 1.9568909633086995e-07, 'epoch': 0.74}
+  5%|▍         | 2860/61904 [1:05:21<22:25:35,  1.37s/it]  5%|▍         | 2861/61904 [1:05:22<22:27:28,  1.37s/it]  5%|▍         | 2862/61904 [1:05:24<22:50:13,  1.39s/it]  5%|▍         | 2863/61904 [1:05:25<22:48:22,  1.39s/it]  5%|▍         | 2864/61904 [1:05:27<22:42:27,  1.38s/it]  5%|▍         | 2865/61904 [1:05:28<22:40:40,  1.38s/it]  5%|▍         | 2866/61904 [1:05:29<22:42:49,  1.39s/it]  5%|▍         | 2867/61904 [1:05:31<22:37:48,  1.38s/it]  5%|▍         | 2868/61904 [1:05:32<23:34:49,  1.44s/it]  5%|▍         | 2869/61904 [1:05:34<23:28:30,  1.43s/it]  5%|▍         | 2870/61904 [1:05:35<22:59:37,  1.40s/it]  5%|▍         | 2871/61904 [1:05:36<22:49:40,  1.39s/it]  5%|▍         | 2872/61904 [1:05:38<22:04:29,  1.35s/it]  5%|▍         | 2873/61904 [1:05:39<22:12:11,  1.35s/it]  5%|▍         | 2874/61904 [1:05:40<21:57:03,  1.34s/it]  5%|▍         | 2875/61904 [1:05:42<22:05:14,  1.35s/it]  5%|▍         | 2876/61904 [1:05:43<22:14:06,  1.36s/it]  5%|▍         | 2877/61904 [1:05:44<21:56:32,  1.34s/it]  5%|▍         | 2878/61904 [1:05:45<21:13:42,  1.29s/it]  5%|▍         | 2879/61904 [1:05:47<21:28:14,  1.31s/it]  5%|▍         | 2880/61904 [1:05:48<21:52:12,  1.33s/it]                                                         {'loss': 3.084, 'learning_rate': 1.9565668352132763e-07, 'epoch': 0.74}
+  5%|▍         | 2880/61904 [1:05:48<21:52:12,  1.33s/it]  5%|▍         | 2881/61904 [1:05:50<22:46:47,  1.39s/it]  5%|▍         | 2882/61904 [1:05:51<22:24:08,  1.37s/it]  5%|▍         | 2883/61904 [1:05:52<22:37:10,  1.38s/it]  5%|▍         | 2884/61904 [1:05:54<22:09:19,  1.35s/it]  5%|▍         | 2885/61904 [1:05:55<22:10:29,  1.35s/it]  5%|▍         | 2886/61904 [1:05:56<22:18:09,  1.36s/it]  5%|▍         | 2887/61904 [1:05:58<22:56:00,  1.40s/it]  5%|▍         | 2888/61904 [1:05:59<22:17:22,  1.36s/it]  5%|▍         | 2889/61904 [1:06:00<21:49:22,  1.33s/it]  5%|▍         | 2890/61904 [1:06:02<21:32:03,  1.31s/it]  5%|▍         | 2891/61904 [1:06:03<22:14:29,  1.36s/it]  5%|▍         | 2892/61904 [1:06:05<22:12:35,  1.35s/it]  5%|▍         | 2893/61904 [1:06:06<22:02:52,  1.35s/it]  5%|▍         | 2894/61904 [1:06:07<21:53:50,  1.34s/it]  5%|▍         | 2895/61904 [1:06:08<21:22:01,  1.30s/it]  5%|▍         | 2896/61904 [1:06:10<21:46:36,  1.33s/it]  5%|▍         | 2897/61904 [1:06:11<21:50:52,  1.33s/it]  5%|▍         | 2898/61904 [1:06:12<21:27:54,  1.31s/it]  5%|▍         | 2899/61904 [1:06:14<22:09:43,  1.35s/it]  5%|▍         | 2900/61904 [1:06:15<22:16:49,  1.36s/it]                                                         {'loss': 3.1049, 'learning_rate': 1.9562427071178527e-07, 'epoch': 0.75}
+  5%|▍         | 2900/61904 [1:06:15<22:16:49,  1.36s/it]  5%|▍         | 2901/61904 [1:06:17<21:56:09,  1.34s/it]  5%|▍         | 2902/61904 [1:06:18<21:35:29,  1.32s/it]  5%|▍         | 2903/61904 [1:06:19<21:34:09,  1.32s/it]  5%|▍         | 2904/61904 [1:06:20<20:47:05,  1.27s/it]  5%|▍         | 2905/61904 [1:06:22<21:09:27,  1.29s/it]  5%|▍         | 2906/61904 [1:06:23<20:58:34,  1.28s/it]  5%|▍         | 2907/61904 [1:06:24<21:05:12,  1.29s/it]  5%|▍         | 2908/61904 [1:06:25<21:01:40,  1.28s/it]  5%|▍         | 2909/61904 [1:06:27<21:33:48,  1.32s/it]  5%|▍         | 2910/61904 [1:06:28<22:24:56,  1.37s/it]  5%|▍         | 2911/61904 [1:06:30<22:27:46,  1.37s/it]  5%|▍         | 2912/61904 [1:06:31<22:09:40,  1.35s/it]  5%|▍         | 2913/61904 [1:06:32<22:11:29,  1.35s/it]  5%|▍         | 2914/61904 [1:06:34<21:47:30,  1.33s/it]  5%|▍         | 2915/61904 [1:06:35<22:13:41,  1.36s/it]  5%|▍         | 2916/61904 [1:06:36<22:10:33,  1.35s/it]  5%|▍         | 2917/61904 [1:06:38<21:28:32,  1.31s/it]  5%|▍         | 2918/61904 [1:06:39<21:25:41,  1.31s/it]  5%|▍         | 2919/61904 [1:06:40<22:35:27,  1.38s/it]  5%|▍         | 2920/61904 [1:06:42<21:59:18,  1.34s/it]                                                         {'loss': 3.1135, 'learning_rate': 1.9559185790224296e-07, 'epoch': 0.75}
+  5%|▍         | 2920/61904 [1:06:42<21:59:18,  1.34s/it]  5%|▍         | 2921/61904 [1:06:43<23:02:38,  1.41s/it]  5%|▍         | 2922/61904 [1:06:45<22:48:50,  1.39s/it]  5%|▍         | 2923/61904 [1:06:46<22:46:21,  1.39s/it]  5%|▍         | 2924/61904 [1:06:47<22:44:04,  1.39s/it]  5%|▍         | 2925/61904 [1:06:49<22:28:54,  1.37s/it]  5%|▍         | 2926/61904 [1:06:50<22:17:03,  1.36s/it]  5%|▍         | 2927/61904 [1:06:51<21:51:02,  1.33s/it]  5%|▍         | 2928/61904 [1:06:53<22:33:43,  1.38s/it]  5%|▍         | 2929/61904 [1:06:54<22:40:31,  1.38s/it]  5%|▍         | 2930/61904 [1:06:56<23:04:29,  1.41s/it]  5%|▍         | 2931/61904 [1:06:57<23:19:24,  1.42s/it]  5%|▍         | 2932/61904 [1:06:59<23:29:40,  1.43s/it]  5%|▍         | 2933/61904 [1:07:00<22:56:41,  1.40s/it]  5%|▍         | 2934/61904 [1:07:01<23:13:21,  1.42s/it]  5%|▍         | 2935/61904 [1:07:03<23:24:42,  1.43s/it]  5%|▍         | 2936/61904 [1:07:04<22:48:57,  1.39s/it]  5%|▍         | 2937/61904 [1:07:06<22:34:45,  1.38s/it]  5%|▍         | 2938/61904 [1:07:07<22:44:03,  1.39s/it]  5%|▍         | 2939/61904 [1:07:08<23:06:01,  1.41s/it]  5%|▍         | 2940/61904 [1:07:10<23:23:24,  1.43s/it]                                                         {'loss': 3.0329, 'learning_rate': 1.9555944509270062e-07, 'epoch': 0.76}
+  5%|▍         | 2940/61904 [1:07:10<23:23:24,  1.43s/it]  5%|▍         | 2941/61904 [1:07:11<23:16:05,  1.42s/it]  5%|▍         | 2942/61904 [1:07:13<23:01:40,  1.41s/it]  5%|▍         | 2943/61904 [1:07:14<23:25:47,  1.43s/it]  5%|▍         | 2944/61904 [1:07:16<23:39:16,  1.44s/it]  5%|▍         | 2945/61904 [1:07:17<23:23:55,  1.43s/it]  5%|▍         | 2946/61904 [1:07:18<23:44:41,  1.45s/it]  5%|▍         | 2947/61904 [1:07:20<23:42:46,  1.45s/it]  5%|▍         | 2948/61904 [1:07:21<23:41:50,  1.45s/it]  5%|▍         | 2949/61904 [1:07:23<22:39:42,  1.38s/it]  5%|▍         | 2950/61904 [1:07:24<22:44:26,  1.39s/it]  5%|▍         | 2951/61904 [1:07:25<22:25:32,  1.37s/it]  5%|▍         | 2952/61904 [1:07:27<23:11:59,  1.42s/it]  5%|▍         | 2953/61904 [1:07:28<23:16:14,  1.42s/it]  5%|▍         | 2954/61904 [1:07:30<23:11:22,  1.42s/it]  5%|▍         | 2955/61904 [1:07:31<23:03:45,  1.41s/it]  5%|▍         | 2956/61904 [1:07:33<23:30:49,  1.44s/it]  5%|▍         | 2957/61904 [1:07:34<23:05:01,  1.41s/it]  5%|▍         | 2958/61904 [1:07:35<23:01:12,  1.41s/it]  5%|▍         | 2959/61904 [1:07:37<22:42:22,  1.39s/it]  5%|▍         | 2960/61904 [1:07:38<22:55:01,  1.40s/it]                                                         {'loss': 3.0465, 'learning_rate': 1.9552703228315828e-07, 'epoch': 0.76}
+  5%|▍         | 2960/61904 [1:07:38<22:55:01,  1.40s/it]  5%|▍         | 2961/61904 [1:07:39<22:22:17,  1.37s/it]  5%|▍         | 2962/61904 [1:07:41<21:51:53,  1.34s/it]  5%|▍         | 2963/61904 [1:07:42<21:53:29,  1.34s/it]  5%|▍         | 2964/61904 [1:07:43<21:42:33,  1.33s/it]  5%|▍         | 2965/61904 [1:07:45<22:01:56,  1.35s/it]  5%|▍         | 2966/61904 [1:07:46<21:39:46,  1.32s/it]  5%|▍         | 2967/61904 [1:07:48<22:58:32,  1.40s/it]  5%|▍         | 2968/61904 [1:07:49<22:03:19,  1.35s/it]  5%|▍         | 2969/61904 [1:07:50<22:32:17,  1.38s/it]  5%|▍         | 2970/61904 [1:07:52<22:23:00,  1.37s/it]  5%|▍         | 2971/61904 [1:07:53<22:51:23,  1.40s/it]  5%|▍         | 2972/61904 [1:07:54<23:09:48,  1.41s/it]  5%|▍         | 2973/61904 [1:07:56<22:48:41,  1.39s/it]  5%|▍         | 2974/61904 [1:07:57<22:21:01,  1.37s/it]  5%|▍         | 2975/61904 [1:07:58<22:21:40,  1.37s/it]  5%|▍         | 2976/61904 [1:08:00<22:25:19,  1.37s/it]  5%|▍         | 2977/61904 [1:08:01<22:17:59,  1.36s/it]  5%|▍         | 2978/61904 [1:08:03<22:59:35,  1.40s/it]  5%|▍         | 2979/61904 [1:08:04<22:34:47,  1.38s/it]  5%|▍         | 2980/61904 [1:08:05<22:28:30,  1.37s/it]                                                         {'loss': 3.0079, 'learning_rate': 1.9549461947361597e-07, 'epoch': 0.77}
+  5%|▍         | 2980/61904 [1:08:05<22:28:30,  1.37s/it]  5%|▍         | 2981/61904 [1:08:07<21:56:13,  1.34s/it]  5%|▍         | 2982/61904 [1:08:08<22:18:53,  1.36s/it]  5%|▍         | 2983/61904 [1:08:10<23:28:33,  1.43s/it]  5%|▍         | 2984/61904 [1:08:11<24:06:24,  1.47s/it]  5%|▍         | 2985/61904 [1:08:13<23:31:47,  1.44s/it]  5%|▍         | 2986/61904 [1:08:14<23:00:19,  1.41s/it]  5%|▍         | 2987/61904 [1:08:15<23:04:29,  1.41s/it]  5%|▍         | 2988/61904 [1:08:17<22:44:43,  1.39s/it]  5%|▍         | 2989/61904 [1:08:18<23:02:16,  1.41s/it]  5%|▍         | 2990/61904 [1:08:20<23:15:16,  1.42s/it]  5%|▍         | 2991/61904 [1:08:21<23:05:26,  1.41s/it]  5%|▍         | 2992/61904 [1:08:22<22:42:32,  1.39s/it]  5%|▍         | 2993/61904 [1:08:24<22:48:09,  1.39s/it]  5%|▍         | 2994/61904 [1:08:25<22:42:23,  1.39s/it]  5%|▍         | 2995/61904 [1:08:27<23:46:31,  1.45s/it]  5%|▍         | 2996/61904 [1:08:28<23:14:41,  1.42s/it]  5%|▍         | 2997/61904 [1:08:29<23:12:34,  1.42s/it]  5%|▍         | 2998/61904 [1:08:31<23:00:51,  1.41s/it]  5%|▍         | 2999/61904 [1:08:32<22:28:01,  1.37s/it]  5%|▍         | 3000/61904 [1:08:34<23:19:31,  1.43s/it]                                                         {'loss': 3.0706, 'learning_rate': 1.9546220666407363e-07, 'epoch': 0.78}
+  5%|▍         | 3000/61904 [1:08:34<23:19:31,  1.43s/it]  5%|▍         | 3001/61904 [1:08:35<23:54:17,  1.46s/it]  5%|▍         | 3002/61904 [1:08:37<23:25:32,  1.43s/it]  5%|▍         | 3003/61904 [1:08:38<23:09:58,  1.42s/it]  5%|▍         | 3004/61904 [1:08:39<23:09:36,  1.42s/it]  5%|▍         | 3005/61904 [1:08:41<22:41:02,  1.39s/it]  5%|▍         | 3006/61904 [1:08:42<23:10:25,  1.42s/it]  5%|▍         | 3007/61904 [1:08:43<22:25:30,  1.37s/it]  5%|▍         | 3008/61904 [1:08:45<22:04:48,  1.35s/it]  5%|▍         | 3009/61904 [1:08:46<22:09:15,  1.35s/it]  5%|▍         | 3010/61904 [1:08:48<22:35:43,  1.38s/it]  5%|▍         | 3011/61904 [1:08:49<22:37:35,  1.38s/it]  5%|▍         | 3012/61904 [1:08:50<22:28:46,  1.37s/it]  5%|▍         | 3013/61904 [1:08:52<22:40:20,  1.39s/it]  5%|▍         | 3014/61904 [1:08:53<22:01:19,  1.35s/it]  5%|▍         | 3015/61904 [1:08:54<21:24:35,  1.31s/it]  5%|▍         | 3016/61904 [1:08:56<22:07:09,  1.35s/it]  5%|▍         | 3017/61904 [1:08:57<22:41:00,  1.39s/it]  5%|▍         | 3018/61904 [1:08:59<22:47:36,  1.39s/it]  5%|▍         | 3019/61904 [1:09:00<22:59:01,  1.41s/it]  5%|▍         | 3020/61904 [1:09:01<22:58:08,  1.40s/it]                                                         {'loss': 2.9727, 'learning_rate': 1.954297938545313e-07, 'epoch': 0.78}
+  5%|▍         | 3020/61904 [1:09:01<22:58:08,  1.40s/it]  5%|▍         | 3021/61904 [1:09:03<22:14:04,  1.36s/it]  5%|▍         | 3022/61904 [1:09:04<22:37:25,  1.38s/it]  5%|▍         | 3023/61904 [1:09:05<22:51:16,  1.40s/it]  5%|▍         | 3024/61904 [1:09:07<22:25:58,  1.37s/it]  5%|▍         | 3025/61904 [1:09:08<23:17:07,  1.42s/it]  5%|▍         | 3026/61904 [1:09:10<22:25:11,  1.37s/it]  5%|▍         | 3027/61904 [1:09:11<22:38:35,  1.38s/it]  5%|▍         | 3028/61904 [1:09:12<22:45:09,  1.39s/it]  5%|▍         | 3029/61904 [1:09:14<22:45:43,  1.39s/it]  5%|▍         | 3030/61904 [1:09:15<22:50:51,  1.40s/it]  5%|▍         | 3031/61904 [1:09:17<22:36:26,  1.38s/it]  5%|▍         | 3032/61904 [1:09:18<21:52:34,  1.34s/it]  5%|▍         | 3033/61904 [1:09:19<21:57:34,  1.34s/it]  5%|▍         | 3034/61904 [1:09:20<21:46:02,  1.33s/it]  5%|▍         | 3035/61904 [1:09:22<21:39:13,  1.32s/it]  5%|▍         | 3036/61904 [1:09:23<21:25:16,  1.31s/it]  5%|▍         | 3037/61904 [1:09:24<21:46:50,  1.33s/it]  5%|▍         | 3038/61904 [1:09:26<21:22:27,  1.31s/it]  5%|▍         | 3039/61904 [1:09:27<22:13:40,  1.36s/it]  5%|▍         | 3040/61904 [1:09:28<21:26:47,  1.31s/it]                                                         {'loss': 3.0593, 'learning_rate': 1.9539738104498898e-07, 'epoch': 0.79}
+  5%|▍         | 3040/61904 [1:09:28<21:26:47,  1.31s/it]  5%|▍         | 3041/61904 [1:09:30<21:34:05,  1.32s/it]  5%|▍         | 3042/61904 [1:09:31<21:58:55,  1.34s/it]  5%|▍         | 3043/61904 [1:09:32<21:33:28,  1.32s/it]  5%|▍         | 3044/61904 [1:09:34<21:34:53,  1.32s/it]  5%|▍         | 3045/61904 [1:09:35<21:27:33,  1.31s/it]  5%|▍         | 3046/61904 [1:09:36<21:53:57,  1.34s/it]  5%|▍         | 3047/61904 [1:09:38<22:08:06,  1.35s/it]  5%|▍         | 3048/61904 [1:09:39<22:04:52,  1.35s/it]  5%|▍         | 3049/61904 [1:09:41<23:53:46,  1.46s/it]  5%|▍         | 3050/61904 [1:09:42<23:13:46,  1.42s/it]  5%|▍         | 3051/61904 [1:09:43<22:29:36,  1.38s/it]  5%|▍         | 3052/61904 [1:09:45<21:52:59,  1.34s/it]  5%|▍         | 3053/61904 [1:09:46<22:13:19,  1.36s/it]  5%|▍         | 3054/61904 [1:09:47<22:28:41,  1.38s/it]  5%|▍         | 3055/61904 [1:09:49<21:30:03,  1.32s/it]  5%|▍         | 3056/61904 [1:09:50<21:16:30,  1.30s/it]  5%|▍         | 3057/61904 [1:09:51<20:50:55,  1.28s/it]  5%|▍         | 3058/61904 [1:09:53<21:20:25,  1.31s/it]  5%|▍         | 3059/61904 [1:09:54<21:23:03,  1.31s/it]  5%|▍         | 3060/61904 [1:09:55<21:57:35,  1.34s/it]                                                         {'loss': 3.0734, 'learning_rate': 1.9536496823544662e-07, 'epoch': 0.79}
+  5%|▍         | 3060/61904 [1:09:55<21:57:35,  1.34s/it]  5%|▍         | 3061/61904 [1:09:57<22:06:40,  1.35s/it]  5%|▍         | 3062/61904 [1:09:58<21:50:28,  1.34s/it]  5%|▍         | 3063/61904 [1:09:59<21:44:11,  1.33s/it]  5%|▍         | 3064/61904 [1:10:01<21:35:36,  1.32s/it]  5%|▍         | 3065/61904 [1:10:02<22:10:36,  1.36s/it]  5%|▍         | 3066/61904 [1:10:03<22:20:40,  1.37s/it]  5%|▍         | 3067/61904 [1:10:05<22:58:15,  1.41s/it]  5%|▍         | 3068/61904 [1:10:06<22:50:29,  1.40s/it]  5%|▍         | 3069/61904 [1:10:08<22:31:36,  1.38s/it]  5%|▍         | 3070/61904 [1:10:09<22:28:36,  1.38s/it]  5%|▍         | 3071/61904 [1:10:10<23:16:09,  1.42s/it]  5%|▍         | 3072/61904 [1:10:12<23:02:57,  1.41s/it]  5%|▍         | 3073/61904 [1:10:13<22:33:42,  1.38s/it]  5%|▍         | 3074/61904 [1:10:14<22:14:51,  1.36s/it]  5%|▍         | 3075/61904 [1:10:16<22:08:32,  1.35s/it]  5%|▍         | 3076/61904 [1:10:17<22:05:14,  1.35s/it]  5%|▍         | 3077/61904 [1:10:18<21:42:30,  1.33s/it]  5%|▍         | 3078/61904 [1:10:20<22:00:14,  1.35s/it]  5%|▍         | 3079/61904 [1:10:21<23:15:11,  1.42s/it]  5%|▍         | 3080/61904 [1:10:23<21:53:40,  1.34s/it]                                                         {'loss': 3.0553, 'learning_rate': 1.953325554259043e-07, 'epoch': 0.8}
+  5%|▍         | 3080/61904 [1:10:23<21:53:40,  1.34s/it]  5%|▍         | 3081/61904 [1:10:24<22:28:17,  1.38s/it]  5%|▍         | 3082/61904 [1:10:25<22:25:36,  1.37s/it]  5%|▍         | 3083/61904 [1:10:27<22:20:12,  1.37s/it]  5%|▍         | 3084/61904 [1:10:28<22:29:20,  1.38s/it]  5%|▍         | 3085/61904 [1:10:30<23:12:46,  1.42s/it]  5%|▍         | 3086/61904 [1:10:31<23:32:16,  1.44s/it]  5%|▍         | 3087/61904 [1:10:33<22:56:50,  1.40s/it]  5%|▍         | 3088/61904 [1:10:34<22:20:01,  1.37s/it]  5%|▍         | 3089/61904 [1:10:35<22:06:09,  1.35s/it]  5%|▍         | 3090/61904 [1:10:37<22:37:13,  1.38s/it]  5%|▍         | 3091/61904 [1:10:38<22:24:34,  1.37s/it]  5%|▍         | 3092/61904 [1:10:39<22:30:17,  1.38s/it]  5%|▍         | 3093/61904 [1:10:41<22:02:02,  1.35s/it]  5%|▍         | 3094/61904 [1:10:42<22:20:43,  1.37s/it]  5%|▍         | 3095/61904 [1:10:43<22:29:56,  1.38s/it]  5%|▌         | 3096/61904 [1:10:45<21:42:48,  1.33s/it]  5%|▌         | 3097/61904 [1:10:46<21:38:48,  1.33s/it]  5%|▌         | 3098/61904 [1:10:47<22:09:02,  1.36s/it]  5%|▌         | 3099/61904 [1:10:49<22:36:38,  1.38s/it]  5%|▌         | 3100/61904 [1:10:50<22:20:21,  1.37s/it]                                                         {'loss': 3.0315, 'learning_rate': 1.9530014261636197e-07, 'epoch': 0.8}
+  5%|▌         | 3100/61904 [1:10:50<22:20:21,  1.37s/it]  5%|▌         | 3101/61904 [1:10:52<22:50:47,  1.40s/it]  5%|▌         | 3102/61904 [1:10:53<22:30:08,  1.38s/it]  5%|▌         | 3103/61904 [1:10:54<22:35:07,  1.38s/it]  5%|▌         | 3104/61904 [1:10:56<22:18:44,  1.37s/it]  5%|▌         | 3105/61904 [1:10:57<21:56:00,  1.34s/it]  5%|▌         | 3106/61904 [1:10:58<22:39:41,  1.39s/it]  5%|▌         | 3107/61904 [1:11:00<22:51:50,  1.40s/it]  5%|▌         | 3108/61904 [1:11:01<22:35:03,  1.38s/it]  5%|▌         | 3109/61904 [1:11:03<22:12:19,  1.36s/it]  5%|▌         | 3110/61904 [1:11:04<21:50:39,  1.34s/it]  5%|▌         | 3111/61904 [1:11:05<21:50:07,  1.34s/it]  5%|▌         | 3112/61904 [1:11:07<22:06:18,  1.35s/it]  5%|▌         | 3113/61904 [1:11:08<22:22:21,  1.37s/it]  5%|▌         | 3114/61904 [1:11:09<22:06:03,  1.35s/it]  5%|▌         | 3115/61904 [1:11:11<22:27:22,  1.38s/it]  5%|▌         | 3116/61904 [1:11:12<21:36:42,  1.32s/it]  5%|▌         | 3117/61904 [1:11:13<21:20:10,  1.31s/it]  5%|▌         | 3118/61904 [1:11:14<20:36:52,  1.26s/it]  5%|▌         | 3119/61904 [1:11:16<21:56:47,  1.34s/it]  5%|▌         | 3120/61904 [1:11:17<21:49:02,  1.34s/it]                                                         {'loss': 3.086, 'learning_rate': 1.9526772980681963e-07, 'epoch': 0.81}
+  5%|▌         | 3120/61904 [1:11:17<21:49:02,  1.34s/it]  5%|▌         | 3121/61904 [1:11:18<21:53:24,  1.34s/it]  5%|▌         | 3122/61904 [1:11:20<22:02:12,  1.35s/it]  5%|▌         | 3123/61904 [1:11:21<22:37:53,  1.39s/it]  5%|▌         | 3124/61904 [1:11:23<22:00:29,  1.35s/it]  5%|▌         | 3125/61904 [1:11:24<22:04:14,  1.35s/it]  5%|▌         | 3126/61904 [1:11:25<22:41:13,  1.39s/it]  5%|▌         | 3127/61904 [1:11:27<21:42:56,  1.33s/it]  5%|▌         | 3128/61904 [1:11:28<22:48:13,  1.40s/it]  5%|▌         | 3129/61904 [1:11:30<23:13:15,  1.42s/it]  5%|▌         | 3130/61904 [1:11:31<24:37:58,  1.51s/it]  5%|▌         | 3131/61904 [1:11:33<24:21:58,  1.49s/it]  5%|▌         | 3132/61904 [1:11:34<24:16:53,  1.49s/it]  5%|▌         | 3133/61904 [1:11:36<23:41:07,  1.45s/it]  5%|▌         | 3134/61904 [1:11:37<22:51:37,  1.40s/it]  5%|▌         | 3135/61904 [1:11:38<22:44:13,  1.39s/it]  5%|▌         | 3136/61904 [1:11:40<22:39:15,  1.39s/it]  5%|▌         | 3137/61904 [1:11:41<22:49:47,  1.40s/it]  5%|▌         | 3138/61904 [1:11:42<22:04:25,  1.35s/it]  5%|▌         | 3139/61904 [1:11:44<21:55:04,  1.34s/it]  5%|▌         | 3140/61904 [1:11:45<21:44:31,  1.33s/it]                                                         {'loss': 3.046, 'learning_rate': 1.9523531699727732e-07, 'epoch': 0.81}
+  5%|▌         | 3140/61904 [1:11:45<21:44:31,  1.33s/it]  5%|▌         | 3141/61904 [1:11:46<21:49:54,  1.34s/it]  5%|▌         | 3142/61904 [1:11:48<21:48:14,  1.34s/it]  5%|▌         | 3143/61904 [1:11:49<21:40:41,  1.33s/it]  5%|▌         | 3144/61904 [1:11:50<21:54:58,  1.34s/it]  5%|▌         | 3145/61904 [1:11:52<22:19:15,  1.37s/it]  5%|▌         | 3146/61904 [1:11:53<21:55:46,  1.34s/it]  5%|▌         | 3147/61904 [1:11:55<22:27:46,  1.38s/it]  5%|▌         | 3148/61904 [1:11:56<22:14:51,  1.36s/it]  5%|▌         | 3149/61904 [1:11:57<22:01:05,  1.35s/it]  5%|▌         | 3150/61904 [1:11:58<21:49:07,  1.34s/it]  5%|▌         | 3151/61904 [1:12:00<22:05:40,  1.35s/it]  5%|▌         | 3152/61904 [1:12:01<22:46:03,  1.40s/it]  5%|▌         | 3153/61904 [1:12:03<22:33:47,  1.38s/it]  5%|▌         | 3154/61904 [1:12:04<22:48:09,  1.40s/it]  5%|▌         | 3155/61904 [1:12:05<22:13:04,  1.36s/it]  5%|▌         | 3156/61904 [1:12:07<21:55:50,  1.34s/it]  5%|▌         | 3157/61904 [1:12:08<21:14:20,  1.30s/it]  5%|▌         | 3158/61904 [1:12:09<21:35:50,  1.32s/it]  5%|▌         | 3159/61904 [1:12:11<22:08:13,  1.36s/it]  5%|▌         | 3160/61904 [1:12:12<22:01:54,  1.35s/it]                                                         {'loss': 2.9981, 'learning_rate': 1.9520290418773498e-07, 'epoch': 0.82}
+  5%|▌         | 3160/61904 [1:12:12<22:01:54,  1.35s/it]  5%|▌         | 3161/61904 [1:12:14<22:50:02,  1.40s/it]  5%|▌         | 3162/61904 [1:12:15<22:26:27,  1.38s/it]  5%|▌         | 3163/61904 [1:12:16<21:59:25,  1.35s/it]  5%|▌         | 3164/61904 [1:12:18<21:50:00,  1.34s/it]  5%|▌         | 3165/61904 [1:12:19<22:07:08,  1.36s/it]  5%|▌         | 3166/61904 [1:12:20<22:38:53,  1.39s/it]  5%|▌         | 3167/61904 [1:12:22<21:35:10,  1.32s/it]  5%|▌         | 3168/61904 [1:12:23<21:55:03,  1.34s/it]  5%|▌         | 3169/61904 [1:12:24<22:00:31,  1.35s/it]  5%|▌         | 3170/61904 [1:12:26<21:40:42,  1.33s/it]  5%|▌         | 3171/61904 [1:12:27<21:23:49,  1.31s/it]  5%|▌         | 3172/61904 [1:12:28<21:54:43,  1.34s/it]  5%|▌         | 3173/61904 [1:12:30<21:52:39,  1.34s/it]  5%|▌         | 3174/61904 [1:12:31<22:10:22,  1.36s/it]  5%|▌         | 3175/61904 [1:12:32<22:14:35,  1.36s/it]  5%|▌         | 3176/61904 [1:12:34<22:37:47,  1.39s/it]  5%|▌         | 3177/61904 [1:12:35<22:54:24,  1.40s/it]  5%|▌         | 3178/61904 [1:12:37<22:49:17,  1.40s/it]  5%|▌         | 3179/61904 [1:12:38<22:09:00,  1.36s/it]  5%|▌         | 3180/61904 [1:12:39<22:05:43,  1.35s/it]                                                         {'loss': 3.0827, 'learning_rate': 1.9517049137819264e-07, 'epoch': 0.82}
+  5%|▌         | 3180/61904 [1:12:39<22:05:43,  1.35s/it]  5%|▌         | 3181/61904 [1:12:41<22:34:47,  1.38s/it]  5%|▌         | 3182/61904 [1:12:42<22:18:28,  1.37s/it]  5%|▌         | 3183/61904 [1:12:43<22:16:58,  1.37s/it]  5%|▌         | 3184/61904 [1:12:45<22:47:27,  1.40s/it]  5%|▌         | 3185/61904 [1:12:46<22:42:53,  1.39s/it]  5%|▌         | 3186/61904 [1:12:48<22:38:31,  1.39s/it]  5%|▌         | 3187/61904 [1:12:49<21:59:04,  1.35s/it]  5%|▌         | 3188/61904 [1:12:50<22:34:01,  1.38s/it]  5%|▌         | 3189/61904 [1:12:52<22:46:22,  1.40s/it]  5%|▌         | 3190/61904 [1:12:53<22:24:16,  1.37s/it]  5%|▌         | 3191/61904 [1:12:55<22:43:31,  1.39s/it]  5%|▌         | 3192/61904 [1:12:56<22:32:16,  1.38s/it]  5%|▌         | 3193/61904 [1:12:57<22:31:05,  1.38s/it]  5%|▌         | 3194/61904 [1:12:59<22:16:22,  1.37s/it]  5%|▌         | 3195/61904 [1:13:00<22:06:32,  1.36s/it]  5%|▌         | 3196/61904 [1:13:01<22:28:46,  1.38s/it]  5%|▌         | 3197/61904 [1:13:03<22:56:36,  1.41s/it]  5%|▌         | 3198/61904 [1:13:04<23:13:59,  1.42s/it]  5%|▌         | 3199/61904 [1:13:06<22:52:44,  1.40s/it]  5%|▌         | 3200/61904 [1:13:07<22:32:30,  1.38s/it]                                                         {'loss': 3.0582, 'learning_rate': 1.9513807856865033e-07, 'epoch': 0.83}
+  5%|▌         | 3200/61904 [1:13:07<22:32:30,  1.38s/it]  5%|▌         | 3201/61904 [1:13:08<22:12:17,  1.36s/it]  5%|▌         | 3202/61904 [1:13:10<22:07:55,  1.36s/it]  5%|▌         | 3203/61904 [1:13:11<22:39:31,  1.39s/it]  5%|▌         | 3204/61904 [1:13:12<21:55:41,  1.34s/it]  5%|▌         | 3205/61904 [1:13:14<21:53:14,  1.34s/it]  5%|▌         | 3206/61904 [1:13:15<22:50:03,  1.40s/it]  5%|▌         | 3207/61904 [1:13:17<22:32:00,  1.38s/it]  5%|▌         | 3208/61904 [1:13:18<22:32:41,  1.38s/it]  5%|▌         | 3209/61904 [1:13:20<23:18:42,  1.43s/it]  5%|▌         | 3210/61904 [1:13:21<23:05:13,  1.42s/it]  5%|▌         | 3211/61904 [1:13:22<22:22:48,  1.37s/it]  5%|▌         | 3212/61904 [1:13:24<22:23:45,  1.37s/it]  5%|▌         | 3213/61904 [1:13:25<21:57:23,  1.35s/it]  5%|▌         | 3214/61904 [1:13:26<21:53:59,  1.34s/it]  5%|▌         | 3215/61904 [1:13:28<22:13:08,  1.36s/it]  5%|▌         | 3216/61904 [1:13:29<22:13:25,  1.36s/it]  5%|▌         | 3217/61904 [1:13:30<22:09:50,  1.36s/it]  5%|▌         | 3218/61904 [1:13:32<22:12:09,  1.36s/it]  5%|▌         | 3219/61904 [1:13:33<21:29:18,  1.32s/it]  5%|▌         | 3220/61904 [1:13:34<22:14:27,  1.36s/it]                                                         {'loss': 3.0574, 'learning_rate': 1.95105665759108e-07, 'epoch': 0.83}
+  5%|▌         | 3220/61904 [1:13:34<22:14:27,  1.36s/it]  5%|▌         | 3221/61904 [1:13:36<21:31:19,  1.32s/it]  5%|▌         | 3222/61904 [1:13:37<21:42:56,  1.33s/it]  5%|▌         | 3223/61904 [1:13:38<22:22:46,  1.37s/it]  5%|▌         | 3224/61904 [1:13:40<22:25:49,  1.38s/it]  5%|▌         | 3225/61904 [1:13:41<22:11:29,  1.36s/it]  5%|▌         | 3226/61904 [1:13:42<22:10:45,  1.36s/it]  5%|▌         | 3227/61904 [1:13:44<22:24:46,  1.38s/it]  5%|▌         | 3228/61904 [1:13:45<22:26:40,  1.38s/it]  5%|▌         | 3229/61904 [1:13:47<22:36:41,  1.39s/it]  5%|▌         | 3230/61904 [1:13:48<23:29:08,  1.44s/it]  5%|▌         | 3231/61904 [1:13:50<22:54:04,  1.41s/it]  5%|▌         | 3232/61904 [1:13:51<22:21:09,  1.37s/it]  5%|▌         | 3233/61904 [1:13:52<21:43:36,  1.33s/it]  5%|▌         | 3234/61904 [1:13:53<21:45:50,  1.34s/it]  5%|▌         | 3235/61904 [1:13:55<21:54:13,  1.34s/it]  5%|▌         | 3236/61904 [1:13:56<21:38:14,  1.33s/it]  5%|▌         | 3237/61904 [1:13:57<21:26:16,  1.32s/it]  5%|▌         | 3238/61904 [1:13:59<21:22:04,  1.31s/it]  5%|▌         | 3239/61904 [1:14:00<21:06:13,  1.30s/it]  5%|▌         | 3240/61904 [1:14:01<21:32:24,  1.32s/it]                                                         {'loss': 3.0666, 'learning_rate': 1.9507325294956565e-07, 'epoch': 0.84}
+  5%|▌         | 3240/61904 [1:14:01<21:32:24,  1.32s/it]  5%|▌         | 3241/61904 [1:14:03<21:14:49,  1.30s/it]  5%|▌         | 3242/61904 [1:14:04<21:00:37,  1.29s/it]  5%|▌         | 3243/61904 [1:14:05<21:00:53,  1.29s/it]  5%|▌         | 3244/61904 [1:14:07<21:39:33,  1.33s/it]  5%|▌         | 3245/61904 [1:14:08<21:59:46,  1.35s/it]  5%|▌         | 3246/61904 [1:14:09<22:02:21,  1.35s/it]  5%|▌         | 3247/61904 [1:14:11<21:50:41,  1.34s/it]  5%|▌         | 3248/61904 [1:14:12<21:30:09,  1.32s/it]  5%|▌         | 3249/61904 [1:14:13<21:41:32,  1.33s/it]  5%|▌         | 3250/61904 [1:14:15<23:14:06,  1.43s/it]  5%|▌         | 3251/61904 [1:14:16<23:02:36,  1.41s/it]  5%|▌         | 3252/61904 [1:14:18<23:25:03,  1.44s/it]  5%|▌         | 3253/61904 [1:14:19<22:14:43,  1.37s/it]  5%|▌         | 3254/61904 [1:14:20<22:22:36,  1.37s/it]  5%|▌         | 3255/61904 [1:14:22<21:58:10,  1.35s/it]  5%|▌         | 3256/61904 [1:14:23<21:27:38,  1.32s/it]  5%|▌         | 3257/61904 [1:14:24<21:25:28,  1.32s/it]  5%|▌         | 3258/61904 [1:14:25<21:06:50,  1.30s/it]  5%|▌         | 3259/61904 [1:14:27<21:19:39,  1.31s/it]  5%|▌         | 3260/61904 [1:14:28<21:21:44,  1.31s/it]                                                         {'loss': 3.1107, 'learning_rate': 1.9504084014002334e-07, 'epoch': 0.84}
+  5%|▌         | 3260/61904 [1:14:28<21:21:44,  1.31s/it]  5%|▌         | 3261/61904 [1:14:29<21:47:44,  1.34s/it]  5%|▌         | 3262/61904 [1:14:31<21:15:08,  1.30s/it]  5%|▌         | 3263/61904 [1:14:32<22:07:58,  1.36s/it]  5%|▌         | 3264/61904 [1:14:34<22:38:55,  1.39s/it]  5%|▌         | 3265/61904 [1:14:35<22:00:09,  1.35s/it]  5%|▌         | 3266/61904 [1:14:36<22:11:31,  1.36s/it]  5%|▌         | 3267/61904 [1:14:38<22:01:15,  1.35s/it]  5%|▌         | 3268/61904 [1:14:39<21:30:30,  1.32s/it]  5%|▌         | 3269/61904 [1:14:40<21:26:37,  1.32s/it]  5%|▌         | 3270/61904 [1:14:41<21:12:53,  1.30s/it]  5%|▌         | 3271/61904 [1:14:43<21:05:15,  1.29s/it]  5%|▌         | 3272/61904 [1:14:44<21:47:22,  1.34s/it]  5%|▌         | 3273/61904 [1:14:46<21:40:07,  1.33s/it]  5%|▌         | 3274/61904 [1:14:47<22:18:08,  1.37s/it]  5%|▌         | 3275/61904 [1:14:48<22:06:05,  1.36s/it]  5%|▌         | 3276/61904 [1:14:50<22:11:57,  1.36s/it]  5%|▌         | 3277/61904 [1:14:51<23:34:21,  1.45s/it]  5%|▌         | 3278/61904 [1:14:53<22:54:19,  1.41s/it]  5%|▌         | 3279/61904 [1:14:54<22:21:22,  1.37s/it]  5%|▌         | 3280/61904 [1:14:55<22:18:06,  1.37s/it]                                                         {'loss': 2.9972, 'learning_rate': 1.9500842733048098e-07, 'epoch': 0.85}
+  5%|▌         | 3280/61904 [1:14:55<22:18:06,  1.37s/it]  5%|▌         | 3281/61904 [1:14:57<22:06:04,  1.36s/it]  5%|▌         | 3282/61904 [1:14:58<22:45:13,  1.40s/it]  5%|▌         | 3283/61904 [1:15:00<23:05:05,  1.42s/it]  5%|▌         | 3284/61904 [1:15:01<22:37:02,  1.39s/it]  5%|▌         | 3285/61904 [1:15:02<22:43:35,  1.40s/it]  5%|▌         | 3286/61904 [1:15:04<21:52:43,  1.34s/it]  5%|▌         | 3287/61904 [1:15:05<21:59:52,  1.35s/it]  5%|▌         | 3288/61904 [1:15:06<22:46:16,  1.40s/it]  5%|▌         | 3289/61904 [1:15:08<22:31:32,  1.38s/it]  5%|▌         | 3290/61904 [1:15:09<21:56:53,  1.35s/it]  5%|▌         | 3291/61904 [1:15:10<21:54:33,  1.35s/it]  5%|▌         | 3292/61904 [1:15:12<22:17:41,  1.37s/it]  5%|▌         | 3293/61904 [1:15:13<22:25:26,  1.38s/it]  5%|▌         | 3294/61904 [1:15:15<22:18:23,  1.37s/it]  5%|▌         | 3295/61904 [1:15:16<22:04:08,  1.36s/it]  5%|▌         | 3296/61904 [1:15:17<22:53:31,  1.41s/it]  5%|▌         | 3297/61904 [1:15:19<22:37:38,  1.39s/it]  5%|▌         | 3298/61904 [1:15:20<23:00:58,  1.41s/it]  5%|▌         | 3299/61904 [1:15:21<22:26:57,  1.38s/it]  5%|▌         | 3300/61904 [1:15:23<21:59:57,  1.35s/it]                                                         {'loss': 3.0628, 'learning_rate': 1.9497601452093867e-07, 'epoch': 0.85}
+  5%|▌         | 3300/61904 [1:15:23<21:59:57,  1.35s/it]  5%|▌         | 3301/61904 [1:15:24<22:09:39,  1.36s/it]  5%|▌         | 3302/61904 [1:15:26<22:21:29,  1.37s/it]  5%|▌         | 3303/61904 [1:15:27<22:10:34,  1.36s/it]  5%|▌         | 3304/61904 [1:15:28<21:56:10,  1.35s/it]  5%|▌         | 3305/61904 [1:15:30<22:03:26,  1.36s/it]  5%|▌         | 3306/61904 [1:15:31<21:30:27,  1.32s/it]  5%|▌         | 3307/61904 [1:15:32<21:02:43,  1.29s/it]  5%|▌         | 3308/61904 [1:15:33<21:00:52,  1.29s/it]  5%|▌         | 3309/61904 [1:15:35<21:51:07,  1.34s/it]  5%|▌         | 3310/61904 [1:15:36<22:45:41,  1.40s/it]  5%|▌         | 3311/61904 [1:15:38<21:53:12,  1.34s/it]  5%|▌         | 3312/61904 [1:15:39<21:01:22,  1.29s/it]  5%|▌         | 3313/61904 [1:15:40<21:11:55,  1.30s/it]  5%|▌         | 3314/61904 [1:15:41<21:09:53,  1.30s/it]  5%|▌         | 3315/61904 [1:15:43<21:18:41,  1.31s/it]  5%|▌         | 3316/61904 [1:15:44<22:06:28,  1.36s/it]  5%|▌         | 3317/61904 [1:15:45<21:34:16,  1.33s/it]  5%|▌         | 3318/61904 [1:15:47<21:53:12,  1.34s/it]  5%|▌         | 3319/61904 [1:15:48<21:37:08,  1.33s/it]  5%|▌         | 3320/61904 [1:15:49<21:15:39,  1.31s/it]                                                         {'loss': 3.0148, 'learning_rate': 1.9494360171139633e-07, 'epoch': 0.86}
+  5%|▌         | 3320/61904 [1:15:49<21:15:39,  1.31s/it]  5%|▌         | 3321/61904 [1:15:51<21:06:05,  1.30s/it]  5%|▌         | 3322/61904 [1:15:52<21:43:30,  1.34s/it]  5%|▌         | 3323/61904 [1:15:53<21:31:45,  1.32s/it]  5%|▌         | 3324/61904 [1:15:55<21:37:34,  1.33s/it]  5%|▌         | 3325/61904 [1:15:56<22:00:14,  1.35s/it]  5%|▌         | 3326/61904 [1:15:58<22:28:24,  1.38s/it]  5%|▌         | 3327/61904 [1:15:59<22:33:37,  1.39s/it]  5%|▌         | 3328/61904 [1:16:00<22:38:24,  1.39s/it]  5%|▌         | 3329/61904 [1:16:02<22:34:10,  1.39s/it]  5%|▌         | 3330/61904 [1:16:03<22:18:29,  1.37s/it]  5%|▌         | 3331/61904 [1:16:04<21:53:44,  1.35s/it]  5%|▌         | 3332/61904 [1:16:06<21:58:17,  1.35s/it]  5%|▌         | 3333/61904 [1:16:07<22:14:58,  1.37s/it]  5%|▌         | 3334/61904 [1:16:09<22:49:07,  1.40s/it]  5%|▌         | 3335/61904 [1:16:10<22:25:22,  1.38s/it]  5%|▌         | 3336/61904 [1:16:11<22:42:43,  1.40s/it]  5%|▌         | 3337/61904 [1:16:13<22:13:08,  1.37s/it]  5%|▌         | 3338/61904 [1:16:14<21:36:28,  1.33s/it]  5%|▌         | 3339/61904 [1:16:15<22:03:26,  1.36s/it]  5%|▌         | 3340/61904 [1:16:17<21:47:23,  1.34s/it]                                                         {'loss': 3.0553, 'learning_rate': 1.94911188901854e-07, 'epoch': 0.86}
+  5%|▌         | 3340/61904 [1:16:17<21:47:23,  1.34s/it]  5%|▌         | 3341/61904 [1:16:18<22:26:49,  1.38s/it]  5%|▌         | 3342/61904 [1:16:20<24:23:27,  1.50s/it]  5%|▌         | 3343/61904 [1:16:21<24:30:08,  1.51s/it]  5%|▌         | 3344/61904 [1:16:23<23:33:44,  1.45s/it]  5%|▌         | 3345/61904 [1:16:24<22:46:02,  1.40s/it]  5%|▌         | 3346/61904 [1:16:25<22:05:06,  1.36s/it]  5%|▌         | 3347/61904 [1:16:26<21:40:56,  1.33s/it]  5%|▌         | 3348/61904 [1:16:28<22:37:19,  1.39s/it]  5%|▌         | 3349/61904 [1:16:29<22:17:17,  1.37s/it]  5%|▌         | 3350/61904 [1:16:31<21:50:24,  1.34s/it]  5%|▌         | 3351/61904 [1:16:32<21:38:01,  1.33s/it]  5%|▌         | 3352/61904 [1:16:33<21:19:36,  1.31s/it]  5%|▌         | 3353/61904 [1:16:35<22:33:34,  1.39s/it]  5%|▌         | 3354/61904 [1:16:36<22:19:27,  1.37s/it]  5%|▌         | 3355/61904 [1:16:38<22:41:47,  1.40s/it]  5%|▌         | 3356/61904 [1:16:39<22:49:55,  1.40s/it]  5%|▌         | 3357/61904 [1:16:40<22:35:19,  1.39s/it]  5%|▌         | 3358/61904 [1:16:42<22:01:12,  1.35s/it]  5%|▌         | 3359/61904 [1:16:43<22:55:39,  1.41s/it]  5%|▌         | 3360/61904 [1:16:45<23:27:58,  1.44s/it]                                                         {'loss': 2.9124, 'learning_rate': 1.9487877609231168e-07, 'epoch': 0.87}
+  5%|▌         | 3360/61904 [1:16:45<23:27:58,  1.44s/it]  5%|▌         | 3361/61904 [1:16:46<23:11:19,  1.43s/it]  5%|▌         | 3362/61904 [1:16:47<22:30:15,  1.38s/it]  5%|▌         | 3363/61904 [1:16:49<22:19:30,  1.37s/it]  5%|▌         | 3364/61904 [1:16:50<22:12:17,  1.37s/it]  5%|▌         | 3365/61904 [1:16:51<21:53:10,  1.35s/it]  5%|▌         | 3366/61904 [1:16:53<21:53:01,  1.35s/it]  5%|▌         | 3367/61904 [1:16:54<21:56:15,  1.35s/it]  5%|▌         | 3368/61904 [1:16:56<22:46:50,  1.40s/it]  5%|▌         | 3369/61904 [1:16:57<23:04:48,  1.42s/it]  5%|▌         | 3370/61904 [1:16:58<23:09:21,  1.42s/it]  5%|▌         | 3371/61904 [1:17:00<22:15:37,  1.37s/it]  5%|▌         | 3372/61904 [1:17:01<22:38:12,  1.39s/it]  5%|▌         | 3373/61904 [1:17:02<22:16:16,  1.37s/it]  5%|▌         | 3374/61904 [1:17:04<22:24:39,  1.38s/it]  5%|▌         | 3375/61904 [1:17:05<21:42:00,  1.33s/it]  5%|▌         | 3376/61904 [1:17:07<22:08:30,  1.36s/it]  5%|▌         | 3377/61904 [1:17:08<22:02:00,  1.36s/it]  5%|▌         | 3378/61904 [1:17:09<21:47:35,  1.34s/it]  5%|▌         | 3379/61904 [1:17:11<22:10:54,  1.36s/it]  5%|▌         | 3380/61904 [1:17:12<22:07:40,  1.36s/it]                                                         {'loss': 2.9625, 'learning_rate': 1.9484636328276934e-07, 'epoch': 0.87}
+  5%|▌         | 3380/61904 [1:17:12<22:07:40,  1.36s/it]  5%|▌         | 3381/61904 [1:17:13<22:45:38,  1.40s/it]  5%|▌         | 3382/61904 [1:17:15<22:21:05,  1.37s/it]  5%|▌         | 3383/61904 [1:17:16<21:47:59,  1.34s/it]  5%|▌         | 3384/61904 [1:17:17<21:56:07,  1.35s/it]  5%|▌         | 3385/61904 [1:17:19<22:40:39,  1.40s/it]  5%|▌         | 3386/61904 [1:17:20<22:12:46,  1.37s/it]  5%|▌         | 3387/61904 [1:17:21<22:01:13,  1.35s/it]  5%|▌         | 3388/61904 [1:17:23<21:35:59,  1.33s/it]  5%|▌         | 3389/61904 [1:17:24<21:27:53,  1.32s/it]  5%|▌         | 3390/61904 [1:17:25<21:09:28,  1.30s/it]  5%|▌         | 3391/61904 [1:17:27<21:28:22,  1.32s/it]  5%|▌         | 3392/61904 [1:17:28<21:40:34,  1.33s/it]  5%|▌         | 3393/61904 [1:17:30<22:24:45,  1.38s/it]  5%|▌         | 3394/61904 [1:17:31<21:55:56,  1.35s/it]  5%|▌         | 3395/61904 [1:17:32<21:23:42,  1.32s/it]  5%|▌         | 3396/61904 [1:17:33<21:39:55,  1.33s/it]  5%|▌         | 3397/61904 [1:17:35<21:54:48,  1.35s/it]  5%|▌         | 3398/61904 [1:17:36<21:42:00,  1.34s/it]  5%|▌         | 3399/61904 [1:17:37<21:29:15,  1.32s/it]  5%|▌         | 3400/61904 [1:17:39<21:41:27,  1.33s/it]                                                         {'loss': 2.9542, 'learning_rate': 1.94813950473227e-07, 'epoch': 0.88}
+  5%|▌         | 3400/61904 [1:17:39<21:41:27,  1.33s/it]  5%|▌         | 3401/61904 [1:17:40<21:39:03,  1.33s/it]  5%|▌         | 3402/61904 [1:17:42<22:11:00,  1.37s/it]  5%|▌         | 3403/61904 [1:17:43<22:04:53,  1.36s/it]  5%|▌         | 3404/61904 [1:17:44<22:58:56,  1.41s/it]  6%|▌         | 3405/61904 [1:17:46<22:28:54,  1.38s/it]  6%|▌         | 3406/61904 [1:17:47<22:41:03,  1.40s/it]  6%|▌         | 3407/61904 [1:17:48<22:04:32,  1.36s/it]  6%|▌         | 3408/61904 [1:17:50<21:42:32,  1.34s/it]  6%|▌         | 3409/61904 [1:17:51<21:26:08,  1.32s/it]  6%|▌         | 3410/61904 [1:17:52<21:13:43,  1.31s/it]  6%|▌         | 3411/61904 [1:17:54<21:39:12,  1.33s/it]  6%|▌         | 3412/61904 [1:17:55<21:34:36,  1.33s/it]  6%|▌         | 3413/61904 [1:17:56<21:39:57,  1.33s/it]  6%|▌         | 3414/61904 [1:17:58<21:39:04,  1.33s/it]  6%|▌         | 3415/61904 [1:17:59<22:31:12,  1.39s/it]  6%|▌         | 3416/61904 [1:18:00<22:02:53,  1.36s/it]  6%|▌         | 3417/61904 [1:18:02<21:37:53,  1.33s/it]  6%|▌         | 3418/61904 [1:18:03<21:53:33,  1.35s/it]  6%|▌         | 3419/61904 [1:18:04<21:14:20,  1.31s/it]  6%|▌         | 3420/61904 [1:18:06<21:35:26,  1.33s/it]                                                         {'loss': 3.0042, 'learning_rate': 1.947815376636847e-07, 'epoch': 0.88}
+  6%|▌         | 3420/61904 [1:18:06<21:35:26,  1.33s/it]  6%|▌         | 3421/61904 [1:18:07<21:20:37,  1.31s/it]  6%|▌         | 3422/61904 [1:18:08<20:59:14,  1.29s/it]  6%|▌         | 3423/61904 [1:18:10<21:38:46,  1.33s/it]  6%|▌         | 3424/61904 [1:18:11<21:37:40,  1.33s/it]  6%|▌         | 3425/61904 [1:18:12<22:03:03,  1.36s/it]  6%|▌         | 3426/61904 [1:18:14<21:55:58,  1.35s/it]  6%|▌         | 3427/61904 [1:18:15<21:53:33,  1.35s/it]  6%|▌         | 3428/61904 [1:18:16<21:30:11,  1.32s/it]  6%|▌         | 3429/61904 [1:18:18<22:19:47,  1.37s/it]  6%|▌         | 3430/61904 [1:18:19<22:17:09,  1.37s/it]  6%|▌         | 3431/61904 [1:18:21<22:37:11,  1.39s/it]  6%|▌         | 3432/61904 [1:18:22<22:16:56,  1.37s/it]  6%|▌         | 3433/61904 [1:18:23<22:16:32,  1.37s/it]  6%|▌         | 3434/61904 [1:18:25<22:47:41,  1.40s/it]  6%|▌         | 3435/61904 [1:18:26<23:14:11,  1.43s/it]  6%|▌         | 3436/61904 [1:18:28<22:39:59,  1.40s/it]  6%|▌         | 3437/61904 [1:18:29<23:02:53,  1.42s/it]  6%|▌         | 3438/61904 [1:18:30<22:42:09,  1.40s/it]  6%|▌         | 3439/61904 [1:18:32<22:23:22,  1.38s/it]  6%|▌         | 3440/61904 [1:18:33<23:35:09,  1.45s/it]                                                         {'loss': 3.002, 'learning_rate': 1.9474912485414233e-07, 'epoch': 0.89}
+  6%|▌         | 3440/61904 [1:18:33<23:35:09,  1.45s/it]  6%|▌         | 3441/61904 [1:18:35<22:53:54,  1.41s/it]  6%|▌         | 3442/61904 [1:18:36<22:18:10,  1.37s/it]  6%|▌         | 3443/61904 [1:18:37<22:49:50,  1.41s/it]  6%|▌         | 3444/61904 [1:18:39<21:50:19,  1.34s/it]  6%|▌         | 3445/61904 [1:18:40<22:01:20,  1.36s/it]  6%|▌         | 3446/61904 [1:18:41<21:19:27,  1.31s/it]  6%|▌         | 3447/61904 [1:18:43<21:16:23,  1.31s/it]  6%|▌         | 3448/61904 [1:18:44<21:01:32,  1.29s/it]  6%|▌         | 3449/61904 [1:18:45<20:44:27,  1.28s/it]  6%|▌         | 3450/61904 [1:18:46<20:58:22,  1.29s/it]  6%|▌         | 3451/61904 [1:18:48<22:10:15,  1.37s/it]  6%|▌         | 3452/61904 [1:18:49<22:20:47,  1.38s/it]  6%|▌         | 3453/61904 [1:18:51<21:56:23,  1.35s/it]  6%|▌         | 3454/61904 [1:18:52<22:43:20,  1.40s/it]  6%|▌         | 3455/61904 [1:18:53<21:58:35,  1.35s/it]  6%|▌         | 3456/61904 [1:18:55<21:51:34,  1.35s/it]  6%|▌         | 3457/61904 [1:18:56<22:01:34,  1.36s/it]  6%|▌         | 3458/61904 [1:18:57<21:54:12,  1.35s/it]  6%|▌         | 3459/61904 [1:18:59<21:26:30,  1.32s/it]  6%|▌         | 3460/61904 [1:19:00<21:54:52,  1.35s/it]                                                         {'loss': 3.0223, 'learning_rate': 1.9471671204460001e-07, 'epoch': 0.89}
+  6%|▌         | 3460/61904 [1:19:00<21:54:52,  1.35s/it]  6%|▌         | 3461/61904 [1:19:02<22:24:25,  1.38s/it]  6%|▌         | 3462/61904 [1:19:03<22:10:22,  1.37s/it]  6%|▌         | 3463/61904 [1:19:04<22:39:37,  1.40s/it]  6%|▌         | 3464/61904 [1:19:06<22:44:33,  1.40s/it]  6%|▌         | 3465/61904 [1:19:07<22:38:50,  1.40s/it]  6%|▌         | 3466/61904 [1:19:09<22:32:16,  1.39s/it]  6%|▌         | 3467/61904 [1:19:10<22:47:02,  1.40s/it]  6%|▌         | 3468/61904 [1:19:11<22:50:17,  1.41s/it]  6%|▌         | 3469/61904 [1:19:13<22:25:28,  1.38s/it]  6%|▌         | 3470/61904 [1:19:14<23:30:10,  1.45s/it]  6%|▌         | 3471/61904 [1:19:16<23:54:50,  1.47s/it]  6%|▌         | 3472/61904 [1:19:17<24:16:06,  1.50s/it]  6%|▌         | 3473/61904 [1:19:19<23:37:47,  1.46s/it]  6%|▌         | 3474/61904 [1:19:20<22:40:55,  1.40s/it]  6%|▌         | 3475/61904 [1:19:21<22:05:47,  1.36s/it]  6%|▌         | 3476/61904 [1:19:23<21:55:34,  1.35s/it]  6%|▌         | 3477/61904 [1:19:24<22:54:12,  1.41s/it]  6%|▌         | 3478/61904 [1:19:26<23:05:11,  1.42s/it]  6%|▌         | 3479/61904 [1:19:27<22:45:57,  1.40s/it]  6%|▌         | 3480/61904 [1:19:28<22:32:16,  1.39s/it]                                                         {'loss': 3.0038, 'learning_rate': 1.946842992350577e-07, 'epoch': 0.9}
+  6%|▌         | 3480/61904 [1:19:28<22:32:16,  1.39s/it]  6%|▌         | 3481/61904 [1:19:30<22:52:00,  1.41s/it]  6%|▌         | 3482/61904 [1:19:31<22:51:27,  1.41s/it]  6%|▌         | 3483/61904 [1:19:32<21:57:56,  1.35s/it]  6%|▌         | 3484/61904 [1:19:34<21:53:29,  1.35s/it]  6%|▌         | 3485/61904 [1:19:35<21:58:33,  1.35s/it]  6%|▌         | 3486/61904 [1:19:37<22:28:05,  1.38s/it]  6%|▌         | 3487/61904 [1:19:38<21:54:25,  1.35s/it]  6%|▌         | 3488/61904 [1:19:39<21:56:46,  1.35s/it]  6%|▌         | 3489/61904 [1:19:41<22:05:20,  1.36s/it]  6%|▌         | 3490/61904 [1:19:42<21:40:41,  1.34s/it]  6%|▌         | 3491/61904 [1:19:43<21:35:38,  1.33s/it]  6%|▌         | 3492/61904 [1:19:45<22:01:38,  1.36s/it]  6%|▌         | 3493/61904 [1:19:46<22:49:52,  1.41s/it]  6%|▌         | 3494/61904 [1:19:48<22:41:01,  1.40s/it]  6%|▌         | 3495/61904 [1:19:49<21:54:44,  1.35s/it]  6%|▌         | 3496/61904 [1:19:50<21:31:50,  1.33s/it]  6%|▌         | 3497/61904 [1:19:51<21:40:35,  1.34s/it]  6%|▌         | 3498/61904 [1:19:53<22:31:10,  1.39s/it]  6%|▌         | 3499/61904 [1:19:54<22:03:18,  1.36s/it]  6%|▌         | 3500/61904 [1:19:56<22:17:50,  1.37s/it]                                                         {'loss': 3.0014, 'learning_rate': 1.9465188642551534e-07, 'epoch': 0.9}
+  6%|▌         | 3500/61904 [1:19:56<22:17:50,  1.37s/it]  6%|▌         | 3501/61904 [1:19:57<21:57:58,  1.35s/it]  6%|▌         | 3502/61904 [1:19:58<21:39:24,  1.33s/it]  6%|▌         | 3503/61904 [1:20:00<22:35:42,  1.39s/it]  6%|▌         | 3504/61904 [1:20:01<22:35:09,  1.39s/it]  6%|▌         | 3505/61904 [1:20:03<22:58:59,  1.42s/it]  6%|▌         | 3506/61904 [1:20:04<22:12:37,  1.37s/it]  6%|▌         | 3507/61904 [1:20:05<22:16:19,  1.37s/it]  6%|▌         | 3508/61904 [1:20:06<21:45:43,  1.34s/it]  6%|▌         | 3509/61904 [1:20:08<22:44:13,  1.40s/it]  6%|▌         | 3510/61904 [1:20:09<21:54:43,  1.35s/it]  6%|▌         | 3511/61904 [1:20:11<22:35:27,  1.39s/it]  6%|▌         | 3512/61904 [1:20:12<22:52:52,  1.41s/it]  6%|▌         | 3513/61904 [1:20:14<23:09:07,  1.43s/it]  6%|▌         | 3514/61904 [1:20:15<22:21:11,  1.38s/it]  6%|▌         | 3515/61904 [1:20:16<22:34:19,  1.39s/it]  6%|▌         | 3516/61904 [1:20:18<22:43:12,  1.40s/it]  6%|▌         | 3517/61904 [1:20:19<22:15:08,  1.37s/it]  6%|▌         | 3518/61904 [1:20:21<22:44:13,  1.40s/it]  6%|▌         | 3519/61904 [1:20:22<21:43:54,  1.34s/it]  6%|▌         | 3520/61904 [1:20:23<21:14:03,  1.31s/it]                                                         {'loss': 3.0553, 'learning_rate': 1.9461947361597303e-07, 'epoch': 0.91}
+  6%|▌         | 3520/61904 [1:20:23<21:14:03,  1.31s/it]  6%|▌         | 3521/61904 [1:20:24<21:19:43,  1.32s/it]  6%|▌         | 3522/61904 [1:20:26<21:39:59,  1.34s/it]  6%|▌         | 3523/61904 [1:20:27<22:07:35,  1.36s/it]  6%|▌         | 3524/61904 [1:20:28<21:54:40,  1.35s/it]  6%|▌         | 3525/61904 [1:20:30<22:11:42,  1.37s/it]  6%|▌         | 3526/61904 [1:20:31<22:14:04,  1.37s/it]  6%|▌         | 3527/61904 [1:20:33<22:05:12,  1.36s/it]  6%|▌         | 3528/61904 [1:20:34<22:28:54,  1.39s/it]  6%|▌         | 3529/61904 [1:20:35<22:11:11,  1.37s/it]  6%|▌         | 3530/61904 [1:20:37<22:05:57,  1.36s/it]  6%|▌         | 3531/61904 [1:20:38<21:20:50,  1.32s/it]  6%|▌         | 3532/61904 [1:20:39<22:28:03,  1.39s/it]  6%|▌         | 3533/61904 [1:20:41<21:35:10,  1.33s/it]  6%|▌         | 3534/61904 [1:20:42<21:51:51,  1.35s/it]  6%|▌         | 3535/61904 [1:20:43<21:35:14,  1.33s/it]  6%|▌         | 3536/61904 [1:20:45<21:13:00,  1.31s/it]  6%|▌         | 3537/61904 [1:20:46<22:03:28,  1.36s/it]  6%|▌         | 3538/61904 [1:20:47<22:07:18,  1.36s/it]  6%|▌         | 3539/61904 [1:20:49<22:10:59,  1.37s/it]  6%|▌         | 3540/61904 [1:20:50<22:14:08,  1.37s/it]                                                         {'loss': 3.0522, 'learning_rate': 1.945870608064307e-07, 'epoch': 0.91}
+  6%|▌         | 3540/61904 [1:20:50<22:14:08,  1.37s/it]  6%|▌         | 3541/61904 [1:20:52<21:58:05,  1.36s/it]  6%|▌         | 3542/61904 [1:20:53<22:11:33,  1.37s/it]  6%|▌         | 3543/61904 [1:20:54<21:54:25,  1.35s/it]  6%|▌         | 3544/61904 [1:20:56<21:36:48,  1.33s/it]  6%|▌         | 3545/61904 [1:20:57<22:02:00,  1.36s/it]  6%|▌         | 3546/61904 [1:20:58<22:44:39,  1.40s/it]  6%|▌         | 3547/61904 [1:21:00<22:05:22,  1.36s/it]  6%|▌         | 3548/61904 [1:21:01<22:22:12,  1.38s/it]  6%|▌         | 3549/61904 [1:21:02<21:46:50,  1.34s/it]  6%|▌         | 3550/61904 [1:21:04<22:26:25,  1.38s/it]  6%|▌         | 3551/61904 [1:21:05<22:28:05,  1.39s/it]  6%|▌         | 3552/61904 [1:21:06<21:38:56,  1.34s/it]  6%|▌         | 3553/61904 [1:21:08<21:46:36,  1.34s/it]  6%|▌         | 3554/61904 [1:21:09<21:18:46,  1.31s/it]  6%|▌         | 3555/61904 [1:21:11<22:20:35,  1.38s/it]  6%|▌         | 3556/61904 [1:21:12<21:37:40,  1.33s/it]  6%|▌         | 3557/61904 [1:21:13<22:18:41,  1.38s/it]  6%|▌         | 3558/61904 [1:21:15<21:55:08,  1.35s/it]  6%|▌         | 3559/61904 [1:21:16<20:56:54,  1.29s/it]  6%|▌         | 3560/61904 [1:21:17<21:20:36,  1.32s/it]                                                         {'loss': 3.0365, 'learning_rate': 1.9455464799688835e-07, 'epoch': 0.92}
+  6%|▌         | 3560/61904 [1:21:17<21:20:36,  1.32s/it]  6%|▌         | 3561/61904 [1:21:19<21:33:37,  1.33s/it]  6%|▌         | 3562/61904 [1:21:20<21:55:46,  1.35s/it]  6%|▌         | 3563/61904 [1:21:21<22:28:39,  1.39s/it]  6%|▌         | 3564/61904 [1:21:23<21:47:31,  1.34s/it]  6%|▌         | 3565/61904 [1:21:24<22:31:40,  1.39s/it]  6%|▌         | 3566/61904 [1:21:26<22:44:08,  1.40s/it]  6%|▌         | 3567/61904 [1:21:27<22:18:52,  1.38s/it]  6%|▌         | 3568/61904 [1:21:28<21:46:01,  1.34s/it]  6%|▌         | 3569/61904 [1:21:29<21:49:07,  1.35s/it]  6%|▌         | 3570/61904 [1:21:31<22:14:09,  1.37s/it]  6%|▌         | 3571/61904 [1:21:32<21:56:08,  1.35s/it]  6%|▌         | 3572/61904 [1:21:34<22:18:01,  1.38s/it]  6%|▌         | 3573/61904 [1:21:35<21:46:54,  1.34s/it]  6%|▌         | 3574/61904 [1:21:36<22:29:15,  1.39s/it]  6%|▌         | 3575/61904 [1:21:38<22:14:58,  1.37s/it]  6%|▌         | 3576/61904 [1:21:39<21:54:11,  1.35s/it]  6%|▌         | 3577/61904 [1:21:40<22:10:35,  1.37s/it]  6%|▌         | 3578/61904 [1:21:42<22:05:19,  1.36s/it]  6%|▌         | 3579/61904 [1:21:43<22:41:23,  1.40s/it]  6%|▌         | 3580/61904 [1:21:45<22:17:09,  1.38s/it]                                                         {'loss': 3.0001, 'learning_rate': 1.9452223518734604e-07, 'epoch': 0.93}
+  6%|▌         | 3580/61904 [1:21:45<22:17:09,  1.38s/it]  6%|▌         | 3581/61904 [1:21:46<21:58:19,  1.36s/it]  6%|▌         | 3582/61904 [1:21:47<21:28:02,  1.33s/it]  6%|▌         | 3583/61904 [1:21:49<21:23:35,  1.32s/it]  6%|▌         | 3584/61904 [1:21:50<21:58:43,  1.36s/it]  6%|▌         | 3585/61904 [1:21:51<21:28:13,  1.33s/it]  6%|▌         | 3586/61904 [1:21:53<22:02:10,  1.36s/it]  6%|▌         | 3587/61904 [1:21:54<22:25:25,  1.38s/it]  6%|▌         | 3588/61904 [1:21:55<22:03:43,  1.36s/it]  6%|▌         | 3589/61904 [1:21:57<21:25:29,  1.32s/it]  6%|▌         | 3590/61904 [1:21:58<22:01:35,  1.36s/it]  6%|▌         | 3591/61904 [1:21:59<21:49:30,  1.35s/it]  6%|▌         | 3592/61904 [1:22:01<21:51:41,  1.35s/it]  6%|▌         | 3593/61904 [1:22:02<23:33:36,  1.45s/it]  6%|▌         | 3594/61904 [1:22:04<22:24:29,  1.38s/it]  6%|▌         | 3595/61904 [1:22:05<22:10:33,  1.37s/it]  6%|▌         | 3596/61904 [1:22:06<22:47:20,  1.41s/it]  6%|▌         | 3597/61904 [1:22:08<22:53:00,  1.41s/it]  6%|▌         | 3598/61904 [1:22:09<22:26:10,  1.39s/it]  6%|▌         | 3599/61904 [1:22:11<22:29:24,  1.39s/it]  6%|▌         | 3600/61904 [1:22:12<22:29:31,  1.39s/it]                                                         {'loss': 3.0292, 'learning_rate': 1.944898223778037e-07, 'epoch': 0.93}
+  6%|▌         | 3600/61904 [1:22:12<22:29:31,  1.39s/it]  6%|▌         | 3601/61904 [1:22:13<21:57:37,  1.36s/it]  6%|▌         | 3602/61904 [1:22:15<23:05:37,  1.43s/it]  6%|▌         | 3603/61904 [1:22:16<22:44:35,  1.40s/it]  6%|▌         | 3604/61904 [1:22:18<22:11:46,  1.37s/it]  6%|▌         | 3605/61904 [1:22:19<22:47:44,  1.41s/it]  6%|▌         | 3606/61904 [1:22:20<22:46:45,  1.41s/it]  6%|▌         | 3607/61904 [1:22:22<23:29:20,  1.45s/it]  6%|▌         | 3608/61904 [1:22:24<23:53:19,  1.48s/it]  6%|▌         | 3609/61904 [1:22:25<22:53:24,  1.41s/it]  6%|▌         | 3610/61904 [1:22:26<22:27:50,  1.39s/it]  6%|▌         | 3611/61904 [1:22:27<22:12:28,  1.37s/it]  6%|▌         | 3612/61904 [1:22:29<22:36:27,  1.40s/it]  6%|▌         | 3613/61904 [1:22:30<22:55:16,  1.42s/it]  6%|▌         | 3614/61904 [1:22:32<22:19:30,  1.38s/it]  6%|▌         | 3615/61904 [1:22:33<22:20:28,  1.38s/it]  6%|▌         | 3616/61904 [1:22:34<22:04:15,  1.36s/it]  6%|▌         | 3617/61904 [1:22:36<21:53:49,  1.35s/it]  6%|▌         | 3618/61904 [1:22:37<21:58:08,  1.36s/it]  6%|▌         | 3619/61904 [1:22:39<22:34:29,  1.39s/it]  6%|▌         | 3620/61904 [1:22:40<22:48:25,  1.41s/it]                                                         {'loss': 3.1199, 'learning_rate': 1.9445740956826136e-07, 'epoch': 0.94}
+  6%|▌         | 3620/61904 [1:22:40<22:48:25,  1.41s/it]  6%|▌         | 3621/61904 [1:22:41<22:41:39,  1.40s/it]  6%|▌         | 3622/61904 [1:22:43<22:36:31,  1.40s/it]  6%|▌         | 3623/61904 [1:22:44<22:41:26,  1.40s/it]  6%|▌         | 3624/61904 [1:22:46<22:27:03,  1.39s/it]  6%|▌         | 3625/61904 [1:22:47<22:22:11,  1.38s/it]  6%|▌         | 3626/61904 [1:22:48<21:58:26,  1.36s/it]  6%|▌         | 3627/61904 [1:22:49<21:38:58,  1.34s/it]  6%|▌         | 3628/61904 [1:22:51<22:04:11,  1.36s/it]  6%|▌         | 3629/61904 [1:22:52<23:01:26,  1.42s/it]  6%|▌         | 3630/61904 [1:22:54<23:06:56,  1.43s/it]  6%|▌         | 3631/61904 [1:22:55<23:46:31,  1.47s/it]  6%|▌         | 3632/61904 [1:22:57<23:22:36,  1.44s/it]  6%|▌         | 3633/61904 [1:22:58<23:19:34,  1.44s/it]  6%|▌         | 3634/61904 [1:23:00<23:16:58,  1.44s/it]  6%|▌         | 3635/61904 [1:23:01<23:10:06,  1.43s/it]  6%|▌         | 3636/61904 [1:23:03<22:49:42,  1.41s/it]  6%|▌         | 3637/61904 [1:23:04<23:04:01,  1.43s/it]  6%|▌         | 3638/61904 [1:23:05<23:03:29,  1.42s/it]  6%|▌         | 3639/61904 [1:23:07<23:59:39,  1.48s/it]  6%|▌         | 3640/61904 [1:23:08<23:17:29,  1.44s/it]                                                         {'loss': 3.0552, 'learning_rate': 1.9442499675871905e-07, 'epoch': 0.94}
+  6%|▌         | 3640/61904 [1:23:08<23:17:29,  1.44s/it]  6%|▌         | 3641/61904 [1:23:10<23:14:16,  1.44s/it]  6%|▌         | 3642/61904 [1:23:11<23:02:22,  1.42s/it]  6%|▌         | 3643/61904 [1:23:13<22:58:48,  1.42s/it]  6%|▌         | 3644/61904 [1:23:14<22:48:24,  1.41s/it]  6%|▌         | 3645/61904 [1:23:16<23:38:22,  1.46s/it]  6%|▌         | 3646/61904 [1:23:17<23:12:23,  1.43s/it]  6%|▌         | 3647/61904 [1:23:18<22:34:24,  1.39s/it]  6%|▌         | 3648/61904 [1:23:20<22:03:48,  1.36s/it]  6%|▌         | 3649/61904 [1:23:21<22:01:58,  1.36s/it]  6%|▌         | 3650/61904 [1:23:22<21:59:57,  1.36s/it]  6%|▌         | 3651/61904 [1:23:24<22:02:08,  1.36s/it]  6%|▌         | 3652/61904 [1:23:25<22:00:41,  1.36s/it]  6%|▌         | 3653/61904 [1:23:26<22:47:30,  1.41s/it]  6%|▌         | 3654/61904 [1:23:28<22:06:04,  1.37s/it]  6%|▌         | 3655/61904 [1:23:29<22:08:35,  1.37s/it]  6%|▌         | 3656/61904 [1:23:31<22:19:15,  1.38s/it]  6%|▌         | 3657/61904 [1:23:32<21:58:54,  1.36s/it]  6%|▌         | 3658/61904 [1:23:33<22:38:48,  1.40s/it]  6%|▌         | 3659/61904 [1:23:35<22:29:41,  1.39s/it]  6%|▌         | 3660/61904 [1:23:36<22:27:31,  1.39s/it]                                                         {'loss': 3.0105, 'learning_rate': 1.9439258394917669e-07, 'epoch': 0.95}
+  6%|▌         | 3660/61904 [1:23:36<22:27:31,  1.39s/it]  6%|▌         | 3661/61904 [1:23:37<22:25:32,  1.39s/it]  6%|▌         | 3662/61904 [1:23:39<22:17:30,  1.38s/it]  6%|▌         | 3663/61904 [1:23:40<22:14:58,  1.38s/it]  6%|▌         | 3664/61904 [1:23:42<22:06:08,  1.37s/it]  6%|▌         | 3665/61904 [1:23:43<22:25:38,  1.39s/it]  6%|▌         | 3666/61904 [1:23:45<23:49:00,  1.47s/it]  6%|▌         | 3667/61904 [1:23:46<24:00:04,  1.48s/it]  6%|▌         | 3668/61904 [1:23:48<24:15:38,  1.50s/it]  6%|▌         | 3669/61904 [1:23:49<23:45:54,  1.47s/it]  6%|▌         | 3670/61904 [1:23:51<23:37:47,  1.46s/it]  6%|▌         | 3671/61904 [1:23:52<23:11:39,  1.43s/it]  6%|▌         | 3672/61904 [1:23:53<23:48:37,  1.47s/it]  6%|▌         | 3673/61904 [1:23:55<23:41:06,  1.46s/it]  6%|▌         | 3674/61904 [1:23:56<23:30:00,  1.45s/it]  6%|▌         | 3675/61904 [1:23:58<22:34:24,  1.40s/it]  6%|▌         | 3676/61904 [1:23:59<22:27:50,  1.39s/it]  6%|▌         | 3677/61904 [1:24:00<21:54:57,  1.36s/it]  6%|▌         | 3678/61904 [1:24:02<21:50:11,  1.35s/it]  6%|▌         | 3679/61904 [1:24:03<22:12:21,  1.37s/it]  6%|▌         | 3680/61904 [1:24:04<22:10:44,  1.37s/it]                                                         {'loss': 2.989, 'learning_rate': 1.9436017113963437e-07, 'epoch': 0.95}
+  6%|▌         | 3680/61904 [1:24:04<22:10:44,  1.37s/it]  6%|▌         | 3681/61904 [1:24:06<22:30:18,  1.39s/it]  6%|▌         | 3682/61904 [1:24:07<23:23:18,  1.45s/it]  6%|▌         | 3683/61904 [1:24:09<24:04:34,  1.49s/it]  6%|▌         | 3684/61904 [1:24:10<24:00:10,  1.48s/it]  6%|▌         | 3685/61904 [1:24:12<23:41:22,  1.46s/it]  6%|▌         | 3686/61904 [1:24:13<23:18:17,  1.44s/it]  6%|▌         | 3687/61904 [1:24:15<22:39:23,  1.40s/it]  6%|▌         | 3688/61904 [1:24:16<22:27:52,  1.39s/it]  6%|▌         | 3689/61904 [1:24:17<22:35:30,  1.40s/it]  6%|▌         | 3690/61904 [1:24:19<22:57:06,  1.42s/it]  6%|▌         | 3691/61904 [1:24:20<22:24:59,  1.39s/it]  6%|▌         | 3692/61904 [1:24:21<22:13:08,  1.37s/it]  6%|▌         | 3693/61904 [1:24:23<22:05:41,  1.37s/it]  6%|▌         | 3694/61904 [1:24:24<22:31:52,  1.39s/it]  6%|▌         | 3695/61904 [1:24:26<22:20:46,  1.38s/it]  6%|▌         | 3696/61904 [1:24:27<21:55:04,  1.36s/it]  6%|▌         | 3697/61904 [1:24:28<22:45:44,  1.41s/it]  6%|▌         | 3698/61904 [1:24:30<22:25:03,  1.39s/it]  6%|▌         | 3699/61904 [1:24:31<23:06:16,  1.43s/it]  6%|▌         | 3700/61904 [1:24:33<23:20:33,  1.44s/it]                                                         {'loss': 3.0091, 'learning_rate': 1.9432775833009204e-07, 'epoch': 0.96}
+  6%|▌         | 3700/61904 [1:24:33<23:20:33,  1.44s/it]  6%|▌         | 3701/61904 [1:24:34<22:58:18,  1.42s/it]  6%|▌         | 3702/61904 [1:24:35<22:21:07,  1.38s/it]  6%|▌         | 3703/61904 [1:24:37<22:42:38,  1.40s/it]  6%|▌         | 3704/61904 [1:24:38<22:31:15,  1.39s/it]  6%|▌         | 3705/61904 [1:24:40<22:04:21,  1.37s/it]  6%|▌         | 3706/61904 [1:24:41<21:27:46,  1.33s/it]  6%|▌         | 3707/61904 [1:24:42<22:21:35,  1.38s/it]  6%|▌         | 3708/61904 [1:24:44<23:35:36,  1.46s/it]  6%|▌         | 3709/61904 [1:24:45<23:25:31,  1.45s/it]  6%|▌         | 3710/61904 [1:24:47<23:04:06,  1.43s/it]  6%|▌         | 3711/61904 [1:24:48<22:28:37,  1.39s/it]  6%|▌         | 3712/61904 [1:24:49<22:02:23,  1.36s/it]  6%|▌         | 3713/61904 [1:24:51<22:05:00,  1.37s/it]  6%|▌         | 3714/61904 [1:24:52<22:38:28,  1.40s/it]  6%|▌         | 3715/61904 [1:24:54<22:22:07,  1.38s/it]  6%|▌         | 3716/61904 [1:24:55<22:12:22,  1.37s/it]  6%|▌         | 3717/61904 [1:24:56<22:38:43,  1.40s/it]  6%|▌         | 3718/61904 [1:24:58<21:59:01,  1.36s/it]  6%|▌         | 3719/61904 [1:24:59<21:55:27,  1.36s/it]  6%|▌         | 3720/61904 [1:25:00<22:32:02,  1.39s/it]                                                         {'loss': 3.0251, 'learning_rate': 1.942953455205497e-07, 'epoch': 0.96}
+  6%|▌         | 3720/61904 [1:25:00<22:32:02,  1.39s/it]  6%|▌         | 3721/61904 [1:25:02<22:57:07,  1.42s/it]  6%|▌         | 3722/61904 [1:25:03<22:59:54,  1.42s/it]  6%|▌         | 3723/61904 [1:25:05<22:50:42,  1.41s/it]  6%|▌         | 3724/61904 [1:25:06<22:25:54,  1.39s/it]  6%|▌         | 3725/61904 [1:25:08<22:57:46,  1.42s/it]  6%|▌         | 3726/61904 [1:25:09<22:45:03,  1.41s/it]  6%|▌         | 3727/61904 [1:25:10<22:38:59,  1.40s/it]  6%|▌         | 3728/61904 [1:25:12<22:43:56,  1.41s/it]  6%|▌         | 3729/61904 [1:25:13<22:05:26,  1.37s/it]  6%|▌         | 3730/61904 [1:25:14<21:38:55,  1.34s/it]  6%|▌         | 3731/61904 [1:25:16<21:29:37,  1.33s/it]  6%|▌         | 3732/61904 [1:25:17<22:19:22,  1.38s/it]  6%|▌         | 3733/61904 [1:25:19<22:42:48,  1.41s/it]  6%|▌         | 3734/61904 [1:25:20<22:26:06,  1.39s/it]  6%|▌         | 3735/61904 [1:25:21<21:51:07,  1.35s/it]  6%|▌         | 3736/61904 [1:25:23<21:58:22,  1.36s/it]  6%|▌         | 3737/61904 [1:25:24<22:03:32,  1.37s/it]  6%|▌         | 3738/61904 [1:25:25<21:53:01,  1.35s/it]  6%|▌         | 3739/61904 [1:25:27<22:00:45,  1.36s/it]  6%|▌         | 3740/61904 [1:25:28<21:55:31,  1.36s/it]                                                         {'loss': 3.0071, 'learning_rate': 1.9426293271100739e-07, 'epoch': 0.97}
+  6%|▌         | 3740/61904 [1:25:28<21:55:31,  1.36s/it]  6%|▌         | 3741/61904 [1:25:29<22:03:20,  1.37s/it]  6%|▌         | 3742/61904 [1:25:31<22:09:12,  1.37s/it]  6%|▌         | 3743/61904 [1:25:32<22:17:53,  1.38s/it]  6%|▌         | 3744/61904 [1:25:34<22:00:00,  1.36s/it]  6%|▌         | 3745/61904 [1:25:35<22:10:15,  1.37s/it]  6%|▌         | 3746/61904 [1:25:36<22:52:44,  1.42s/it]  6%|▌         | 3747/61904 [1:25:38<22:19:48,  1.38s/it]  6%|▌         | 3748/61904 [1:25:39<21:27:03,  1.33s/it]  6%|▌         | 3749/61904 [1:25:40<21:13:36,  1.31s/it]  6%|▌         | 3750/61904 [1:25:42<22:12:05,  1.37s/it]  6%|▌         | 3751/61904 [1:25:43<21:59:43,  1.36s/it]  6%|▌         | 3752/61904 [1:25:45<22:22:30,  1.39s/it]  6%|▌         | 3753/61904 [1:25:46<21:54:43,  1.36s/it]  6%|▌         | 3754/61904 [1:25:47<21:25:13,  1.33s/it]  6%|▌         | 3755/61904 [1:25:49<22:10:13,  1.37s/it]  6%|▌         | 3756/61904 [1:25:50<23:01:29,  1.43s/it]  6%|▌         | 3757/61904 [1:25:51<22:37:28,  1.40s/it]  6%|▌         | 3758/61904 [1:25:53<22:08:40,  1.37s/it]  6%|▌         | 3759/61904 [1:25:54<21:22:00,  1.32s/it]  6%|▌         | 3760/61904 [1:25:55<21:48:36,  1.35s/it]                                                         {'loss': 2.9836, 'learning_rate': 1.9423051990146505e-07, 'epoch': 0.97}
+  6%|▌         | 3760/61904 [1:25:55<21:48:36,  1.35s/it]  6%|▌         | 3761/61904 [1:25:57<22:26:00,  1.39s/it]  6%|▌         | 3762/61904 [1:25:58<22:10:19,  1.37s/it]  6%|▌         | 3763/61904 [1:26:00<22:09:51,  1.37s/it]  6%|▌         | 3764/61904 [1:26:01<21:51:45,  1.35s/it]  6%|▌         | 3765/61904 [1:26:02<21:27:59,  1.33s/it]  6%|▌         | 3766/61904 [1:26:03<21:07:01,  1.31s/it]  6%|▌         | 3767/61904 [1:26:05<21:10:16,  1.31s/it]  6%|▌         | 3768/61904 [1:26:06<21:37:21,  1.34s/it]  6%|▌         | 3769/61904 [1:26:07<21:20:41,  1.32s/it]  6%|▌         | 3770/61904 [1:26:09<20:50:28,  1.29s/it]  6%|▌         | 3771/61904 [1:26:10<21:04:35,  1.31s/it]  6%|▌         | 3772/61904 [1:26:11<20:55:31,  1.30s/it]  6%|▌         | 3773/61904 [1:26:12<20:43:20,  1.28s/it]  6%|▌         | 3774/61904 [1:26:14<21:59:01,  1.36s/it]  6%|▌         | 3775/61904 [1:26:15<21:41:45,  1.34s/it]  6%|▌         | 3776/61904 [1:26:17<21:26:08,  1.33s/it]  6%|▌         | 3777/61904 [1:26:18<21:21:10,  1.32s/it]  6%|▌         | 3778/61904 [1:26:19<21:11:36,  1.31s/it]  6%|▌         | 3779/61904 [1:26:21<22:01:03,  1.36s/it]  6%|▌         | 3780/61904 [1:26:22<22:22:08,  1.39s/it]                                                         {'loss': 2.9818, 'learning_rate': 1.941981070919227e-07, 'epoch': 0.98}
+  6%|▌         | 3780/61904 [1:26:22<22:22:08,  1.39s/it]  6%|▌         | 3781/61904 [1:26:23<22:08:54,  1.37s/it]  6%|▌         | 3782/61904 [1:26:25<22:29:19,  1.39s/it]  6%|▌         | 3783/61904 [1:26:26<22:04:08,  1.37s/it]  6%|▌         | 3784/61904 [1:26:28<22:12:10,  1.38s/it]  6%|▌         | 3785/61904 [1:26:29<21:45:52,  1.35s/it]  6%|▌         | 3786/61904 [1:26:30<21:45:20,  1.35s/it]  6%|▌         | 3787/61904 [1:26:32<21:35:28,  1.34s/it]  6%|▌         | 3788/61904 [1:26:33<22:11:08,  1.37s/it]  6%|▌         | 3789/61904 [1:26:34<21:59:12,  1.36s/it]  6%|▌         | 3790/61904 [1:26:36<22:28:16,  1.39s/it]  6%|▌         | 3791/61904 [1:26:37<22:20:59,  1.38s/it]  6%|▌         | 3792/61904 [1:26:39<22:58:36,  1.42s/it]  6%|▌         | 3793/61904 [1:26:40<22:08:19,  1.37s/it]  6%|▌         | 3794/61904 [1:26:41<21:52:32,  1.36s/it]  6%|▌         | 3795/61904 [1:26:43<22:15:20,  1.38s/it]  6%|▌         | 3796/61904 [1:26:44<22:39:31,  1.40s/it]  6%|▌         | 3797/61904 [1:26:45<22:22:29,  1.39s/it]  6%|▌         | 3798/61904 [1:26:47<22:39:21,  1.40s/it]  6%|▌         | 3799/61904 [1:26:49<23:53:35,  1.48s/it]  6%|▌         | 3800/61904 [1:26:50<22:48:36,  1.41s/it]                                                         {'loss': 3.1245, 'learning_rate': 1.941656942823804e-07, 'epoch': 0.98}
+  6%|▌         | 3800/61904 [1:26:50<22:48:36,  1.41s/it]  6%|▌         | 3801/61904 [1:26:51<22:12:47,  1.38s/it]  6%|▌         | 3802/61904 [1:26:53<22:30:36,  1.39s/it]  6%|▌         | 3803/61904 [1:26:54<22:17:02,  1.38s/it]  6%|▌         | 3804/61904 [1:26:55<21:57:57,  1.36s/it]  6%|▌         | 3805/61904 [1:26:57<21:53:39,  1.36s/it]  6%|▌         | 3806/61904 [1:26:58<22:06:48,  1.37s/it]  6%|▌         | 3807/61904 [1:26:59<22:29:08,  1.39s/it]  6%|▌         | 3808/61904 [1:27:01<21:58:51,  1.36s/it]  6%|▌         | 3809/61904 [1:27:02<21:53:59,  1.36s/it]  6%|▌         | 3810/61904 [1:27:03<21:29:42,  1.33s/it]  6%|▌         | 3811/61904 [1:27:05<21:23:34,  1.33s/it]  6%|▌         | 3812/61904 [1:27:06<21:12:35,  1.31s/it]  6%|▌         | 3813/61904 [1:27:07<21:40:26,  1.34s/it]  6%|▌         | 3814/61904 [1:27:09<21:52:08,  1.36s/it]  6%|▌         | 3815/61904 [1:27:10<21:31:39,  1.33s/it]  6%|▌         | 3816/61904 [1:27:11<22:01:06,  1.36s/it]  6%|▌         | 3817/61904 [1:27:13<21:36:11,  1.34s/it]  6%|▌         | 3818/61904 [1:27:14<21:46:43,  1.35s/it]  6%|▌         | 3819/61904 [1:27:16<22:04:20,  1.37s/it]  6%|▌         | 3820/61904 [1:27:17<22:06:12,  1.37s/it]                                                         {'loss': 3.0495, 'learning_rate': 1.9413328147283806e-07, 'epoch': 0.99}
+  6%|▌         | 3820/61904 [1:27:17<22:06:12,  1.37s/it]  6%|▌         | 3821/61904 [1:27:18<21:35:10,  1.34s/it]  6%|▌         | 3822/61904 [1:27:19<21:05:53,  1.31s/it]  6%|▌         | 3823/61904 [1:27:21<21:12:17,  1.31s/it]  6%|▌         | 3824/61904 [1:27:22<21:36:50,  1.34s/it]  6%|▌         | 3825/61904 [1:27:23<21:46:03,  1.35s/it]  6%|▌         | 3826/61904 [1:27:25<21:35:37,  1.34s/it]  6%|▌         | 3827/61904 [1:27:26<22:03:57,  1.37s/it]  6%|▌         | 3828/61904 [1:27:27<21:22:37,  1.33s/it]  6%|▌         | 3829/61904 [1:27:29<22:11:37,  1.38s/it]  6%|▌         | 3830/61904 [1:27:30<21:44:42,  1.35s/it]  6%|▌         | 3831/61904 [1:27:32<22:21:30,  1.39s/it]  6%|▌         | 3832/61904 [1:27:33<22:20:02,  1.38s/it]  6%|▌         | 3833/61904 [1:27:34<21:44:55,  1.35s/it]  6%|▌         | 3834/61904 [1:27:36<21:28:56,  1.33s/it]  6%|▌         | 3835/61904 [1:27:37<21:25:06,  1.33s/it]  6%|▌         | 3836/61904 [1:27:39<22:37:13,  1.40s/it]  6%|▌         | 3837/61904 [1:27:40<21:58:05,  1.36s/it]  6%|▌         | 3838/61904 [1:27:41<22:25:02,  1.39s/it]  6%|▌         | 3839/61904 [1:27:43<22:03:21,  1.37s/it]  6%|▌         | 3840/61904 [1:27:44<22:30:43,  1.40s/it]                                                         {'loss': 3.0594, 'learning_rate': 1.9410086866329572e-07, 'epoch': 0.99}
+  6%|▌         | 3840/61904 [1:27:44<22:30:43,  1.40s/it]  6%|▌         | 3841/61904 [1:27:45<22:11:02,  1.38s/it]  6%|▌         | 3842/61904 [1:27:47<22:27:54,  1.39s/it]  6%|▌         | 3843/61904 [1:27:48<22:07:09,  1.37s/it]  6%|▌         | 3844/61904 [1:27:50<22:31:46,  1.40s/it]  6%|▌         | 3845/61904 [1:27:51<22:40:11,  1.41s/it]  6%|▌         | 3846/61904 [1:27:52<22:18:09,  1.38s/it]  6%|▌         | 3847/61904 [1:27:54<21:42:04,  1.35s/it]  6%|▌         | 3848/61904 [1:27:55<21:47:42,  1.35s/it]  6%|▌         | 3849/61904 [1:27:56<21:17:03,  1.32s/it]  6%|▌         | 3850/61904 [1:27:58<21:45:29,  1.35s/it]  6%|▌         | 3851/61904 [1:27:59<21:48:44,  1.35s/it]  6%|▌         | 3852/61904 [1:28:00<22:01:24,  1.37s/it]  6%|▌         | 3853/61904 [1:28:02<22:10:55,  1.38s/it]  6%|▌         | 3854/61904 [1:28:03<23:24:05,  1.45s/it]  6%|▌         | 3855/61904 [1:28:05<23:46:51,  1.47s/it]  6%|▌         | 3856/61904 [1:28:06<22:22:54,  1.39s/it]  6%|▌         | 3857/61904 [1:28:07<22:03:51,  1.37s/it]  6%|▌         | 3858/61904 [1:28:09<21:55:57,  1.36s/it]  6%|▌         | 3859/61904 [1:28:10<22:11:36,  1.38s/it]  6%|▌         | 3860/61904 [1:28:12<22:09:01,  1.37s/it]                                                         {'loss': 3.0219, 'learning_rate': 1.940684558537534e-07, 'epoch': 1.0}
+  6%|▌         | 3860/61904 [1:28:12<22:09:01,  1.37s/it]  6%|▌         | 3861/61904 [1:28:13<21:53:43,  1.36s/it]  6%|▌         | 3862/61904 [1:28:14<21:57:31,  1.36s/it]  6%|▌         | 3863/61904 [1:28:16<21:25:27,  1.33s/it]  6%|▌         | 3864/61904 [1:28:17<20:59:25,  1.30s/it]  6%|▌         | 3865/61904 [1:28:18<21:25:09,  1.33s/it]  6%|▌         | 3866/61904 [1:28:20<21:44:27,  1.35s/it]  6%|▌         | 3867/61904 [1:28:21<21:54:58,  1.36s/it]  6%|▌         | 3868/61904 [1:28:22<21:38:17,  1.34s/it]  6%|▋         | 3869/61904 [1:28:24<22:37:29,  1.40s/it]Generation Kwargs:
+{'max_length': 384, 'max_gen_length': 380, 'num_beams': 5}
+
+  0%|          | 0/861 [00:00<?, ?it/s][A
+  0%|          | 2/861 [00:03<21:33,  1.51s/it][A
+  0%|          | 3/861 [00:06<32:23,  2.26s/it][A
+  0%|          | 4/861 [00:12<50:54,  3.56s/it][A
+  1%|          | 5/861 [00:14<46:49,  3.28s/it][A
+  1%|          | 6/861 [00:18<48:27,  3.40s/it][A
+  1%|          | 7/861 [00:20<42:01,  2.95s/it][A
+  1%|          | 8/861 [00:23<42:11,  2.97s/it][A
+  1%|          | 9/861 [00:25<39:17,  2.77s/it][A
+  1%|          | 10/861 [00:28<38:12,  2.69s/it][A
+  1%|▏         | 11/861 [00:31<39:52,  2.81s/it][A
+  1%|▏         | 12/861 [00:35<45:33,  3.22s/it][A
+  2%|▏         | 13/861 [00:37<41:56,  2.97s/it][A
+  2%|▏         | 14/861 [00:39<33:42,  2.39s/it][A
+  2%|▏         | 15/861 [00:41<33:21,  2.37s/it][A
+  2%|▏         | 16/861 [00:42<28:25,  2.02s/it][A
+  2%|▏         | 17/861 [00:47<40:38,  2.89s/it][A
+  2%|▏         | 18/861 [00:48<34:24,  2.45s/it][A
+  2%|▏         | 19/861 [00:52<41:11,  2.94s/it][A
+  2%|▏         | 20/861 [00:57<47:30,  3.39s/it][A
+  2%|▏         | 21/861 [00:59<42:49,  3.06s/it][A
+  3%|▎         | 22/861 [01:02<41:47,  2.99s/it][A
+  3%|▎         | 23/861 [01:03<35:15,  2.52s/it][A
+  3%|▎         | 24/861 [01:07<38:44,  2.78s/it][A
+  3%|▎         | 25/861 [01:09<35:48,  2.57s/it][A
+  3%|▎         | 26/861 [01:13<41:50,  3.01s/it][A
+  3%|▎         | 27/861 [01:16<40:03,  2.88s/it][A
+  3%|▎         | 28/861 [01:21<49:02,  3.53s/it][A
+  3%|▎         | 29/861 [01:22<38:27,  2.77s/it][A
+  3%|▎         | 30/861 [01:26<43:54,  3.17s/it][A
+  4%|▎         | 31/861 [01:27<35:19,  2.55s/it][A
+  4%|▎         | 32/861 [01:28<28:24,  2.06s/it][A
+  4%|▍         | 33/861 [01:31<33:22,  2.42s/it][A
+  4%|▍         | 34/861 [01:33<31:01,  2.25s/it][A
+  4%|▍         | 35/861 [01:37<39:37,  2.88s/it][A
+  4%|▍         | 36/861 [01:39<35:27,  2.58s/it][A
+  4%|▍         | 37/861 [01:41<32:42,  2.38s/it][A
+  4%|▍         | 38/861 [01:44<35:37,  2.60s/it][A
+  5%|▍         | 39/861 [01:46<32:46,  2.39s/it][A
+  5%|▍         | 40/861 [01:48<32:03,  2.34s/it][A
+  5%|▍         | 41/861 [01:49<25:57,  1.90s/it][A
+  5%|▍         | 42/861 [01:53<33:39,  2.47s/it][A
+  5%|▍         | 43/861 [01:55<33:02,  2.42s/it][A
+  5%|▌         | 44/861 [01:57<31:38,  2.32s/it][A
+  5%|▌         | 45/861 [02:00<32:22,  2.38s/it][A
+  5%|▌         | 46/861 [02:04<40:53,  3.01s/it][A
+  5%|▌         | 47/861 [02:08<44:01,  3.25s/it][A
+  6%|▌         | 48/861 [02:11<42:35,  3.14s/it][A
+  6%|▌         | 49/861 [02:14<41:34,  3.07s/it][A
+  6%|▌         | 50/861 [02:14<30:29,  2.26s/it][A
+  6%|▌         | 51/861 [02:17<31:05,  2.30s/it][A
+  6%|▌         | 52/861 [02:19<30:37,  2.27s/it][A
+  6%|▌         | 53/861 [02:20<26:24,  1.96s/it][A
+  6%|▋         | 54/861 [02:21<20:19,  1.51s/it][A
+  6%|▋         | 55/861 [02:22<19:54,  1.48s/it][A
+  7%|▋         | 56/861 [02:26<31:44,  2.37s/it][A
+  7%|▋         | 57/861 [02:27<26:13,  1.96s/it][A
+  7%|▋         | 58/861 [02:28<22:15,  1.66s/it][A
+  7%|▋         | 59/861 [02:30<23:03,  1.73s/it][A
+  7%|▋         | 60/861 [02:32<23:45,  1.78s/it][A
+  7%|▋         | 61/861 [02:34<22:21,  1.68s/it][A
+  7%|▋         | 62/861 [02:34<18:57,  1.42s/it][A
+  7%|▋         | 63/861 [02:36<19:17,  1.45s/it][A
+  7%|▋         | 64/861 [02:37<19:08,  1.44s/it][A
+  8%|▊         | 65/861 [02:39<19:53,  1.50s/it][A
+  8%|▊         | 66/861 [02:40<18:47,  1.42s/it][A
+  8%|▊         | 67/861 [02:42<21:38,  1.63s/it][A
+  8%|▊         | 68/861 [02:45<25:32,  1.93s/it][A
+  8%|▊         | 69/861 [02:49<34:46,  2.63s/it][A
+  8%|▊         | 70/861 [02:51<32:57,  2.50s/it][A
+  8%|▊         | 71/861 [02:54<34:18,  2.61s/it][A
+  8%|▊         | 72/861 [02:57<35:25,  2.69s/it][A
+  8%|▊         | 73/861 [02:58<27:04,  2.06s/it][A
+  9%|▊         | 74/861 [03:01<32:29,  2.48s/it][A
+  9%|▊         | 75/861 [03:04<33:00,  2.52s/it][A
+  9%|▉         | 76/861 [03:07<35:56,  2.75s/it][A
+  9%|▉         | 77/861 [03:10<36:38,  2.80s/it][A
+  9%|▉         | 78/861 [03:11<31:08,  2.39s/it][A
+  9%|▉         | 79/861 [03:14<33:24,  2.56s/it][A
+  9%|▉         | 80/861 [03:17<32:04,  2.46s/it][A
+  9%|▉         | 81/861 [03:22<41:30,  3.19s/it][A
+ 10%|▉         | 82/861 [03:23<33:40,  2.59s/it][A
+ 10%|▉         | 83/861 [03:25<31:39,  2.44s/it][A
+ 10%|▉         | 84/861 [03:28<32:57,  2.54s/it][A
+ 10%|▉         | 85/861 [03:29<30:17,  2.34s/it][A
+ 10%|▉         | 86/861 [03:31<26:11,  2.03s/it][A
+ 10%|█         | 87/861 [03:34<30:13,  2.34s/it][A
+ 10%|█         | 88/861 [03:34<22:51,  1.77s/it][A
+ 10%|█         | 89/861 [03:36<21:51,  1.70s/it][A
+ 10%|█         | 90/861 [03:40<32:34,  2.53s/it][A
+ 11%|█         | 91/861 [03:42<30:08,  2.35s/it][A
+ 11%|█         | 92/861 [03:44<28:04,  2.19s/it][A
+ 11%|█         | 93/861 [03:47<30:58,  2.42s/it][A
+ 11%|█         | 94/861 [03:48<25:06,  1.96s/it][A
+ 11%|█         | 95/861 [03:49<22:58,  1.80s/it][A
+ 11%|█         | 96/861 [03:52<24:57,  1.96s/it][A
+ 11%|█▏        | 97/861 [03:54<28:02,  2.20s/it][A
+ 11%|█▏        | 98/861 [03:56<26:46,  2.11s/it][A
+ 11%|█▏        | 99/861 [04:01<36:52,  2.90s/it][A
+ 12%|█▏        | 100/861 [04:03<32:08,  2.53s/it][A
+ 12%|█▏        | 101/861 [04:04<29:13,  2.31s/it][A
+ 12%|█▏        | 102/861 [04:06<26:21,  2.08s/it][A
+ 12%|█▏        | 103/861 [04:07<22:06,  1.75s/it][A
+ 12%|█▏        | 104/861 [04:12<33:57,  2.69s/it][A
+ 12%|█▏        | 105/861 [04:15<35:08,  2.79s/it][A
+ 12%|█▏        | 106/861 [04:16<30:04,  2.39s/it][A
+ 12%|█▏        | 107/861 [04:18<28:18,  2.25s/it][A
+ 13%|█▎        | 108/861 [04:19<21:29,  1.71s/it][A
+ 13%|█▎        | 109/861 [04:19<17:15,  1.38s/it][A
+ 13%|█▎        | 110/861 [04:22<20:39,  1.65s/it][A
+ 13%|█▎        | 111/861 [04:26<29:12,  2.34s/it][A
+ 13%|█▎        | 112/861 [04:28<29:02,  2.33s/it][A
+ 13%|█▎        | 113/861 [04:30<27:25,  2.20s/it][A
+ 13%|█▎        | 114/861 [04:33<29:32,  2.37s/it][A
+ 13%|█▎        | 115/861 [04:34<25:09,  2.02s/it][A
+ 13%|█▎        | 116/861 [04:35<21:41,  1.75s/it][A
+ 14%|█▎        | 117/861 [04:38<25:23,  2.05s/it][A
+ 14%|█▎        | 118/861 [04:40<25:53,  2.09s/it][A
+ 14%|█▍        | 119/861 [04:42<25:36,  2.07s/it][A
+ 14%|█▍        | 120/861 [04:42<19:29,  1.58s/it][A
+ 14%|█▍        | 121/861 [04:44<21:39,  1.76s/it][A
+ 14%|█▍        | 122/861 [04:47<25:09,  2.04s/it][A
+ 14%|█▍        | 123/861 [04:49<25:33,  2.08s/it][A
+ 14%|█▍        | 124/861 [04:52<29:25,  2.40s/it][A
+ 15%|█▍        | 125/861 [04:56<31:52,  2.60s/it][A
+ 15%|█▍        | 126/861 [04:58<31:59,  2.61s/it][A
+ 15%|█▍        | 127/861 [05:00<30:22,  2.48s/it][A
+ 15%|█▍        | 128/861 [05:02<28:11,  2.31s/it][A
+ 15%|█▍        | 129/861 [05:05<28:14,  2.32s/it][A
+ 15%|█▌        | 130/861 [05:07<27:16,  2.24s/it][A
+ 15%|█▌        | 131/861 [05:09<26:06,  2.15s/it][A
+ 15%|█▌        | 132/861 [05:12<29:31,  2.43s/it][A
+ 15%|█▌        | 133/861 [05:14<30:26,  2.51s/it][A
+ 16%|█▌        | 134/861 [05:15<22:48,  1.88s/it][A
+ 16%|█▌        | 135/861 [05:16<20:15,  1.67s/it][A
+ 16%|█▌        | 136/861 [05:17<19:11,  1.59s/it][A
+ 16%|█▌        | 137/861 [05:19<18:40,  1.55s/it][A
+ 16%|█▌        | 138/861 [05:20<17:27,  1.45s/it][A
+ 16%|█▌        | 139/861 [05:21<15:53,  1.32s/it][A
+ 16%|█▋        | 140/861 [05:22<15:43,  1.31s/it][A
+ 16%|█▋        | 141/861 [05:24<16:07,  1.34s/it][A
+ 16%|█▋        | 142/861 [05:24<13:51,  1.16s/it][A
+ 17%|█▋        | 143/861 [05:28<22:44,  1.90s/it][A
+ 17%|█▋        | 144/861 [05:31<27:27,  2.30s/it][A
+ 17%|█▋        | 145/861 [05:33<24:35,  2.06s/it][A
+ 17%|█▋        | 146/861 [05:35<23:46,  2.00s/it][A
+ 17%|█▋        | 147/861 [05:37<23:20,  1.96s/it][A
+ 17%|█▋        | 148/861 [05:37<18:48,  1.58s/it][A
+ 17%|█▋        | 149/861 [05:38<15:09,  1.28s/it][A
+ 17%|█▋        | 150/861 [05:42<25:46,  2.17s/it][A
+ 18%|█▊        | 151/861 [05:45<29:06,  2.46s/it][A
+ 18%|█▊        | 152/861 [05:48<29:25,  2.49s/it][A
+ 18%|█▊        | 153/861 [05:51<32:11,  2.73s/it][A
+ 18%|█▊        | 154/861 [05:54<32:58,  2.80s/it][A
+ 18%|█▊        | 155/861 [05:57<34:48,  2.96s/it][A
+ 18%|█▊        | 156/861 [06:01<36:02,  3.07s/it][A
+ 18%|█▊        | 157/861 [06:02<30:44,  2.62s/it][A
+ 18%|█▊        | 158/861 [06:06<33:24,  2.85s/it][A
+ 18%|█▊        | 159/861 [06:08<29:50,  2.55s/it][A
+ 19%|█▊        | 160/861 [06:09<27:30,  2.35s/it][A
+ 19%|█▊        | 161/861 [06:13<33:05,  2.84s/it][A
+ 19%|█▉        | 162/861 [06:14<25:58,  2.23s/it][A
+ 19%|█▉        | 163/861 [06:15<19:47,  1.70s/it][A
+ 19%|█▉        | 164/861 [06:19<29:36,  2.55s/it][A
+ 19%|█▉        | 165/861 [06:22<29:57,  2.58s/it][A
+ 19%|█▉        | 166/861 [06:24<30:04,  2.60s/it][A
+ 19%|█▉        | 167/861 [06:25<22:53,  1.98s/it][A
+ 20%|█▉        | 168/861 [06:27<22:37,  1.96s/it][A
+ 20%|█▉        | 169/861 [06:29<23:32,  2.04s/it][A
+ 20%|█▉        | 170/861 [06:31<23:10,  2.01s/it][A
+ 20%|█▉        | 171/861 [06:32<21:00,  1.83s/it][A
+ 20%|█▉        | 172/861 [06:35<21:46,  1.90s/it][A
+ 20%|██        | 173/861 [06:37<23:55,  2.09s/it][A
+ 20%|██        | 174/861 [06:40<26:43,  2.33s/it][A
+ 20%|██        | 175/861 [06:42<26:16,  2.30s/it][A
+ 20%|██        | 176/861 [06:43<20:24,  1.79s/it][A
+ 21%|██        | 177/861 [06:45<20:25,  1.79s/it][A
+ 21%|██        | 178/861 [06:47<21:41,  1.91s/it][A
+ 21%|██        | 179/861 [06:49<22:50,  2.01s/it][A
+ 21%|██        | 180/861 [06:51<22:39,  2.00s/it][A
+ 21%|██        | 181/861 [06:53<21:47,  1.92s/it][A
+ 21%|██        | 182/861 [06:53<17:37,  1.56s/it][A
+ 21%|██▏       | 183/861 [06:56<19:55,  1.76s/it][A
+ 21%|██▏       | 184/861 [06:59<24:56,  2.21s/it][A
+ 21%|██▏       | 185/861 [07:01<25:07,  2.23s/it][A
+ 22%|██▏       | 186/861 [07:02<21:08,  1.88s/it][A
+ 22%|██▏       | 187/861 [07:05<23:32,  2.10s/it][A
+ 22%|██▏       | 188/861 [07:07<24:20,  2.17s/it][A
+ 22%|██▏       | 189/861 [07:10<25:24,  2.27s/it][A
+ 22%|██▏       | 190/861 [07:12<26:46,  2.39s/it][A
+ 22%|██▏       | 191/861 [07:13<22:11,  1.99s/it][A
+ 22%|██▏       | 192/861 [07:16<22:43,  2.04s/it][A
+ 22%|██▏       | 193/861 [07:19<26:06,  2.35s/it][A
+ 23%|██▎       | 194/861 [07:20<23:20,  2.10s/it][A
+ 23%|██▎       | 195/861 [07:21<20:08,  1.81s/it][A
+ 23%|██▎       | 196/861 [07:26<28:20,  2.56s/it][A
+ 23%|██▎       | 197/861 [07:27<25:19,  2.29s/it][A
+ 23%|██▎       | 198/861 [07:29<23:20,  2.11s/it][A
+ 23%|██▎       | 199/861 [07:32<24:53,  2.26s/it][A
+ 23%|██▎       | 200/861 [07:34<25:27,  2.31s/it][A
+ 23%|██▎       | 201/861 [07:37<26:25,  2.40s/it][A
+ 23%|██▎       | 202/861 [07:38<24:14,  2.21s/it][A
+ 24%|██▎       | 203/861 [07:40<23:13,  2.12s/it][A
+ 24%|██▎       | 204/861 [07:41<18:03,  1.65s/it][A
+ 24%|██▍       | 205/861 [07:42<15:42,  1.44s/it][A
+ 24%|██▍       | 206/861 [07:44<17:21,  1.59s/it][A
+ 24%|██▍       | 207/861 [07:46<18:45,  1.72s/it][A
+ 24%|██▍       | 208/861 [07:47<18:30,  1.70s/it][A
+ 24%|██▍       | 209/861 [07:49<17:22,  1.60s/it][A
+ 24%|██▍       | 210/861 [07:51<19:14,  1.77s/it][A
+ 25%|██▍       | 211/861 [07:55<25:20,  2.34s/it][A
+ 25%|██▍       | 212/861 [07:57<24:27,  2.26s/it][A
+ 25%|██▍       | 213/861 [07:58<21:37,  2.00s/it][A
+ 25%|██▍       | 214/861 [08:00<19:39,  1.82s/it][A
+ 25%|██▍       | 215/861 [08:01<19:04,  1.77s/it][A
+ 25%|██▌       | 216/861 [08:02<17:36,  1.64s/it][A
+ 25%|██▌       | 217/861 [08:03<15:18,  1.43s/it][A
+ 25%|██▌       | 218/861 [08:05<14:55,  1.39s/it][A
+ 25%|██▌       | 219/861 [08:08<20:34,  1.92s/it][A
+ 26%|██▌       | 220/861 [08:10<20:46,  1.94s/it][A
+ 26%|██▌       | 221/861 [08:12<19:40,  1.85s/it][A
+ 26%|██▌       | 222/861 [08:15<25:21,  2.38s/it][A
+ 26%|██▌       | 223/861 [08:18<27:16,  2.56s/it][A
+ 26%|██▌       | 224/861 [08:20<23:43,  2.23s/it][A
+ 26%|██▌       | 225/861 [08:22<24:19,  2.29s/it][A
+ 26%|██▌       | 226/861 [08:25<24:59,  2.36s/it][A
+ 26%|██▋       | 227/861 [08:27<25:12,  2.39s/it][A
+ 26%|██▋       | 228/861 [08:29<23:31,  2.23s/it][A
+ 27%|██▋       | 229/861 [08:31<21:57,  2.09s/it][A
+ 27%|██▋       | 230/861 [08:33<22:52,  2.17s/it][A
+ 27%|██▋       | 231/861 [08:37<27:34,  2.63s/it][A
+ 27%|██▋       | 232/861 [08:37<20:36,  1.97s/it][A
+ 27%|██▋       | 233/861 [08:39<21:25,  2.05s/it][A
+ 27%|██▋       | 234/861 [08:41<20:48,  1.99s/it][A
+ 27%|██▋       | 235/861 [08:44<22:14,  2.13s/it][A
+ 27%|██▋       | 236/861 [08:46<21:58,  2.11s/it][A
+ 28%|██▊       | 237/861 [08:48<21:01,  2.02s/it][A
+ 28%|██▊       | 238/861 [08:48<17:35,  1.69s/it][A
+ 28%|██▊       | 239/861 [08:52<21:50,  2.11s/it][A
+ 28%|██▊       | 240/861 [08:54<23:27,  2.27s/it][A
+ 28%|██▊       | 241/861 [08:58<26:46,  2.59s/it][A
+ 28%|██▊       | 242/861 [08:59<24:16,  2.35s/it][A
+ 28%|██▊       | 243/861 [09:03<26:53,  2.61s/it][A
+ 28%|██▊       | 244/861 [09:05<26:23,  2.57s/it][A
+ 28%|██▊       | 245/861 [09:07<25:13,  2.46s/it][A
+ 29%|██▊       | 246/861 [09:10<25:40,  2.50s/it][A
+ 29%|██▊       | 247/861 [09:11<22:17,  2.18s/it][A
+ 29%|██▉       | 248/861 [09:12<16:51,  1.65s/it][A
+ 29%|██▉       | 249/861 [09:14<18:32,  1.82s/it][A
+ 29%|██▉       | 250/861 [09:17<22:46,  2.24s/it][A
+ 29%|██▉       | 251/861 [09:19<22:34,  2.22s/it][A
+ 29%|██▉       | 252/861 [09:20<18:44,  1.85s/it][A
+ 29%|██▉       | 253/861 [09:22<17:25,  1.72s/it][A
+ 30%|██▉       | 254/861 [09:22<14:02,  1.39s/it][A
+ 30%|██▉       | 255/861 [09:24<15:19,  1.52s/it][A
+ 30%|██▉       | 256/861 [09:26<18:03,  1.79s/it][A
+ 30%|██▉       | 257/861 [09:29<20:13,  2.01s/it][A
+ 30%|██▉       | 258/861 [09:31<20:00,  1.99s/it][A
+ 30%|███       | 259/861 [09:34<23:13,  2.31s/it][A
+ 30%|███       | 260/861 [09:37<24:25,  2.44s/it][A
+ 30%|███       | 261/861 [09:40<27:44,  2.77s/it][A
+ 30%|███       | 262/861 [09:42<23:37,  2.37s/it][A
+ 31%|███       | 263/861 [09:42<17:52,  1.79s/it][A
+ 31%|███       | 264/861 [09:44<17:56,  1.80s/it][A
+ 31%|███       | 265/861 [09:45<15:45,  1.59s/it][A
+ 31%|███       | 266/861 [09:47<15:29,  1.56s/it][A
+ 31%|███       | 267/861 [09:48<15:03,  1.52s/it][A
+ 31%|███       | 268/861 [09:50<16:17,  1.65s/it][A
+ 31%|███       | 269/861 [09:52<17:18,  1.75s/it][A
+ 31%|███▏      | 270/861 [09:54<19:12,  1.95s/it][A
+ 31%|███▏      | 271/861 [09:56<19:36,  1.99s/it][A
+ 32%|███▏      | 272/861 [09:59<21:56,  2.23s/it][A
+ 32%|███▏      | 273/861 [10:01<21:49,  2.23s/it][A
+ 32%|███▏      | 274/861 [10:05<25:34,  2.61s/it][A
+ 32%|███▏      | 275/861 [10:05<19:18,  1.98s/it][A
+ 32%|███▏      | 276/861 [10:08<21:46,  2.23s/it][A
+ 32%|███▏      | 277/861 [10:14<31:17,  3.21s/it][A
+ 32%|███▏      | 278/861 [10:17<30:36,  3.15s/it][A
+ 32%|███▏      | 279/861 [10:19<28:33,  2.94s/it][A
+ 33%|███▎      | 280/861 [10:22<27:32,  2.84s/it][A
+ 33%|███▎      | 281/861 [10:25<27:32,  2.85s/it][A
+ 33%|███▎      | 282/861 [10:27<26:20,  2.73s/it][A
+ 33%|███▎      | 283/861 [10:29<24:18,  2.52s/it][A
+ 33%|███▎      | 284/861 [10:30<19:11,  2.00s/it][A
+ 33%|███▎      | 285/861 [10:32<18:29,  1.93s/it][A
+ 33%|███▎      | 286/861 [10:36<24:33,  2.56s/it][A
+ 33%|███▎      | 287/861 [10:40<29:58,  3.13s/it][A
+ 33%|███▎      | 288/861 [10:43<28:25,  2.98s/it][A
+ 34%|███▎      | 289/861 [10:44<22:51,  2.40s/it][A
+ 34%|███▎      | 290/861 [10:46<21:56,  2.31s/it][A
+ 34%|███▍      | 291/861 [10:49<22:56,  2.41s/it][A
+ 34%|███▍      | 292/861 [10:52<25:16,  2.66s/it][A
+ 34%|███▍      | 293/861 [10:54<23:30,  2.48s/it][A
+ 34%|███▍      | 294/861 [10:57<24:52,  2.63s/it][A
+ 34%|███▍      | 295/861 [10:58<19:17,  2.05s/it][A
+ 34%|███▍      | 296/861 [10:59<18:12,  1.93s/it][A
+ 34%|███▍      | 297/861 [11:03<22:52,  2.43s/it][A
+ 35%|███▍      | 298/861 [11:07<28:30,  3.04s/it][A
+ 35%|███▍      | 299/861 [11:10<27:07,  2.90s/it][A
+ 35%|███▍      | 300/861 [11:12<25:55,  2.77s/it][A
+ 35%|███▍      | 301/861 [11:16<29:00,  3.11s/it][A
+ 35%|███▌      | 302/861 [11:17<21:46,  2.34s/it][A
+ 35%|███▌      | 303/861 [11:21<26:03,  2.80s/it][A
+ 35%|███▌      | 304/861 [11:24<27:30,  2.96s/it][A
+ 35%|███▌      | 305/861 [11:27<27:36,  2.98s/it][A
+ 36%|███▌      | 306/861 [11:31<29:05,  3.15s/it][A
+ 36%|███▌      | 307/861 [11:34<29:38,  3.21s/it][A
+ 36%|███▌      | 308/861 [11:35<22:11,  2.41s/it][A
+ 36%|███▌      | 309/861 [11:36<20:37,  2.24s/it][A
+ 36%|███▌      | 310/861 [11:38<19:47,  2.16s/it][A
+ 36%|███▌      | 311/861 [11:43<25:41,  2.80s/it][A
+ 36%|███▌      | 312/861 [11:45<25:26,  2.78s/it][A
+ 36%|███▋      | 313/861 [11:50<29:05,  3.19s/it][A
+ 36%|███▋      | 314/861 [11:52<28:20,  3.11s/it][A
+ 37%|███▋      | 315/861 [11:55<26:54,  2.96s/it][A
+ 37%|███▋      | 316/861 [11:57<25:22,  2.79s/it][A
+ 37%|███▋      | 317/861 [11:58<19:15,  2.12s/it][A
+ 37%|███▋      | 318/861 [12:01<22:09,  2.45s/it][A
+ 37%|███▋      | 319/861 [12:04<23:16,  2.58s/it][A
+ 37%|███▋      | 320/861 [12:06<22:12,  2.46s/it][A
+ 37%|███▋      | 321/861 [12:10<24:13,  2.69s/it][A
+ 37%|███▋      | 322/861 [12:14<28:01,  3.12s/it][A
+ 38%|███▊      | 323/861 [12:17<27:26,  3.06s/it][A
+ 38%|███▊      | 324/861 [12:22<34:31,  3.86s/it][A
+ 38%|███▊      | 325/861 [12:25<31:53,  3.57s/it][A
+ 38%|███▊      | 326/861 [12:26<23:22,  2.62s/it][A
+ 38%|███▊      | 327/861 [12:29<26:02,  2.93s/it][A
+ 38%|███▊      | 328/861 [12:31<24:09,  2.72s/it][A
+ 38%|███▊      | 329/861 [12:36<28:16,  3.19s/it][A
+ 38%|███▊      | 330/861 [12:38<26:05,  2.95s/it][A
+ 38%|███▊      | 331/861 [12:43<30:40,  3.47s/it][A
+ 39%|███▊      | 332/861 [12:45<27:18,  3.10s/it][A
+ 39%|███▊      | 333/861 [12:49<28:39,  3.26s/it][A
+ 39%|███▉      | 334/861 [12:53<30:58,  3.53s/it][A
+ 39%|███▉      | 335/861 [12:56<30:10,  3.44s/it][A
+ 39%|███▉      | 336/861 [13:00<30:01,  3.43s/it][A
+ 39%|███▉      | 337/861 [13:01<25:14,  2.89s/it][A
+ 39%|███▉      | 338/861 [13:05<28:13,  3.24s/it][A
+ 39%|███▉      | 339/861 [13:08<26:20,  3.03s/it][A
+ 39%|███▉      | 340/861 [13:09<22:54,  2.64s/it][A
+ 40%|███▉      | 341/861 [13:10<18:30,  2.14s/it][A
+ 40%|███▉      | 342/861 [13:12<17:33,  2.03s/it][A
+ 40%|███▉      | 343/861 [13:14<17:56,  2.08s/it][A
+ 40%|███▉      | 344/861 [13:16<16:55,  1.96s/it][A
+ 40%|████      | 345/861 [13:18<17:50,  2.08s/it][A
+ 40%|████      | 346/861 [13:21<18:33,  2.16s/it][A
+ 40%|████      | 347/861 [13:22<17:10,  2.01s/it][A
+ 40%|████      | 348/861 [13:24<16:00,  1.87s/it][A
+ 41%|████      | 349/861 [13:27<18:39,  2.19s/it][A
+ 41%|████      | 350/861 [13:30<19:52,  2.33s/it][A
+ 41%|████      | 351/861 [13:32<18:53,  2.22s/it][A
+ 41%|████      | 352/861 [13:33<17:44,  2.09s/it][A
+ 41%|████      | 353/861 [13:35<17:01,  2.01s/it][A
+ 41%|████      | 354/861 [13:37<17:46,  2.10s/it][A
+ 41%|████      | 355/861 [13:38<14:24,  1.71s/it][A
+ 41%|████▏     | 356/861 [13:39<13:01,  1.55s/it][A
+ 41%|████▏     | 357/861 [13:40<11:10,  1.33s/it][A
+ 42%|████▏     | 358/861 [13:42<11:10,  1.33s/it][A
+ 42%|████▏     | 359/861 [13:44<13:17,  1.59s/it][A
+ 42%|████▏     | 360/861 [13:47<17:10,  2.06s/it][A
+ 42%|████▏     | 361/861 [13:49<17:55,  2.15s/it][A
+ 42%|████▏     | 362/861 [13:51<17:11,  2.07s/it][A
+ 42%|████▏     | 363/861 [13:54<20:12,  2.43s/it][A
+ 42%|████▏     | 364/861 [13:57<21:32,  2.60s/it][A
+ 42%|████▏     | 365/861 [14:01<25:03,  3.03s/it][A
+ 43%|████▎     | 366/861 [14:04<22:40,  2.75s/it][A
+ 43%|████▎     | 367/861 [14:07<25:13,  3.06s/it][A
+ 43%|████▎     | 368/861 [14:12<29:40,  3.61s/it][A
+ 43%|████▎     | 369/861 [14:15<26:28,  3.23s/it][A
+ 43%|████▎     | 370/861 [14:17<23:41,  2.89s/it][A
+ 43%|████▎     | 371/861 [14:20<25:03,  3.07s/it][A
+ 43%|████▎     | 372/861 [14:23<25:25,  3.12s/it][A
+ 43%|████▎     | 373/861 [14:26<23:44,  2.92s/it][A
+ 43%|████▎     | 374/861 [14:29<25:18,  3.12s/it][A
+ 44%|████▎     | 375/861 [14:34<28:37,  3.53s/it][A
+ 44%|████▎     | 376/861 [14:36<23:49,  2.95s/it][A
+ 44%|████▍     | 377/861 [14:38<23:12,  2.88s/it][A
+ 44%|████▍     | 378/861 [14:42<26:11,  3.25s/it][A
+ 44%|████▍     | 379/861 [14:43<19:34,  2.44s/it][A
+ 44%|████▍     | 380/861 [14:45<18:15,  2.28s/it][A
+ 44%|████▍     | 381/861 [14:47<17:21,  2.17s/it][A
+ 44%|████▍     | 382/861 [14:49<18:24,  2.31s/it][A
+ 44%|████▍     | 383/861 [14:51<17:35,  2.21s/it][A
+ 45%|████▍     | 384/861 [14:54<17:58,  2.26s/it][A
+ 45%|████▍     | 385/861 [14:55<14:33,  1.84s/it][A
+ 45%|████▍     | 386/861 [14:57<16:50,  2.13s/it][A
+ 45%|████▍     | 387/861 [15:00<18:09,  2.30s/it][A
+ 45%|████▌     | 388/861 [15:01<15:44,  2.00s/it][A
+ 45%|████▌     | 389/861 [15:02<13:17,  1.69s/it][A
+ 45%|████▌     | 390/861 [15:04<13:11,  1.68s/it][A
+ 45%|████▌     | 391/861 [15:06<13:04,  1.67s/it][A
+ 46%|████▌     | 392/861 [15:08<13:29,  1.73s/it][A
+ 46%|████▌     | 393/861 [15:10<15:09,  1.94s/it][A
+ 46%|████▌     | 394/861 [15:14<19:40,  2.53s/it][A
+ 46%|████▌     | 395/861 [15:15<16:25,  2.11s/it][A
+ 46%|████▌     | 396/861 [15:16<14:38,  1.89s/it][A
+ 46%|████▌     | 397/861 [15:17<11:37,  1.50s/it][A
+ 46%|████▌     | 398/861 [15:19<13:09,  1.71s/it][A
+ 46%|████▋     | 399/861 [15:22<14:50,  1.93s/it][A
+ 46%|████▋     | 400/861 [15:24<15:54,  2.07s/it][A
+ 47%|████▋     | 401/861 [15:25<13:13,  1.73s/it][A
+ 47%|████▋     | 402/861 [15:26<12:26,  1.63s/it][A
+ 47%|████▋     | 403/861 [15:29<13:40,  1.79s/it][A
+ 47%|████▋     | 404/861 [15:31<14:44,  1.93s/it][A
+ 47%|████▋     | 405/861 [15:32<13:01,  1.71s/it][A
+ 47%|████▋     | 406/861 [15:35<15:03,  1.98s/it][A
+ 47%|████▋     | 407/861 [15:37<15:35,  2.06s/it][A
+ 47%|████▋     | 408/861 [15:39<15:22,  2.04s/it][A
+ 48%|████▊     | 409/861 [15:41<14:47,  1.96s/it][A
+ 48%|████▊     | 410/861 [15:42<13:32,  1.80s/it][A
+ 48%|████▊     | 411/861 [15:43<12:14,  1.63s/it][A
+ 48%|████▊     | 412/861 [15:47<15:52,  2.12s/it][A
+ 48%|████▊     | 413/861 [15:48<14:26,  1.93s/it][A
+ 48%|████▊     | 414/861 [15:49<12:52,  1.73s/it][A
+ 48%|████▊     | 415/861 [15:51<11:52,  1.60s/it][A
+ 48%|████▊     | 416/861 [15:52<11:03,  1.49s/it][A
+ 48%|████▊     | 417/861 [15:53<11:19,  1.53s/it][A
+ 49%|████▊     | 418/861 [15:55<11:48,  1.60s/it][A
+ 49%|████▊     | 419/861 [15:57<12:24,  1.68s/it][A
+ 49%|████▉     | 420/861 [15:59<12:51,  1.75s/it][A
+ 49%|████▉     | 421/861 [16:00<10:50,  1.48s/it][A
+ 49%|████▉     | 422/861 [16:01<10:00,  1.37s/it][A
+ 49%|████▉     | 423/861 [16:03<12:34,  1.72s/it][A
+ 49%|████▉     | 424/861 [16:05<12:44,  1.75s/it][A
+ 49%|████▉     | 425/861 [16:07<12:25,  1.71s/it][A
+ 49%|████▉     | 426/861 [16:09<14:18,  1.97s/it][A
+ 50%|████▉     | 427/861 [16:11<14:12,  1.96s/it][A
+ 50%|████▉     | 428/861 [16:13<13:19,  1.85s/it][A
+ 50%|████▉     | 429/861 [16:15<13:59,  1.94s/it][A
+ 50%|████▉     | 430/861 [16:18<16:30,  2.30s/it][A
+ 50%|█████     | 431/861 [16:21<17:48,  2.48s/it][A
+ 50%|█████     | 432/861 [16:24<18:40,  2.61s/it][A
+ 50%|█████     | 433/861 [16:27<18:39,  2.62s/it][A
+ 50%|█████     | 434/861 [16:28<16:38,  2.34s/it][A
+ 51%|█████     | 435/861 [16:29<12:31,  1.76s/it][A
+ 51%|█████     | 436/861 [16:30<10:11,  1.44s/it][A
+ 51%|█████     | 437/861 [16:32<11:20,  1.61s/it][A
+ 51%|█████     | 438/861 [16:32<09:54,  1.41s/it][A
+ 51%|█████     | 439/861 [16:34<10:09,  1.44s/it][A
+ 51%|█████     | 440/861 [16:35<08:45,  1.25s/it][A
+ 51%|█████     | 441/861 [16:36<07:39,  1.09s/it][A
+ 51%|█████▏    | 442/861 [16:38<09:30,  1.36s/it][A
+ 51%|█████▏    | 443/861 [16:38<08:39,  1.24s/it][A
+ 52%|█████▏    | 444/861 [16:40<08:31,  1.23s/it][A
+ 52%|█████▏    | 445/861 [16:41<07:58,  1.15s/it][A
+ 52%|█████▏    | 446/861 [16:42<07:59,  1.15s/it][A
+ 52%|█████▏    | 447/861 [16:45<11:48,  1.71s/it][A
+ 52%|█████▏    | 448/861 [16:47<13:00,  1.89s/it][A
+ 52%|█████▏    | 449/861 [16:50<14:27,  2.11s/it][A
+ 52%|█████▏    | 450/861 [16:52<14:27,  2.11s/it][A
+ 52%|█████▏    | 451/861 [16:54<13:32,  1.98s/it][A
+ 52%|█████▏    | 452/861 [16:56<13:29,  1.98s/it][A
+ 53%|█████▎    | 453/861 [16:57<12:02,  1.77s/it][A
+ 53%|█████▎    | 454/861 [16:58<11:22,  1.68s/it][A
+ 53%|█████▎    | 455/861 [17:00<12:01,  1.78s/it][A
+ 53%|█████▎    | 456/861 [17:02<10:55,  1.62s/it][A
+ 53%|█████▎    | 457/861 [17:04<11:39,  1.73s/it][A
+ 53%|█████▎    | 458/861 [17:06<13:26,  2.00s/it][A
+ 53%|█████▎    | 459/861 [17:07<12:02,  1.80s/it][A
+ 53%|█████▎    | 460/861 [17:09<11:30,  1.72s/it][A
+ 54%|█████▎    | 461/861 [17:11<12:21,  1.85s/it][A
+ 54%|█████▎    | 462/861 [17:12<10:59,  1.65s/it][A
+ 54%|█████▍    | 463/861 [17:14<10:09,  1.53s/it][A
+ 54%|█████▍    | 464/861 [17:15<09:36,  1.45s/it][A
+ 54%|█████▍    | 465/861 [17:15<07:33,  1.15s/it][A
+ 54%|█████▍    | 466/861 [17:17<07:49,  1.19s/it][A
+ 54%|█████▍    | 467/861 [17:21<13:19,  2.03s/it][A
+ 54%|█████▍    | 468/861 [17:21<10:40,  1.63s/it][A
+ 54%|█████▍    | 469/861 [17:23<10:39,  1.63s/it][A
+ 55%|█████▍    | 470/861 [17:24<08:58,  1.38s/it][A
+ 55%|█████▍    | 471/861 [17:25<09:24,  1.45s/it][A
+ 55%|█████▍    | 472/861 [17:26<08:03,  1.24s/it][A
+ 55%|█████▍    | 473/861 [17:27<08:08,  1.26s/it][A
+ 55%|█████▌    | 474/861 [17:28<06:32,  1.01s/it][A
+ 55%|█████▌    | 475/861 [17:29<07:31,  1.17s/it][A
+ 55%|█████▌    | 476/861 [17:30<06:27,  1.01s/it][A
+ 55%|█████▌    | 477/861 [17:32<08:25,  1.32s/it][A
+ 56%|█████▌    | 478/861 [17:33<08:38,  1.35s/it][A
+ 56%|█████▌    | 479/861 [17:34<06:57,  1.09s/it][A
+ 56%|█████▌    | 480/861 [17:35<07:29,  1.18s/it][A
+ 56%|█████▌    | 481/861 [17:36<06:53,  1.09s/it][A
+ 56%|█████▌    | 482/861 [17:37<06:29,  1.03s/it][A
+ 56%|█████▌    | 483/861 [17:38<05:55,  1.06it/s][A
+ 56%|█████▌    | 484/861 [17:39<06:03,  1.04it/s][A
+ 56%|█████▋    | 485/861 [17:40<05:31,  1.13it/s][A
+ 56%|█████▋    | 486/861 [17:40<04:45,  1.31it/s][A
+ 57%|█████▋    | 487/861 [17:41<06:05,  1.02it/s][A
+ 57%|█████▋    | 488/861 [17:42<05:03,  1.23it/s][A
+ 57%|█████▋    | 489/861 [17:43<05:56,  1.04it/s][A
+ 57%|█████▋    | 490/861 [17:44<05:30,  1.12it/s][A
+ 57%|█████▋    | 491/861 [17:45<05:38,  1.09it/s][A
+ 57%|█████▋    | 492/861 [17:46<05:10,  1.19it/s][A
+ 57%|█████▋    | 493/861 [17:47<06:11,  1.01s/it][A
+ 57%|█████▋    | 494/861 [17:48<05:16,  1.16it/s][A
+ 57%|█████▋    | 495/861 [17:49<07:04,  1.16s/it][A
+ 58%|█████▊    | 496/861 [17:51<08:21,  1.37s/it][A
+ 58%|█████▊    | 497/861 [17:52<06:35,  1.09s/it][A
+ 58%|█████▊    | 498/861 [17:53<07:10,  1.18s/it][A
+ 58%|█████▊    | 499/861 [17:53<05:37,  1.07it/s][A
+ 58%|█████▊    | 500/861 [17:55<05:57,  1.01it/s][A
+ 58%|█████▊    | 501/861 [17:55<04:57,  1.21it/s][A
+ 58%|█████▊    | 502/861 [17:57<06:36,  1.10s/it][A
+ 58%|█████▊    | 503/861 [17:58<06:44,  1.13s/it][A
+ 59%|█████▊    | 504/861 [17:59<07:09,  1.20s/it][A
+ 59%|█████▊    | 505/861 [18:00<06:09,  1.04s/it][A
+ 59%|█████▉    | 506/861 [18:01<05:30,  1.07it/s][A
+ 59%|█████▉    | 507/861 [18:01<04:31,  1.30it/s][A
+ 59%|█████▉    | 508/861 [18:03<06:39,  1.13s/it][A
+ 59%|█████▉    | 509/861 [18:06<09:10,  1.56s/it][A
+ 59%|█████▉    | 510/861 [18:08<10:03,  1.72s/it][A
+ 59%|█████▉    | 511/861 [18:10<11:03,  1.90s/it][A
+ 59%|█████▉    | 512/861 [18:11<09:54,  1.70s/it][A
+ 60%|█████▉    | 513/861 [18:13<09:33,  1.65s/it][A
+ 60%|█████▉    | 514/861 [18:14<09:29,  1.64s/it][A
+ 60%|█████▉    | 515/861 [18:15<07:27,  1.29s/it][A
+ 60%|█████▉    | 516/861 [18:15<05:52,  1.02s/it][A
+ 60%|██████    | 517/861 [18:16<04:45,  1.21it/s][A
+ 60%|██████    | 518/861 [18:17<06:20,  1.11s/it][A
+ 60%|██████    | 519/861 [18:19<07:23,  1.30s/it][A
+ 60%|██████    | 520/861 [18:21<08:24,  1.48s/it][A
+ 61%|██████    | 521/861 [18:22<08:10,  1.44s/it][A
+ 61%|██████    | 522/861 [18:24<08:53,  1.57s/it][A
+ 61%|██████    | 523/861 [18:26<09:37,  1.71s/it][A
+ 61%|██████    | 524/861 [18:29<11:46,  2.10s/it][A
+ 61%|██████    | 525/861 [18:31<10:54,  1.95s/it][A
+ 61%|██████    | 526/861 [18:32<10:07,  1.81s/it][A
+ 61%|██████    | 527/861 [18:34<09:34,  1.72s/it][A
+ 61%|██████▏   | 528/861 [18:36<10:42,  1.93s/it][A
+ 61%|██████▏   | 529/861 [18:37<08:44,  1.58s/it][A
+ 62%|██████▏   | 530/861 [18:38<07:57,  1.44s/it][A
+ 62%|██████▏   | 531/861 [18:39<07:06,  1.29s/it][A
+ 62%|██████▏   | 532/861 [18:41<07:57,  1.45s/it][A
+ 62%|██████▏   | 533/861 [18:42<07:05,  1.30s/it][A
+ 62%|██████▏   | 534/861 [18:43<07:06,  1.30s/it][A
+ 62%|██████▏   | 535/861 [18:44<07:02,  1.30s/it][A
+ 62%|██████▏   | 536/861 [18:46<07:11,  1.33s/it][A
+ 62%|██████▏   | 537/861 [18:48<08:44,  1.62s/it][A
+ 62%|██████▏   | 538/861 [18:49<07:44,  1.44s/it][A
+ 63%|██████▎   | 539/861 [18:53<10:53,  2.03s/it][A
+ 63%|██████▎   | 540/861 [18:54<10:30,  1.96s/it][A
+ 63%|██████▎   | 541/861 [18:56<09:25,  1.77s/it][A
+ 63%|██████▎   | 542/861 [18:57<08:28,  1.60s/it][A
+ 63%|██████▎   | 543/861 [18:59<09:37,  1.82s/it][A
+ 63%|██████▎   | 544/861 [19:00<08:27,  1.60s/it][A
+ 63%|██████▎   | 545/861 [19:03<10:25,  1.98s/it][A
+ 63%|██████▎   | 546/861 [19:05<10:46,  2.05s/it][A
+ 64%|██████▎   | 547/861 [19:07<10:21,  1.98s/it][A
+ 64%|██████▎   | 548/861 [19:10<12:00,  2.30s/it][A
+ 64%|██████▍   | 549/861 [19:13<12:19,  2.37s/it][A
+ 64%|██████▍   | 550/861 [19:15<12:07,  2.34s/it][A
+ 64%|██████▍   | 551/861 [19:17<11:23,  2.20s/it][A
+ 64%|██████▍   | 552/861 [19:20<12:59,  2.52s/it][A
+ 64%|██████▍   | 553/861 [19:24<14:05,  2.75s/it][A
+ 64%|██████▍   | 554/861 [19:27<14:51,  2.91s/it][A
+ 64%|██████▍   | 555/861 [19:30<15:15,  2.99s/it][A
+ 65%|██████▍   | 556/861 [19:33<14:48,  2.91s/it][A
+ 65%|██████▍   | 557/861 [19:36<15:11,  3.00s/it][A
+ 65%|██████▍   | 558/861 [19:39<15:34,  3.08s/it][A
+ 65%|██████▍   | 559/861 [19:43<16:12,  3.22s/it][A
+ 65%|██████▌   | 560/861 [19:46<16:05,  3.21s/it][A
+ 65%|██████▌   | 561/861 [19:48<14:49,  2.97s/it][A
+ 65%|██████▌   | 562/861 [19:53<16:46,  3.36s/it][A
+ 65%|██████▌   | 563/861 [19:55<15:33,  3.13s/it][A
+ 66%|██████▌   | 564/861 [19:59<16:41,  3.37s/it][A
+ 66%|██████▌   | 565/861 [20:03<17:03,  3.46s/it][A
+ 66%|██████▌   | 566/861 [20:08<18:57,  3.86s/it][A
+ 66%|██████▌   | 567/861 [20:10<17:01,  3.47s/it][A
+ 66%|██████▌   | 568/861 [20:13<16:30,  3.38s/it][A
+ 66%|██████▌   | 569/861 [20:16<15:50,  3.26s/it][A
+ 66%|██████▌   | 570/861 [20:19<14:21,  2.96s/it][A
+ 66%|██████▋   | 571/861 [20:22<14:51,  3.07s/it][A
+ 66%|██████▋   | 572/861 [20:26<15:50,  3.29s/it][A
+ 67%|██████▋   | 573/861 [20:28<13:52,  2.89s/it][A
+ 67%|██████▋   | 574/861 [20:30<13:35,  2.84s/it][A
+ 67%|██████▋   | 575/861 [20:35<16:10,  3.39s/it][A
+ 67%|██████▋   | 576/861 [20:41<19:22,  4.08s/it][A
+ 67%|██████▋   | 577/861 [20:45<19:49,  4.19s/it][A
+ 67%|██████▋   | 578/861 [20:51<21:42,  4.60s/it][A
+ 67%|██████▋   | 579/861 [20:57<23:31,  5.00s/it][A
+ 67%|██████▋   | 580/861 [21:00<20:58,  4.48s/it][A
+ 67%|██████▋   | 581/861 [21:03<18:31,  3.97s/it][A
+ 68%|██████▊   | 582/861 [21:08<19:51,  4.27s/it][A
+ 68%|██████▊   | 583/861 [21:11<18:21,  3.96s/it][A
+ 68%|██████▊   | 584/861 [21:13<16:09,  3.50s/it][A
+ 68%|██████▊   | 585/861 [21:19<18:41,  4.06s/it][A
+ 68%|██████▊   | 586/861 [21:21<15:32,  3.39s/it][A
+ 68%|██████▊   | 587/861 [21:24<15:41,  3.44s/it][A
+ 68%|██████▊   | 588/861 [21:27<14:29,  3.18s/it][A
+ 68%|██████▊   | 589/861 [21:28<12:31,  2.76s/it][A
+ 69%|██████▊   | 590/861 [21:34<16:16,  3.60s/it][A
+ 69%|██████▊   | 591/861 [21:37<14:40,  3.26s/it][A
+ 69%|██████▉   | 592/861 [21:40<14:36,  3.26s/it][A
+ 69%|██████▉   | 593/861 [21:43<14:44,  3.30s/it][A
+ 69%|██████▉   | 594/861 [21:46<14:33,  3.27s/it][A
+ 69%|██████▉   | 595/861 [21:48<12:43,  2.87s/it][A
+ 69%|██████▉   | 596/861 [21:50<10:39,  2.41s/it][A
+ 69%|██████▉   | 597/861 [21:55<14:31,  3.30s/it][A
+ 69%|██████▉   | 598/861 [21:58<14:09,  3.23s/it][A
+ 70%|██████▉   | 599/861 [22:01<13:21,  3.06s/it][A
+ 70%|██████▉   | 600/861 [22:03<12:20,  2.84s/it][A
+ 70%|██████▉   | 601/861 [22:05<11:20,  2.62s/it][A
+ 70%|██████▉   | 602/861 [22:09<12:29,  2.89s/it][A
+ 70%|███████   | 603/861 [22:13<14:05,  3.28s/it][A
+ 70%|███████   | 604/861 [22:16<14:08,  3.30s/it][A
+ 70%|███████   | 605/861 [22:18<12:27,  2.92s/it][A
+ 70%|███████   | 606/861 [22:20<11:07,  2.62s/it][A
+ 70%|███████   | 607/861 [22:22<10:01,  2.37s/it][A
+ 71%|███████   | 608/861 [22:24<09:15,  2.20s/it][A
+ 71%|███████   | 609/861 [22:27<10:57,  2.61s/it][A
+ 71%|███████   | 610/861 [22:31<12:26,  2.97s/it][A
+ 71%|███████   | 611/861 [22:34<11:53,  2.85s/it][A
+ 71%|███████   | 612/861 [22:36<11:24,  2.75s/it][A
+ 71%|███████   | 613/861 [22:38<09:33,  2.31s/it][A
+ 71%|███████▏  | 614/861 [22:40<09:59,  2.43s/it][A
+ 71%|███████▏  | 615/861 [22:43<10:54,  2.66s/it][A
+ 72%|███████▏  | 616/861 [22:49<13:53,  3.40s/it][A
+ 72%|███████▏  | 617/861 [22:52<14:10,  3.49s/it][A
+ 72%|███████▏  | 618/861 [22:55<13:48,  3.41s/it][A
+ 72%|███████▏  | 619/861 [22:58<12:31,  3.11s/it][A
+ 72%|███████▏  | 620/861 [23:02<13:31,  3.37s/it][A
+ 72%|███████▏  | 621/861 [23:05<12:55,  3.23s/it][A
+ 72%|███████▏  | 622/861 [23:06<10:54,  2.74s/it][A
+ 72%|███████▏  | 623/861 [23:11<13:03,  3.29s/it][A
+ 72%|███████▏  | 624/861 [23:14<12:47,  3.24s/it][A
+ 73%|███████▎  | 625/861 [23:15<10:15,  2.61s/it][A
+ 73%|███████▎  | 626/861 [23:17<09:23,  2.40s/it][A
+ 73%|███████▎  | 627/861 [23:21<10:40,  2.74s/it][A
+ 73%|███████▎  | 628/861 [23:24<11:19,  2.92s/it][A
+ 73%|███████▎  | 629/861 [23:28<12:43,  3.29s/it][A
+ 73%|███████▎  | 630/861 [23:32<12:47,  3.32s/it][A
+ 73%|███████▎  | 631/861 [23:33<10:02,  2.62s/it][A
+ 73%|███████▎  | 632/861 [23:36<10:41,  2.80s/it][A
+ 74%|███████▎  | 633/861 [23:38<10:18,  2.71s/it][A
+ 74%|███████▎  | 634/861 [23:42<11:24,  3.02s/it][A
+ 74%|███████▍  | 635/861 [23:44<10:37,  2.82s/it][A
+ 74%|███████▍  | 636/861 [23:46<09:38,  2.57s/it][A
+ 74%|███████▍  | 637/861 [23:48<08:40,  2.32s/it][A
+ 74%|███████▍  | 638/861 [23:50<08:03,  2.17s/it][A
+ 74%|███████▍  | 639/861 [23:53<09:11,  2.48s/it][A
+ 74%|███████▍  | 640/861 [23:55<08:39,  2.35s/it][A
+ 74%|███████▍  | 641/861 [23:57<08:37,  2.35s/it][A
+ 75%|███████▍  | 642/861 [23:59<07:54,  2.16s/it][A
+ 75%|███████▍  | 643/861 [24:01<07:26,  2.05s/it][A
+ 75%|███████▍  | 644/861 [24:03<07:24,  2.05s/it][A
+ 75%|███████▍  | 645/861 [24:04<06:04,  1.69s/it][A
+ 75%|███████▌  | 646/861 [24:05<05:52,  1.64s/it][A
+ 75%|███████▌  | 647/861 [24:06<05:05,  1.43s/it][A
+ 75%|███████▌  | 648/861 [24:08<05:31,  1.56s/it][A
+ 75%|███████▌  | 649/861 [24:10<05:36,  1.59s/it][A
+ 75%|███████▌  | 650/861 [24:11<05:26,  1.55s/it][A
+ 76%|███████▌  | 651/861 [24:12<04:42,  1.35s/it][A
+ 76%|███████▌  | 652/861 [24:14<04:56,  1.42s/it][A
+ 76%|███████▌  | 653/861 [24:15<04:36,  1.33s/it][A
+ 76%|███████▌  | 654/861 [24:16<04:30,  1.31s/it][A
+ 76%|███████▌  | 655/861 [24:17<04:00,  1.17s/it][A
+ 76%|███████▌  | 656/861 [24:18<03:26,  1.01s/it][A
+ 76%|███████▋  | 657/861 [24:19<03:33,  1.05s/it][A
+ 76%|███████▋  | 658/861 [24:20<04:14,  1.25s/it][A
+ 77%|███████▋  | 659/861 [24:22<04:14,  1.26s/it][A
+ 77%|███████▋  | 660/861 [24:24<04:50,  1.45s/it][A
+ 77%|███████▋  | 661/861 [24:25<04:56,  1.48s/it][A
+ 77%|███████▋  | 662/861 [24:28<05:56,  1.79s/it][A
+ 77%|███████▋  | 663/861 [24:31<06:55,  2.10s/it][A
+ 77%|███████▋  | 664/861 [24:32<05:52,  1.79s/it][A
+ 77%|███████▋  | 665/861 [24:33<05:08,  1.58s/it][A
+ 77%|███████▋  | 666/861 [24:34<04:28,  1.38s/it][A
+ 77%|███████▋  | 667/861 [24:35<04:28,  1.38s/it][A
+ 78%|███████▊  | 668/861 [24:36<04:16,  1.33s/it][A
+ 78%|███████▊  | 669/861 [24:37<03:42,  1.16s/it][A
+ 78%|███████▊  | 670/861 [24:38<03:51,  1.21s/it][A
+ 78%|███████▊  | 671/861 [24:39<03:11,  1.01s/it][A
+ 78%|███████▊  | 672/861 [24:41<04:24,  1.40s/it][A
+ 78%|███��███▊  | 673/861 [24:44<05:20,  1.71s/it][A
+ 78%|███████▊  | 674/861 [24:45<04:56,  1.59s/it][A
+ 78%|███████▊  | 675/861 [24:50<07:50,  2.53s/it][A
+ 79%|███████▊  | 676/861 [24:51<06:50,  2.22s/it][A
+ 79%|███████▊  | 677/861 [24:53<06:37,  2.16s/it][A
+ 79%|███████▊  | 678/861 [24:54<05:30,  1.81s/it][A
+ 79%|███████▉  | 679/861 [24:55<04:57,  1.64s/it][A
+ 79%|███████▉  | 680/861 [24:56<04:17,  1.42s/it][A
+ 79%|███████▉  | 681/861 [24:59<05:06,  1.70s/it][A
+ 79%|███████▉  | 682/861 [25:02<06:07,  2.05s/it][A
+ 79%|███████▉  | 683/861 [25:03<05:26,  1.83s/it][A
+ 79%|███████▉  | 684/861 [25:05<06:07,  2.08s/it][A
+ 80%|███████▉  | 685/861 [25:07<05:20,  1.82s/it][A
+ 80%|███████▉  | 686/861 [25:08<04:50,  1.66s/it][A
+ 80%|███████▉  | 687/861 [25:12<06:54,  2.38s/it][A
+ 80%|███████▉  | 688/861 [25:13<05:43,  1.99s/it][A
+ 80%|████████  | 689/861 [25:15<05:16,  1.84s/it][A
+ 80%|████████  | 690/861 [25:16<04:55,  1.73s/it][A
+ 80%|████████  | 691/861 [25:18<05:12,  1.84s/it][A
+ 80%|████████  | 692/861 [25:20<05:01,  1.78s/it][A
+ 80%|████████  | 693/861 [25:21<04:37,  1.65s/it][A
+ 81%|████████  | 694/861 [25:22<04:07,  1.48s/it][A
+ 81%|████████  | 695/861 [25:25<04:45,  1.72s/it][A
+ 81%|████████  | 696/861 [25:26<04:08,  1.51s/it][A
+ 81%|████████  | 697/861 [25:27<04:00,  1.47s/it][A
+ 81%|████████  | 698/861 [25:28<03:59,  1.47s/it][A
+ 81%|████████  | 699/861 [25:33<06:19,  2.34s/it][A
+ 81%|████████▏ | 700/861 [25:36<07:07,  2.65s/it][A
+ 81%|████████▏ | 701/861 [25:38<06:19,  2.37s/it][A
+ 82%|████████▏ | 702/861 [25:39<05:39,  2.13s/it][A
+ 82%|████████▏ | 703/861 [25:41<05:01,  1.91s/it][A
+ 82%|████████▏ | 704/861 [25:42<04:42,  1.80s/it][A
+ 82%|████████▏ | 705/861 [25:44<04:38,  1.79s/it][A
+ 82%|████████▏ | 706/861 [25:45<03:59,  1.54s/it][A
+ 82%|████████▏ | 707/861 [25:46<03:22,  1.32s/it][A
+ 82%|████████▏ | 708/861 [25:47<03:16,  1.28s/it][A
+ 82%|████████▏ | 709/861 [25:49<03:23,  1.34s/it][A
+ 82%|████████▏ | 710/861 [25:51<04:10,  1.66s/it][A
+ 83%|████████▎ | 711/861 [25:53<04:17,  1.72s/it][A
+ 83%|████████▎ | 712/861 [25:54<03:53,  1.57s/it][A
+ 83%|████████▎ | 713/861 [25:55<03:20,  1.35s/it][A
+ 83%|████████▎ | 714/861 [25:56<03:26,  1.40s/it][A
+ 83%|████████▎ | 715/861 [25:59<04:17,  1.77s/it][A
+ 83%|████████▎ | 716/861 [26:01<04:28,  1.85s/it][A
+ 83%|████████▎ | 717/861 [26:02<04:00,  1.67s/it][A
+ 83%|████████▎ | 718/861 [26:04<04:16,  1.79s/it][A
+ 84%|████████▎ | 719/861 [26:05<03:43,  1.57s/it][A
+ 84%|████████▎ | 720/861 [26:06<03:18,  1.41s/it][A
+ 84%|████████▎ | 721/861 [26:08<03:00,  1.29s/it][A
+ 84%|████████▍ | 722/861 [26:09<03:17,  1.42s/it][A
+ 84%|████████▍ | 723/861 [26:10<03:04,  1.33s/it][A
+ 84%|████████▍ | 724/861 [26:12<02:57,  1.30s/it][A
+ 84%|████████▍ | 725/861 [26:13<02:52,  1.27s/it][A
+ 84%|████████▍ | 726/861 [26:14<03:06,  1.38s/it][A
+ 84%|████████▍ | 727/861 [26:17<03:52,  1.73s/it][A
+ 85%|████████▍ | 728/861 [26:19<03:54,  1.77s/it][A
+ 85%|████████▍ | 729/861 [26:20<03:28,  1.58s/it][A
+ 85%|████████▍ | 730/861 [26:21<03:00,  1.38s/it][A
+ 85%|████████▍ | 731/861 [26:23<03:36,  1.67s/it][A
+ 85%|████████▌ | 732/861 [26:24<03:11,  1.48s/it][A
+ 85%|████████▌ | 733/861 [26:26<03:08,  1.47s/it][A
+ 85%|████████▌ | 734/861 [26:26<02:37,  1.24s/it][A
+ 85%|████████▌ | 735/861 [26:27<02:27,  1.17s/it][A
+ 85%|████████▌ | 736/861 [26:29<02:38,  1.27s/it][A
+ 86%|████████▌ | 737/861 [26:31<02:59,  1.45s/it][A
+ 86%|████████▌ | 738/861 [26:32<03:03,  1.49s/it][A
+ 86%|████████▌ | 739/861 [26:34<02:49,  1.39s/it][A
+ 86%|████████▌ | 740/861 [26:35<02:33,  1.27s/it][A
+ 86%|████████▌ | 741/861 [26:36<02:49,  1.41s/it][A
+ 86%|████████▌ | 742/861 [26:38<02:56,  1.49s/it][A
+ 86%|████████▋ | 743/861 [26:39<02:36,  1.33s/it][A
+ 86%|��███████▋ | 744/861 [26:40<02:23,  1.23s/it][A
+ 87%|████████▋ | 745/861 [26:42<02:51,  1.48s/it][A
+ 87%|████████▋ | 746/861 [26:43<02:36,  1.36s/it][A
+ 87%|████████▋ | 747/861 [26:45<03:13,  1.69s/it][A
+ 87%|████████▋ | 748/861 [26:48<03:29,  1.85s/it][A
+ 87%|████████▋ | 749/861 [26:50<03:28,  1.86s/it][A
+ 87%|████████▋ | 750/861 [26:51<02:55,  1.58s/it][A
+ 87%|████████▋ | 751/861 [26:51<02:14,  1.22s/it][A
+ 87%|████████▋ | 752/861 [26:55<03:34,  1.97s/it][A
+ 87%|████████▋ | 753/861 [26:57<03:50,  2.13s/it][A
+ 88%|████████▊ | 754/861 [26:58<03:10,  1.78s/it][A
+ 88%|████████▊ | 755/861 [26:59<02:48,  1.59s/it][A
+ 88%|████████▊ | 756/861 [27:01<02:38,  1.51s/it][A
+ 88%|████████▊ | 757/861 [27:03<03:09,  1.82s/it][A
+ 88%|████████▊ | 758/861 [27:04<02:53,  1.68s/it][A
+ 88%|████████▊ | 759/861 [27:06<02:34,  1.52s/it][A
+ 88%|████████▊ | 760/861 [27:08<03:09,  1.88s/it][A
+ 88%|████████▊ | 761/861 [27:14<05:04,  3.04s/it][A
+ 89%|████████▊ | 762/861 [27:15<04:11,  2.54s/it][A
+ 89%|████████▊ | 763/861 [27:17<03:36,  2.21s/it][A
+ 89%|████████▊ | 764/861 [27:19<03:20,  2.06s/it][A
+ 89%|████████▉ | 765/861 [27:21<03:39,  2.29s/it][A
+ 89%|████████▉ | 766/861 [27:24<03:34,  2.26s/it][A
+ 89%|████████▉ | 767/861 [27:29<05:12,  3.32s/it][A
+ 89%|████████▉ | 768/861 [27:32<04:38,  3.00s/it][A
+ 89%|████████▉ | 769/861 [27:34<04:15,  2.77s/it][A
+ 89%|████████▉ | 770/861 [27:35<03:27,  2.28s/it][A
+ 90%|████████▉ | 771/861 [27:36<02:56,  1.96s/it][A
+ 90%|████████▉ | 772/861 [27:39<03:10,  2.14s/it][A
+ 90%|████████▉ | 773/861 [27:42<03:44,  2.55s/it][A
+ 90%|████████▉ | 774/861 [27:44<03:23,  2.34s/it][A
+ 90%|█████████ | 775/861 [27:47<03:31,  2.46s/it][A
+ 90%|█████████ | 776/861 [27:50<03:39,  2.58s/it][A
+ 90%|█████████ | 777/861 [27:53<03:59,  2.86s/it][A
+ 90%|█████████ | 778/861 [27:55<03:38,  2.64s/it][A
+ 90%|█████████ | 779/861 [28:00<04:25,  3.23s/it][A
+ 91%|█████████ | 780/861 [28:04<04:39,  3.45s/it][A
+ 91%|█████████ | 781/861 [28:09<05:10,  3.88s/it][A
+ 91%|█████████ | 782/861 [28:12<04:46,  3.63s/it][A
+ 91%|█████████ | 783/861 [28:14<04:06,  3.16s/it][A
+ 91%|█████████ | 784/861 [28:19<04:38,  3.62s/it][A
+ 91%|█████████ | 785/861 [28:20<03:52,  3.06s/it][A
+ 91%|█████████▏| 786/861 [28:22<03:22,  2.70s/it][A
+ 91%|█████████▏| 787/861 [28:24<02:59,  2.43s/it][A
+ 92%|█████████▏| 788/861 [28:29<03:48,  3.13s/it][A
+ 92%|█████████▏| 789/861 [28:31<03:31,  2.93s/it][A
+ 92%|█████████▏| 790/861 [28:34<03:15,  2.76s/it][A
+ 92%|█████████▏| 791/861 [28:36<03:12,  2.75s/it][A
+ 92%|█████████▏| 792/861 [28:38<02:44,  2.38s/it][A
+ 92%|█████████▏| 793/861 [28:41<02:50,  2.51s/it][A
+ 92%|█████████▏| 794/861 [28:42<02:20,  2.10s/it][A
+ 92%|█████████▏| 795/861 [28:48<03:30,  3.18s/it][A
+ 92%|█████████▏| 796/861 [28:49<02:48,  2.60s/it][A
+ 93%|█████████▎| 797/861 [28:51<02:32,  2.38s/it][A
+ 93%|█████████▎| 798/861 [28:54<02:40,  2.55s/it][A
+ 93%|█████████▎| 799/861 [28:56<02:40,  2.58s/it][A
+ 93%|█████████▎| 800/861 [28:59<02:34,  2.53s/it][A
+ 93%|█████████▎| 801/861 [29:01<02:32,  2.54s/it][A
+ 93%|█████████▎| 802/861 [29:03<02:24,  2.45s/it][A
+ 93%|█████████▎| 803/861 [29:06<02:24,  2.49s/it][A
+ 93%|█████████▎| 804/861 [29:12<03:13,  3.40s/it][A
+ 93%|█████████▎| 805/861 [29:16<03:31,  3.77s/it][A
+ 94%|█████████▎| 806/861 [29:17<02:38,  2.87s/it][A
+ 94%|█████████▎| 807/861 [29:19<02:21,  2.62s/it][A
+ 94%|█████████▍| 808/861 [29:21<02:09,  2.45s/it][A
+ 94%|█████████▍| 809/861 [29:22<01:40,  1.93s/it][A
+ 94%|█████████▍| 810/861 [29:24<01:35,  1.87s/it][A
+ 94%|█████████▍| 811/861 [29:26<01:40,  2.01s/it][A
+ 94%|█████████▍| 812/861 [29:27<01:32,  1.89s/it][A
+ 94%|█████████▍| 813/861 [29:31<01:50,  2.29s/it][A
+ 95%|█████████▍| 814/861 [29:34<01:56,  2.47s/it][A
+ 95%|█████████▍| 815/861 [29:36<01:54,  2.49s/it][A
+ 95%|█████████▍| 816/861 [29:38<01:39,  2.22s/it][A
+ 95%|█████████▍| 817/861 [29:40<01:39,  2.27s/it][A
+ 95%|█████████▌| 818/861 [29:43<01:42,  2.38s/it][A
+ 95%|█████████▌| 819/861 [29:44<01:26,  2.05s/it][A
+ 95%|█████████▌| 820/861 [29:46<01:29,  2.17s/it][A
+ 95%|█████████▌| 821/861 [29:50<01:42,  2.57s/it][A
+ 95%|█████████▌| 822/861 [29:53<01:48,  2.77s/it][A
+ 96%|█████████▌| 823/861 [29:57<01:56,  3.07s/it][A
+ 96%|█████████▌| 824/861 [29:58<01:35,  2.57s/it][A
+ 96%|█████████▌| 825/861 [30:00<01:19,  2.22s/it][A
+ 96%|█████████▌| 826/861 [30:03<01:26,  2.46s/it][A
+ 96%|█████████▌| 827/861 [30:05<01:25,  2.50s/it][A
+ 96%|█████████▌| 828/861 [30:07<01:13,  2.23s/it][A
+ 96%|█████████▋| 829/861 [30:10<01:19,  2.50s/it][A
+ 96%|█████████▋| 830/861 [30:13<01:18,  2.54s/it][A
+ 97%|█████████▋| 831/861 [30:15<01:16,  2.56s/it][A
+ 97%|█████████▋| 832/861 [30:18<01:16,  2.63s/it][A
+ 97%|█████████▋| 833/861 [30:19<01:02,  2.22s/it][A
+ 97%|█████████▋| 834/861 [30:22<01:00,  2.25s/it][A
+ 97%|█████████▋| 835/861 [30:24<00:58,  2.23s/it][A
+ 97%|█████████▋| 836/861 [30:26<00:57,  2.32s/it][A
+ 97%|█████████▋| 837/861 [30:29<00:57,  2.38s/it][A
+ 97%|█████████▋| 838/861 [30:32<00:56,  2.48s/it][A
+ 97%|█████████▋| 839/861 [30:33<00:48,  2.21s/it][A
+ 98%|█████████▊| 840/861 [30:35<00:45,  2.17s/it][A
+ 98%|█████████▊| 841/861 [30:37<00:43,  2.15s/it][A
+ 98%|█████████▊| 842/861 [30:39<00:40,  2.12s/it][A
+ 98%|█████████▊| 843/861 [30:42<00:42,  2.38s/it][A
+ 98%|█████████▊| 844/861 [30:44<00:38,  2.27s/it][A
+ 98%|█████████▊| 845/861 [30:47<00:37,  2.32s/it][A
+ 98%|█████████▊| 846/861 [30:49<00:33,  2.21s/it][A
+ 98%|█████████▊| 847/861 [30:51<00:30,  2.21s/it][A
+ 98%|█████████▊| 848/861 [30:54<00:31,  2.44s/it][A
+ 99%|█████████▊| 849/861 [30:57<00:29,  2.48s/it][A
+ 99%|█████████▊| 850/861 [30:58<00:23,  2.18s/it][A
+ 99%|█████████▉| 851/861 [31:00<00:20,  2.09s/it][A
+ 99%|█████████▉| 852/861 [31:01<00:16,  1.88s/it][A
+ 99%|█████████▉| 853/861 [31:05<00:18,  2.27s/it][A
+ 99%|█████████▉| 854/861 [31:06<00:14,  2.12s/it][A
+ 99%|█████████▉| 855/861 [31:08<00:12,  2.13s/it][A
+ 99%|█████████▉| 856/861 [31:12<00:12,  2.46s/it][A
+100%|█████████▉| 857/861 [31:14<00:09,  2.32s/it][A
+100%|█████████▉| 858/861 [31:16<00:06,  2.28s/it][A
+100%|█████████▉| 859/861 [31:18<00:04,  2.37s/it][A
+100%|█████████▉| 860/861 [31:24<00:03,  3.23s/it][A
+100%|██████████| 861/861 [31:26<00:00,  2.85s/it][A{'score': 0.07411019411915373, 'counts': [9147, 351, 100, 29], 'totals': [421736, 420014, 418292, 416570], 'precisions': [2.1688923876548363, 0.0835686429499969, 0.023906744570778307, 0.006961615094701971], 'bp': 1.0, 'sys_len': 421736, 'ref_len': 32555}
+                                                         
+                                                 [A{'eval_loss': 2.979813814163208, 'eval_bleu': 0.0741, 'eval_gen_len': 114.8177, 'eval_runtime': 1993.3083, 'eval_samples_per_second': 0.864, 'eval_steps_per_second': 0.432, 'epoch': 1.0}
+  6%|▋         | 3869/61904 [2:01:38<22:37:29,  1.40s/it]
+100%|██████████| 861/861 [33:10<00:00,  2.85s/it][A
+                                                 [A[WARNING|configuration_utils.py:448] 2024-10-25 03:22:47,281 >> Some non-default generation parameters are set in the model config. These should go into a GenerationConfig file (https://huggingface.co/docs/transformers/generation_strategies#save-a-custom-decoding-strategy-with-your-model) instead. This warning will be raised to an exception in v4.41.
+Non-default generation parameters: {'max_length': 200, 'early_stopping': True, 'num_beams': 5, 'forced_eos_token_id': 2}
+/opt/conda/lib/python3.10/multiprocessing/popen_fork.py:66: RuntimeWarning: os.fork() was called. os.fork() is incompatible with multithreaded code, and JAX is multithreaded, so this will likely lead to a deadlock.
+  self.pid = os.fork()
+  6%|▋         | 3870/61904 [2:01:52<9730:10:48, 603.59s/it]  6%|▋         | 3871/61904 [2:01:54<6817:16:16, 422.90s/it]  6%|▋         | 3872/61904 [2:01:55<4778:34:57, 296.44s/it]  6%|▋         | 3873/61904 [2:01:57<3352:37:10, 207.98s/it]  6%|▋         | 3874/61904 [2:01:58<2354:23:50, 146.06s/it]  6%|▋         | 3875/61904 [2:02:00<1655:35:21, 102.71s/it]  6%|▋         | 3876/61904 [2:02:01<1166:37:02, 72.38s/it]   6%|▋         | 3877/61904 [2:02:03<822:42:15, 51.04s/it]   6%|▋         | 3878/61904 [2:02:04<583:02:18, 36.17s/it]  6%|▋         | 3879/61904 [2:02:06<414:54:48, 25.74s/it]  6%|▋         | 3880/61904 [2:02:07<297:12:41, 18.44s/it]                                                          {'loss': 3.0219, 'learning_rate': 1.9403604304421105e-07, 'epoch': 1.0}
+  6%|▋         | 3880/61904 [2:02:07<297:12:41, 18.44s/it]  6%|▋         | 3881/61904 [2:02:08<214:38:11, 13.32s/it]  6%|▋         | 3882/61904 [2:02:10<157:09:50,  9.75s/it]  6%|▋         | 3883/61904 [2:02:11<116:33:26,  7.23s/it]  6%|▋         | 3884/61904 [2:02:13<88:43:15,  5.50s/it]   6%|▋         | 3885/61904 [2:02:14<69:09:26,  4.29s/it]  6%|▋         | 3886/61904 [2:02:15<55:16:04,  3.43s/it]  6%|▋         | 3887/61904 [2:02:17<45:40:38,  2.83s/it]  6%|▋         | 3888/61904 [2:02:19<39:43:49,  2.47s/it]  6%|▋         | 3889/61904 [2:02:20<35:31:27,  2.20s/it]  6%|▋         | 3890/61904 [2:02:22<31:52:09,  1.98s/it]  6%|▋         | 3891/61904 [2:02:23<29:19:44,  1.82s/it]  6%|▋         | 3892/61904 [2:02:24<26:55:09,  1.67s/it]  6%|▋         | 3893/61904 [2:02:26<26:00:11,  1.61s/it]  6%|▋         | 3894/61904 [2:02:27<25:00:24,  1.55s/it]  6%|▋         | 3895/61904 [2:02:29<23:50:16,  1.48s/it]  6%|▋         | 3896/61904 [2:02:30<23:19:09,  1.45s/it]  6%|▋         | 3897/61904 [2:02:31<23:37:07,  1.47s/it]  6%|▋         | 3898/61904 [2:02:33<22:55:14,  1.42s/it]  6%|▋         | 3899/61904 [2:02:34<22:33:14,  1.40s/it]  6%|▋         | 3900/61904 [2:02:35<21:50:24,  1.36s/it]                                                         {'loss': 3.0378, 'learning_rate': 1.9400363023466873e-07, 'epoch': 1.01}
+  6%|▋         | 3900/61904 [2:02:35<21:50:24,  1.36s/it]  6%|▋         | 3901/61904 [2:02:37<21:52:31,  1.36s/it]  6%|▋         | 3902/61904 [2:02:38<21:48:03,  1.35s/it]  6%|▋         | 3903/61904 [2:02:39<21:42:57,  1.35s/it]  6%|▋         | 3904/61904 [2:02:41<22:11:27,  1.38s/it]  6%|▋         | 3905/61904 [2:02:42<21:41:42,  1.35s/it]  6%|▋         | 3906/61904 [2:02:43<21:16:43,  1.32s/it]  6%|▋         | 3907/61904 [2:02:45<20:43:01,  1.29s/it]  6%|▋         | 3908/61904 [2:02:46<21:13:35,  1.32s/it]  6%|▋         | 3909/61904 [2:02:47<21:24:06,  1.33s/it]
\ No newline at end of file