taufeeque commited on Oct 2, 2023

Commit

d2a7b67

1 Parent(s): 9ef6e9e

Add model

Browse files

Files changed (18) hide show

.gitattributes +2 -0
README.md +126 -1
all_results.json +63 -0
config.json +39 -0
eval_results.json +28 -0
fsm.npy +0 -0
merges.txt +1 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +0 -0
scheduler.pt +0 -0
special_tokens_map.json +30 -0
tokenizer.json +48 -0
tokenizer_config.json +40 -0
train_results.json +38 -0
trainer_state.json +2068 -0
training_args.bin +0 -0
vocab.json +1 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+optimizer.pt filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,3 +1,128 @@
 ---
-license: mit
 ---

 ---
+tags:
+- generated_from_trainer
+datasets:
+- toy_graph
+metrics:
+- accuracy
+model-index:
+- name: output_toy
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: toy_graph
+      type: toy_graph
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.4525254617525837
 ---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# output_toy
+This model is a fine-tuned version of [toy/model](https://huggingface.co/toy/model) on the toy_graph dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.2691
+- Accuracy: 0.4525
+- Transition Accuracy: 0.5634
+- First Transition Accuracy: 0.88
+- Multicode K: 1
+- Dead Code Fraction/layer0: 0.9969
+- Mse/layer0: 220380.4595
+- Input Norm/layer0: 333.7717
+- Output Norm/layer0: 12.9360
+- Dead Code Fraction/layer1: 0.9535
+- Mse/layer1: 132.7843
+- Input Norm/layer1: 6.5450
+- Output Norm/layer1: 13.1449
+- Dead Code Fraction/layer2: 0.9349
+- Mse/layer2: 365.9396
+- Input Norm/layer2: 6.1370
+- Output Norm/layer2: 18.3248
+- Dead Code Fraction/layer3: 0.9819
+- Mse/layer3: 415.9804
+- Input Norm/layer3: 7.4097
+- Output Norm/layer3: 18.4665
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.001
+- train_batch_size: 1024
+- eval_batch_size: 512
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: constant
+- training_steps: 20000
+### Training results
+| Training Loss | Epoch | Step  | Validation Loss | Accuracy | Transition Accuracy | First Transition Accuracy | Multicode K | Dead Code Fraction/layer0 | Mse/layer0 | Input Norm/layer0 | Output Norm/layer0 | Dead Code Fraction/layer1 | Mse/layer1 | Input Norm/layer1 | Output Norm/layer1 | Dead Code Fraction/layer2 | Mse/layer2 | Input Norm/layer2 | Output Norm/layer2 | Dead Code Fraction/layer3 | Mse/layer3 | Input Norm/layer3 | Output Norm/layer3 |
+|:-------------:|:-----:|:-----:|:---------------:|:--------:|:-------------------:|:-------------------------:|:-----------:|:-------------------------:|:----------:|:-----------------:|:------------------:|:-------------------------:|:----------:|:-----------------:|:------------------:|:-------------------------:|:----------:|:-----------------:|:------------------:|:-------------------------:|:----------:|:-----------------:|:------------------:|
+| 2.2465        | 0.03  | 500   | 1.8386          | 0.3565   | 0.3555              | 0.31                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.5981        | 0.05  | 1000  | 1.4652          | 0.4204   | 0.5015              | 0.58                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.3928        | 0.07  | 1500  | 1.3541          | 0.4378   | 0.555               | 0.79                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.3405        | 0.1   | 2000  | 1.3264          | 0.4427   | 0.5756              | 0.82                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.3189        | 0.12  | 2500  | 1.3187          | 0.4446   | 0.5576              | 0.86                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.308         | 0.15  | 3000  | 1.3064          | 0.4468   | 0.5573              | 0.82                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.3009        | 0.17  | 3500  | 1.2963          | 0.4493   | 0.5763              | 0.87                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2965        | 0.2   | 4000  | 1.2922          | 0.4494   | 0.5677              | 0.9                       | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2919        | 0.23  | 4500  | 1.2880          | 0.4499   | 0.5821              | 0.91                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2889        | 0.25  | 5000  | 1.2856          | 0.4501   | 0.56                | 0.9                       | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2855        | 0.28  | 5500  | 1.2816          | 0.4503   | 0.6016              | 0.9                       | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2828        | 0.3   | 6000  | 1.2844          | 0.4502   | 0.5734              | 0.87                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2805        | 0.33  | 6500  | 1.2777          | 0.4516   | 0.6084              | 0.95                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2793        | 0.35  | 7000  | 1.2796          | 0.4511   | 0.5681              | 0.93                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2785        | 0.38  | 7500  | 1.2748          | 0.4519   | 0.5919              | 0.95                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2764        | 0.4   | 8000  | 1.2767          | 0.4518   | 0.5760              | 0.9                       | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2763        | 0.42  | 8500  | 1.2801          | 0.4507   | 0.5827              | 0.94                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2755        | 0.45  | 9000  | 1.2755          | 0.4516   | 0.5765              | 0.9                       | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2746        | 0.47  | 9500  | 1.2736          | 0.4523   | 0.5865              | 0.9                       | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2734        | 0.5   | 10000 | 1.2740          | 0.4519   | 0.5779              | 0.91                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2732        | 0.53  | 10500 | 1.2744          | 0.4516   | 0.5879              | 0.89                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2723        | 0.55  | 11000 | 1.2690          | 0.4525   | 0.5811              | 0.89                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2712        | 0.57  | 11500 | 1.2705          | 0.4526   | 0.5779              | 0.93                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2716        | 0.6   | 12000 | 1.2701          | 0.4527   | 0.5760              | 0.89                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2708        | 0.62  | 12500 | 1.2716          | 0.4522   | 0.5485              | 0.95                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2705        | 0.65  | 13000 | 1.2676          | 0.4529   | 0.5734              | 0.93                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2696        | 0.68  | 13500 | 1.2717          | 0.4519   | 0.5994              | 0.91                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2687        | 0.7   | 14000 | 1.2687          | 0.4524   | 0.5756              | 0.9                       | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2685        | 0.72  | 14500 | 1.2709          | 0.4521   | 0.6127              | 0.89                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2685        | 0.75  | 15000 | 1.2706          | 0.4519   | 0.5873              | 0.91                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2675        | 0.78  | 15500 | 1.2691          | 0.4527   | 0.6365              | 0.96                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2677        | 0.8   | 16000 | 1.2686          | 0.4526   | 0.5589              | 0.93                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2676        | 0.82  | 16500 | 1.2639          | 0.4529   | 0.5940              | 0.89                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2662        | 0.85  | 17000 | 1.2655          | 0.4530   | 0.5955              | 0.94                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2666        | 0.88  | 17500 | 1.2636          | 0.4526   | 0.6013              | 0.96                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2664        | 0.9   | 18000 | 1.2681          | 0.4526   | 0.6034              | 0.96                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.266         | 0.93  | 18500 | 1.2624          | 0.4527   | 0.5839              | 0.88                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2653        | 0.95  | 19000 | 1.2688          | 0.4519   | 0.5837              | 0.92                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2654        | 0.97  | 19500 | 1.2619          | 0.4534   | 0.5973              | 0.92                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+| 1.2649        | 1.0   | 20000 | 1.2647          | 0.4525   | 0.59                | 0.93                      | 1           | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                | 1.0                       | 0.0        | 0.0               | 0.0                |
+### Framework versions
+- Transformers 4.28.1
+- Pytorch 2.0.1+cu117
+- Datasets 2.12.0
+- Tokenizers 0.13.3

all_results.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+    "MSE": 0.0,
+    "MSE/layer0": 0.0,
+    "MSE/layer1": 0.0,
+    "MSE/layer2": 0.0,
+    "MSE/layer3": 0.0,
+    "dead_code_fraction": 1.0,
+    "dead_code_fraction/layer0": 1.0,
+    "dead_code_fraction/layer1": 1.0,
+    "dead_code_fraction/layer2": 1.0,
+    "dead_code_fraction/layer3": 1.0,
+    "epoch": 1.0,
+    "eval_MSE/layer0": 220380.4595384912,
+    "eval_MSE/layer1": 132.78432877894963,
+    "eval_MSE/layer2": 365.9396393365076,
+    "eval_MSE/layer3": 415.98040078389045,
+    "eval_accuracy": 0.4525254617525837,
+    "eval_dead_code_fraction/layer0": 0.99694,
+    "eval_dead_code_fraction/layer1": 0.9535,
+    "eval_dead_code_fraction/layer2": 0.93486,
+    "eval_dead_code_fraction/layer3": 0.98186,
+    "eval_first_transition_accuracy": 0.88,
+    "eval_input_norm/layer0": 333.77172351868165,
+    "eval_input_norm/layer1": 6.54500140022604,
+    "eval_input_norm/layer2": 6.137018968109251,
+    "eval_input_norm/layer3": 7.40972196774554,
+    "eval_loss": 1.2691402435302734,
+    "eval_multicode_k": 1,
+    "eval_output_norm/layer0": 12.936006403074337,
+    "eval_output_norm/layer1": 13.144865618203756,
+    "eval_output_norm/layer2": 18.324818944643734,
+    "eval_output_norm/layer3": 18.466466705456643,
+    "eval_runtime": 40.0743,
+    "eval_samples_per_second": 817.682,
+    "eval_steps_per_second": 1.597,
+    "eval_transition_accuracy": 0.5633870967741935,
+    "input_norm": 0.0,
+    "input_norm/layer0": 0.0,
+    "input_norm/layer1": 0.0,
+    "input_norm/layer2": 0.0,
+    "input_norm/layer3": 0.0,
+    "loss": 1.313426919734478,
+    "max_norm": 46.33829879760742,
+    "max_norm/layer0": 17.856664657592773,
+    "max_norm/layer1": 20.084186553955078,
+    "max_norm/layer2": 33.940242767333984,
+    "max_norm/layer3": 46.33829879760742,
+    "mean_norm": 8.291451185941696,
+    "mean_norm/layer0": 8.462452054023743,
+    "mean_norm/layer1": 8.18280303478241,
+    "mean_norm/layer2": 8.143204748630524,
+    "mean_norm/layer3": 8.377344906330109,
+    "multicode_k": 1,
+    "output_norm": 0.0,
+    "output_norm/layer0": 0.0,
+    "output_norm/layer1": 0.0,
+    "output_norm/layer2": 0.0,
+    "output_norm/layer3": 0.0,
+    "perplexity": 3.5577924120078235,
+    "runtime": 19944.2896,
+    "samples_per_second": 1026.86,
+    "steps_per_second": 1.003
+}

config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "architectures": [
+    "GPTNeoXCodebookModel"
+  ],
+  "codebook_at": [
+    "preproj_attention",
+    "mlp"
+  ],
+  "codebook_kwargs": {},
+  "codebook_type": [
+    "group",
+    "vanilla"
+  ],
+  "k_codebook": [
+    1,
+    1
+  ],
+  "kmeans_init": false,
+  "kmeans_init_examples": 1000,
+  "kmeans_kwargs": null,
+  "kmeans_path": null,
+  "layers_to_snap": [
+    0,
+    1,
+    2,
+    3
+  ],
+  "loss": "aeloss",
+  "model_type": "codebook",
+  "num_codebooks": [
+    4,
+    1
+  ],
+  "num_codes": 10000,
+  "replace_codes": false,
+  "similarity_metric": "inner_product",
+  "torch_dtype": "float32",
+  "transformers_version": "4.28.1"
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+    "epoch": 1.0,
+    "eval_MSE/layer0": 220380.4595384912,
+    "eval_MSE/layer1": 132.78432877894963,
+    "eval_MSE/layer2": 365.9396393365076,
+    "eval_MSE/layer3": 415.98040078389045,
+    "eval_accuracy": 0.4525254617525837,
+    "eval_dead_code_fraction/layer0": 0.99694,
+    "eval_dead_code_fraction/layer1": 0.9535,
+    "eval_dead_code_fraction/layer2": 0.93486,
+    "eval_dead_code_fraction/layer3": 0.98186,
+    "eval_first_transition_accuracy": 0.88,
+    "eval_input_norm/layer0": 333.77172351868165,
+    "eval_input_norm/layer1": 6.54500140022604,
+    "eval_input_norm/layer2": 6.137018968109251,
+    "eval_input_norm/layer3": 7.40972196774554,
+    "eval_loss": 1.2691402435302734,
+    "eval_multicode_k": 1,
+    "eval_output_norm/layer0": 12.936006403074337,
+    "eval_output_norm/layer1": 13.144865618203756,
+    "eval_output_norm/layer2": 18.324818944643734,
+    "eval_output_norm/layer3": 18.466466705456643,
+    "eval_runtime": 40.0743,
+    "eval_samples_per_second": 817.682,
+    "eval_steps_per_second": 1.597,
+    "eval_transition_accuracy": 0.5633870967741935,
+    "perplexity": 3.5577924120078235
+}

fsm.npy ADDED Viewed

Binary file (80.1 kB). View file

merges.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ #version: 0.2

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7adc1d0512a86c5335e044308688de193ede8d653be289942c36f3dc75c829f
+size 86257029

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db3d252c367d55a926e6d46c93c5fab8d2fbaf44d3ef3dd70bcc71675c3c600c
+size 44261693

rng_state.pth ADDED Viewed

Binary file (14.6 kB). View file

scheduler.pt ADDED Viewed

Binary file (627 Bytes). View file

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "version": "1.0",
+  "truncation": null,
+  "padding": null,
+  "added_tokens": [],
+  "normalizer": null,
+  "pre_tokenizer": {
+    "type": "ByteLevel",
+    "add_prefix_space": false,
+    "trim_offsets": true,
+    "use_regex": true
+  },
+  "post_processor": {
+    "type": "ByteLevel",
+    "add_prefix_space": true,
+    "trim_offsets": false,
+    "use_regex": true
+  },
+  "decoder": {
+    "type": "ByteLevel",
+    "add_prefix_space": true,
+    "trim_offsets": true,
+    "use_regex": true
+  },
+  "model": {
+    "type": "BPE",
+    "dropout": null,
+    "unk_token": null,
+    "continuing_subword_prefix": "",
+    "end_of_word_suffix": "",
+    "fuse_unk": false,
+    "byte_fallback": false,
+    "vocab": {
+      "0": 0,
+      "1": 1,
+      "2": 2,
+      "3": 3,
+      "4": 4,
+      "5": 5,
+      "6": 6,
+      "7": 7,
+      "8": 8,
+      "9": 9,
+      "<|endoftext|>": 10
+    },
+    "merges": []
+  }
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": true,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "errors": "replace",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+    "MSE": 0.0,
+    "MSE/layer0": 0.0,
+    "MSE/layer1": 0.0,
+    "MSE/layer2": 0.0,
+    "MSE/layer3": 0.0,
+    "dead_code_fraction": 1.0,
+    "dead_code_fraction/layer0": 1.0,
+    "dead_code_fraction/layer1": 1.0,
+    "dead_code_fraction/layer2": 1.0,
+    "dead_code_fraction/layer3": 1.0,
+    "epoch": 1.0,
+    "input_norm": 0.0,
+    "input_norm/layer0": 0.0,
+    "input_norm/layer1": 0.0,
+    "input_norm/layer2": 0.0,
+    "input_norm/layer3": 0.0,
+    "loss": 1.313426919734478,
+    "max_norm": 46.33829879760742,
+    "max_norm/layer0": 17.856664657592773,
+    "max_norm/layer1": 20.084186553955078,
+    "max_norm/layer2": 33.940242767333984,
+    "max_norm/layer3": 46.33829879760742,
+    "mean_norm": 8.291451185941696,
+    "mean_norm/layer0": 8.462452054023743,
+    "mean_norm/layer1": 8.18280303478241,
+    "mean_norm/layer2": 8.143204748630524,
+    "mean_norm/layer3": 8.377344906330109,
+    "multicode_k": 1,
+    "output_norm": 0.0,
+    "output_norm/layer0": 0.0,
+    "output_norm/layer1": 0.0,
+    "output_norm/layer2": 0.0,
+    "output_norm/layer3": 0.0,
+    "runtime": 19944.2896,
+    "samples_per_second": 1026.86,
+    "steps_per_second": 1.003
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2068 @@

+{
+  "best_metric": 0.6364516129032258,
+  "best_model_checkpoint": "output_toy/checkpoint-15500",
+  "epoch": 0.775,
+  "global_step": 15500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.0,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 3.5788,
+      "max_norm": 14.111713409423828,
+      "max_norm/layer0": 14.111713409423828,
+      "max_norm/layer1": 13.754842758178711,
+      "max_norm/layer2": 14.107428550720215,
+      "max_norm/layer3": 14.075852394104004,
+      "mean_norm": 8.452343925833702,
+      "mean_norm/layer0": 8.452010810375214,
+      "mean_norm/layer1": 8.451448321342468,
+      "mean_norm/layer2": 8.451122224330902,
+      "mean_norm/layer3": 8.454794347286224,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 1
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.03,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 2.2465,
+      "max_norm": 14.111713409423828,
+      "max_norm/layer0": 14.111713409423828,
+      "max_norm/layer1": 13.313672065734863,
+      "max_norm/layer2": 13.402200698852539,
+      "max_norm/layer3": 13.972790718078613,
+      "mean_norm": 8.24767641723156,
+      "mean_norm/layer0": 8.446629762649536,
+      "mean_norm/layer1": 8.26882529258728,
+      "mean_norm/layer2": 8.018843710422516,
+      "mean_norm/layer3": 8.256406903266907,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 500
+    },
+    {
+      "epoch": 0.03,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.3564852016178642,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.31,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.8386362791061401,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.7699,
+      "eval_samples_per_second": 803.731,
+      "eval_steps_per_second": 1.57,
+      "eval_transition_accuracy": 0.3554838709677419,
+      "step": 500
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.05,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.5981,
+      "max_norm": 14.111713409423828,
+      "max_norm/layer0": 14.111713409423828,
+      "max_norm/layer1": 13.26521110534668,
+      "max_norm/layer2": 13.196029663085938,
+      "max_norm/layer3": 13.539477348327637,
+      "mean_norm": 8.097165614366531,
+      "mean_norm/layer0": 8.447738409042358,
+      "mean_norm/layer1": 8.100942492485046,
+      "mean_norm/layer2": 7.6819451451301575,
+      "mean_norm/layer3": 8.158036410808563,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 1000
+    },
+    {
+      "epoch": 0.05,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.4204176054226132,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.58,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.4651859998703003,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.3952,
+      "eval_samples_per_second": 811.185,
+      "eval_steps_per_second": 1.584,
+      "eval_transition_accuracy": 0.5014516129032258,
+      "step": 1000
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.07,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.3928,
+      "max_norm": 14.111713409423828,
+      "max_norm/layer0": 14.111713409423828,
+      "max_norm/layer1": 13.196317672729492,
+      "max_norm/layer2": 12.821307182312012,
+      "max_norm/layer3": 13.539477348327637,
+      "mean_norm": 8.05762867629528,
+      "mean_norm/layer0": 8.449561476707458,
+      "mean_norm/layer1": 8.045644223690033,
+      "mean_norm/layer2": 7.585634410381317,
+      "mean_norm/layer3": 8.149674594402313,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 1500
+    },
+    {
+      "epoch": 0.07,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.4378030131182333,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.79,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.354053258895874,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.3967,
+      "eval_samples_per_second": 811.156,
+      "eval_steps_per_second": 1.584,
+      "eval_transition_accuracy": 0.555,
+      "step": 1500
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.1,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.3405,
+      "max_norm": 14.111713409423828,
+      "max_norm/layer0": 14.111713409423828,
+      "max_norm/layer1": 12.928963661193848,
+      "max_norm/layer2": 12.629460334777832,
+      "max_norm/layer3": 13.539477348327637,
+      "mean_norm": 8.056178480386734,
+      "mean_norm/layer0": 8.451180398464203,
+      "mean_norm/layer1": 8.046804785728455,
+      "mean_norm/layer2": 7.5705525279045105,
+      "mean_norm/layer3": 8.156176209449768,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 2000
+    },
+    {
+      "epoch": 0.1,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.4426980807086614,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.82,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.3263764381408691,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.4538,
+      "eval_samples_per_second": 810.011,
+      "eval_steps_per_second": 1.582,
+      "eval_transition_accuracy": 0.5756451612903226,
+      "step": 2000
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.12,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.3189,
+      "max_norm": 14.111713409423828,
+      "max_norm/layer0": 14.111713409423828,
+      "max_norm/layer1": 12.928963661193848,
+      "max_norm/layer2": 12.610198974609375,
+      "max_norm/layer3": 13.539477348327637,
+      "mean_norm": 8.065410792827606,
+      "mean_norm/layer0": 8.452252388000488,
+      "mean_norm/layer1": 8.05913120508194,
+      "mean_norm/layer2": 7.583977818489075,
+      "mean_norm/layer3": 8.166281759738922,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 2500
+    },
+    {
+      "epoch": 0.12,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.4445690245140256,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.86,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.3187371492385864,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.0204,
+      "eval_samples_per_second": 818.782,
+      "eval_steps_per_second": 1.599,
+      "eval_transition_accuracy": 0.5575806451612904,
+      "step": 2500
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.15,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.308,
+      "max_norm": 14.111713409423828,
+      "max_norm/layer0": 14.111713409423828,
+      "max_norm/layer1": 12.928963661193848,
+      "max_norm/layer2": 12.610198974609375,
+      "max_norm/layer3": 13.539477348327637,
+      "mean_norm": 8.076771080493927,
+      "mean_norm/layer0": 8.453002035617828,
+      "mean_norm/layer1": 8.070474624633789,
+      "mean_norm/layer2": 7.606890320777893,
+      "mean_norm/layer3": 8.176717340946198,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 3000
+    },
+    {
+      "epoch": 0.15,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.44684558778297245,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.82,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.3064292669296265,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.4873,
+      "eval_samples_per_second": 809.341,
+      "eval_steps_per_second": 1.581,
+      "eval_transition_accuracy": 0.557258064516129,
+      "step": 3000
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.17,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.3009,
+      "max_norm": 14.111713409423828,
+      "max_norm/layer0": 14.111713409423828,
+      "max_norm/layer1": 12.928963661193848,
+      "max_norm/layer2": 12.480420112609863,
+      "max_norm/layer3": 13.539477348327637,
+      "mean_norm": 8.087428167462349,
+      "mean_norm/layer0": 8.45363199710846,
+      "mean_norm/layer1": 8.081151723861694,
+      "mean_norm/layer2": 7.628681242465973,
+      "mean_norm/layer3": 8.186247706413269,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 3500
+    },
+    {
+      "epoch": 0.17,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.44931342658095474,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.87,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2963054180145264,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.5536,
+      "eval_samples_per_second": 808.018,
+      "eval_steps_per_second": 1.578,
+      "eval_transition_accuracy": 0.5762903225806452,
+      "step": 3500
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.2,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2965,
+      "max_norm": 14.111713409423828,
+      "max_norm/layer0": 14.111713409423828,
+      "max_norm/layer1": 12.945528030395508,
+      "max_norm/layer2": 13.130059242248535,
+      "max_norm/layer3": 13.539477348327637,
+      "mean_norm": 8.097855687141418,
+      "mean_norm/layer0": 8.454240918159485,
+      "mean_norm/layer1": 8.09092777967453,
+      "mean_norm/layer2": 7.649804890155792,
+      "mean_norm/layer3": 8.196449160575867,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 4000
+    },
+    {
+      "epoch": 0.2,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.4493698961152805,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.9,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2922283411026,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.3081,
+      "eval_samples_per_second": 812.939,
+      "eval_steps_per_second": 1.588,
+      "eval_transition_accuracy": 0.567741935483871,
+      "step": 4000
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.23,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2919,
+      "max_norm": 14.111713409423828,
+      "max_norm/layer0": 14.111713409423828,
+      "max_norm/layer1": 13.611448287963867,
+      "max_norm/layer2": 13.752634048461914,
+      "max_norm/layer3": 13.539477348327637,
+      "mean_norm": 8.10820010304451,
+      "mean_norm/layer0": 8.454896569252014,
+      "mean_norm/layer1": 8.099043369293213,
+      "mean_norm/layer2": 7.671496093273163,
+      "mean_norm/layer3": 8.20736438035965,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 4500
+    },
+    {
+      "epoch": 0.23,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.449889175535187,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.91,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2880299091339111,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.5303,
+      "eval_samples_per_second": 808.482,
+      "eval_steps_per_second": 1.579,
+      "eval_transition_accuracy": 0.5820967741935484,
+      "step": 4500
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.25,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2889,
+      "max_norm": 14.629088401794434,
+      "max_norm/layer0": 14.111713409423828,
+      "max_norm/layer1": 14.212156295776367,
+      "max_norm/layer2": 14.629088401794434,
+      "max_norm/layer3": 13.539477348327637,
+      "mean_norm": 8.117734983563423,
+      "mean_norm/layer0": 8.455368101596832,
+      "mean_norm/layer1": 8.104798018932343,
+      "mean_norm/layer2": 7.693721830844879,
+      "mean_norm/layer3": 8.217051982879639,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 5000
+    },
+    {
+      "epoch": 0.25,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.45008597786970966,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.9,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2855565547943115,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.1444,
+      "eval_samples_per_second": 816.252,
+      "eval_steps_per_second": 1.594,
+      "eval_transition_accuracy": 0.56,
+      "step": 5000
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.28,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2855,
+      "max_norm": 15.594667434692383,
+      "max_norm/layer0": 14.111713409423828,
+      "max_norm/layer1": 14.633105278015137,
+      "max_norm/layer2": 15.594667434692383,
+      "max_norm/layer3": 13.539477348327637,
+      "mean_norm": 8.12691231071949,
+      "mean_norm/layer0": 8.45590054988861,
+      "mean_norm/layer1": 8.110510230064392,
+      "mean_norm/layer2": 7.71501624584198,
+      "mean_norm/layer3": 8.226222217082977,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 5500
+    },
+    {
+      "epoch": 0.28,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.4503207469549705,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.9,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2815940380096436,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.4723,
+      "eval_samples_per_second": 809.64,
+      "eval_steps_per_second": 1.581,
+      "eval_transition_accuracy": 0.6016129032258064,
+      "step": 5500
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.3,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2828,
+      "max_norm": 16.523221969604492,
+      "max_norm/layer0": 14.111713409423828,
+      "max_norm/layer1": 15.140296936035156,
+      "max_norm/layer2": 16.523221969604492,
+      "max_norm/layer3": 15.213438987731934,
+      "mean_norm": 8.136623591184616,
+      "mean_norm/layer0": 8.456406712532043,
+      "mean_norm/layer1": 8.11625623703003,
+      "mean_norm/layer2": 7.738001704216003,
+      "mean_norm/layer3": 8.235829710960388,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 6000
+    },
+    {
+      "epoch": 0.3,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.45019699457123524,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.87,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2844185829162598,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.4554,
+      "eval_samples_per_second": 809.979,
+      "eval_steps_per_second": 1.582,
+      "eval_transition_accuracy": 0.5733870967741935,
+      "step": 6000
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.33,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2805,
+      "max_norm": 17.3682861328125,
+      "max_norm/layer0": 14.111713409423828,
+      "max_norm/layer1": 15.587692260742188,
+      "max_norm/layer2": 17.3682861328125,
+      "max_norm/layer3": 16.75887107849121,
+      "mean_norm": 8.145677655935287,
+      "mean_norm/layer0": 8.456890940666199,
+      "mean_norm/layer1": 8.120486974716187,
+      "mean_norm/layer2": 7.760386824607849,
+      "mean_norm/layer3": 8.244945883750916,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 6500
+    },
+    {
+      "epoch": 0.33,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.45155730960875984,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.95,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.277733325958252,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.4778,
+      "eval_samples_per_second": 809.529,
+      "eval_steps_per_second": 1.581,
+      "eval_transition_accuracy": 0.6083870967741936,
+      "step": 6500
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.35,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2793,
+      "max_norm": 18.367448806762695,
+      "max_norm/layer0": 14.111713409423828,
+      "max_norm/layer1": 16.05299949645996,
+      "max_norm/layer2": 18.142847061157227,
+      "max_norm/layer3": 18.367448806762695,
+      "mean_norm": 8.15514886379242,
+      "mean_norm/layer0": 8.45737361907959,
+      "mean_norm/layer1": 8.127346932888031,
+      "mean_norm/layer2": 7.781527459621429,
+      "mean_norm/layer3": 8.254347443580627,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 7000
+    },
+    {
+      "epoch": 0.35,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.45114255890132876,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.93,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2795634269714355,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.6598,
+      "eval_samples_per_second": 805.906,
+      "eval_steps_per_second": 1.574,
+      "eval_transition_accuracy": 0.5680645161290323,
+      "step": 7000
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.38,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2785,
+      "max_norm": 20.019760131835938,
+      "max_norm/layer0": 14.111713409423828,
+      "max_norm/layer1": 16.42165756225586,
+      "max_norm/layer2": 19.017709732055664,
+      "max_norm/layer3": 20.019760131835938,
+      "mean_norm": 8.164311796426773,
+      "mean_norm/layer0": 8.457763373851776,
+      "mean_norm/layer1": 8.13219028711319,
+      "mean_norm/layer2": 7.803518235683441,
+      "mean_norm/layer3": 8.263775289058685,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 7500
+    },
+    {
+      "epoch": 0.38,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.45188651497908466,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.95,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2748253345489502,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.4299,
+      "eval_samples_per_second": 810.489,
+      "eval_steps_per_second": 1.583,
+      "eval_transition_accuracy": 0.5919354838709677,
+      "step": 7500
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.4,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2764,
+      "max_norm": 21.821395874023438,
+      "max_norm/layer0": 14.158592224121094,
+      "max_norm/layer1": 16.7973690032959,
+      "max_norm/layer2": 19.965808868408203,
+      "max_norm/layer3": 21.821395874023438,
+      "mean_norm": 8.173083677887917,
+      "mean_norm/layer0": 8.458155512809753,
+      "mean_norm/layer1": 8.137401163578033,
+      "mean_norm/layer2": 7.8241875767707825,
+      "mean_norm/layer3": 8.272590458393097,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 8000
+    },
+    {
+      "epoch": 0.4,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.451844222902313,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.9,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.276716709136963,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.3344,
+      "eval_samples_per_second": 812.407,
+      "eval_steps_per_second": 1.587,
+      "eval_transition_accuracy": 0.5759677419354838,
+      "step": 8000
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.42,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2763,
+      "max_norm": 23.506425857543945,
+      "max_norm/layer0": 14.451132774353027,
+      "max_norm/layer1": 17.121503829956055,
+      "max_norm/layer2": 20.906761169433594,
+      "max_norm/layer3": 23.506425857543945,
+      "mean_norm": 8.181086376309395,
+      "mean_norm/layer0": 8.458472549915314,
+      "mean_norm/layer1": 8.140588343143463,
+      "mean_norm/layer2": 7.84406965970993,
+      "mean_norm/layer3": 8.281214952468872,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 8500
+    },
+    {
+      "epoch": 0.42,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.45069200410617616,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.94,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2800538539886475,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.8942,
+      "eval_samples_per_second": 801.287,
+      "eval_steps_per_second": 1.565,
+      "eval_transition_accuracy": 0.582741935483871,
+      "step": 8500
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.45,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2755,
+      "max_norm": 25.07321548461914,
+      "max_norm/layer0": 14.874269485473633,
+      "max_norm/layer1": 17.39398956298828,
+      "max_norm/layer2": 21.67055892944336,
+      "max_norm/layer3": 25.07321548461914,
+      "mean_norm": 8.188907638192177,
+      "mean_norm/layer0": 8.458899140357971,
+      "mean_norm/layer1": 8.143711388111115,
+      "mean_norm/layer2": 7.863752484321594,
+      "mean_norm/layer3": 8.289267539978027,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 9000
+    },
+    {
+      "epoch": 0.45,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.4516255536417323,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.9,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2754778861999512,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.3576,
+      "eval_samples_per_second": 811.942,
+      "eval_steps_per_second": 1.586,
+      "eval_transition_accuracy": 0.5764516129032258,
+      "step": 9000
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.47,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2746,
+      "max_norm": 26.98938751220703,
+      "max_norm/layer0": 15.152251243591309,
+      "max_norm/layer1": 17.66726303100586,
+      "max_norm/layer2": 22.432802200317383,
+      "max_norm/layer3": 26.98938751220703,
+      "mean_norm": 8.197539746761322,
+      "mean_norm/layer0": 8.4593066573143,
+      "mean_norm/layer1": 8.148526132106781,
+      "mean_norm/layer2": 7.884801626205444,
+      "mean_norm/layer3": 8.297524571418762,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 9500
+    },
+    {
+      "epoch": 0.47,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.45229261503444884,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.9,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2736179828643799,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.4635,
+      "eval_samples_per_second": 809.817,
+      "eval_steps_per_second": 1.582,
+      "eval_transition_accuracy": 0.5864516129032258,
+      "step": 9500
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.5,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2734,
+      "max_norm": 28.549026489257812,
+      "max_norm/layer0": 15.429606437683105,
+      "max_norm/layer1": 17.9191837310791,
+      "max_norm/layer2": 23.421247482299805,
+      "max_norm/layer3": 28.549026489257812,
+      "mean_norm": 8.206039026379585,
+      "mean_norm/layer0": 8.459603905677795,
+      "mean_norm/layer1": 8.153472065925598,
+      "mean_norm/layer2": 7.905435502529144,
+      "mean_norm/layer3": 8.305644631385803,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 10000
+    },
+    {
+      "epoch": 0.5,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.4518793061023622,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.91,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2739558219909668,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.3957,
+      "eval_samples_per_second": 811.175,
+      "eval_steps_per_second": 1.584,
+      "eval_transition_accuracy": 0.5779032258064516,
+      "step": 10000
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.53,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2732,
+      "max_norm": 30.3062801361084,
+      "max_norm/layer0": 15.69118595123291,
+      "max_norm/layer1": 18.259578704833984,
+      "max_norm/layer2": 24.377281188964844,
+      "max_norm/layer3": 30.3062801361084,
+      "mean_norm": 8.214424923062325,
+      "mean_norm/layer0": 8.459942817687988,
+      "mean_norm/layer1": 8.156991243362427,
+      "mean_norm/layer2": 7.927173614501953,
+      "mean_norm/layer3": 8.31359201669693,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 10500
+    },
+    {
+      "epoch": 0.53,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.45159791961429624,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.89,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2743829488754272,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.5803,
+      "eval_samples_per_second": 807.485,
+      "eval_steps_per_second": 1.577,
+      "eval_transition_accuracy": 0.5879032258064516,
+      "step": 10500
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.55,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2723,
+      "max_norm": 31.752639770507812,
+      "max_norm/layer0": 16.03121566772461,
+      "max_norm/layer1": 18.51296043395996,
+      "max_norm/layer2": 25.478057861328125,
+      "max_norm/layer3": 31.752639770507812,
+      "mean_norm": 8.222758993506432,
+      "mean_norm/layer0": 8.460269570350647,
+      "mean_norm/layer1": 8.1603884100914,
+      "mean_norm/layer2": 7.949049711227417,
+      "mean_norm/layer3": 8.321328282356262,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 11000
+    },
+    {
+      "epoch": 0.55,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.45252594234436516,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.89,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.269043207168579,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.1138,
+      "eval_samples_per_second": 816.875,
+      "eval_steps_per_second": 1.595,
+      "eval_transition_accuracy": 0.5811290322580646,
+      "step": 11000
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.57,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2712,
+      "max_norm": 33.44036102294922,
+      "max_norm/layer0": 16.178028106689453,
+      "max_norm/layer1": 18.79450798034668,
+      "max_norm/layer2": 26.372129440307617,
+      "max_norm/layer3": 33.44036102294922,
+      "mean_norm": 8.230609133839607,
+      "mean_norm/layer0": 8.460545778274536,
+      "mean_norm/layer1": 8.163512825965881,
+      "mean_norm/layer2": 7.969985008239746,
+      "mean_norm/layer3": 8.328392922878265,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 11500
+    },
+    {
+      "epoch": 0.57,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.45260740265132876,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.93,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2705051898956299,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.2988,
+      "eval_samples_per_second": 813.126,
+      "eval_steps_per_second": 1.588,
+      "eval_transition_accuracy": 0.5779032258064516,
+      "step": 11500
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.6,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2716,
+      "max_norm": 35.007076263427734,
+      "max_norm/layer0": 16.497554779052734,
+      "max_norm/layer1": 18.986597061157227,
+      "max_norm/layer2": 27.318687438964844,
+      "max_norm/layer3": 35.007076263427734,
+      "mean_norm": 8.238363325595856,
+      "mean_norm/layer0": 8.460874915122986,
+      "mean_norm/layer1": 8.166603803634644,
+      "mean_norm/layer2": 7.990897297859192,
+      "mean_norm/layer3": 8.335077285766602,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 12000
+    },
+    {
+      "epoch": 0.6,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.4526636318897638,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.89,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2700704336166382,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.2954,
+      "eval_samples_per_second": 813.195,
+      "eval_steps_per_second": 1.588,
+      "eval_transition_accuracy": 0.5759677419354838,
+      "step": 12000
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.62,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2708,
+      "max_norm": 36.530174255371094,
+      "max_norm/layer0": 16.774707794189453,
+      "max_norm/layer1": 19.286115646362305,
+      "max_norm/layer2": 28.3411808013916,
+      "max_norm/layer3": 36.530174255371094,
+      "mean_norm": 8.246006086468697,
+      "mean_norm/layer0": 8.461170196533203,
+      "mean_norm/layer1": 8.169004082679749,
+      "mean_norm/layer2": 8.012158274650574,
+      "mean_norm/layer3": 8.341691792011261,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 12500
+    },
+    {
+      "epoch": 0.62,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.45218808632197344,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.95,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2715603113174438,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.6419,
+      "eval_samples_per_second": 806.261,
+      "eval_steps_per_second": 1.575,
+      "eval_transition_accuracy": 0.5485483870967742,
+      "step": 12500
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.65,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2705,
+      "max_norm": 38.14279556274414,
+      "max_norm/layer0": 16.91411590576172,
+      "max_norm/layer1": 19.68568229675293,
+      "max_norm/layer2": 29.167861938476562,
+      "max_norm/layer3": 38.14279556274414,
+      "mean_norm": 8.253673061728477,
+      "mean_norm/layer0": 8.461421430110931,
+      "mean_norm/layer1": 8.171639680862427,
+      "mean_norm/layer2": 8.033495247364044,
+      "mean_norm/layer3": 8.348135888576508,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 13000
+    },
+    {
+      "epoch": 0.65,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.4528599536325049,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.93,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2675950527191162,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.2422,
+      "eval_samples_per_second": 814.27,
+      "eval_steps_per_second": 1.59,
+      "eval_transition_accuracy": 0.5733870967741935,
+      "step": 13000
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.68,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2696,
+      "max_norm": 39.6273307800293,
+      "max_norm/layer0": 17.14823341369629,
+      "max_norm/layer1": 19.711994171142578,
+      "max_norm/layer2": 30.05324363708496,
+      "max_norm/layer3": 39.6273307800293,
+      "mean_norm": 8.261498123407364,
+      "mean_norm/layer0": 8.46165120601654,
+      "mean_norm/layer1": 8.17492812871933,
+      "mean_norm/layer2": 8.055188477039337,
+      "mean_norm/layer3": 8.354224681854248,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 13500
+    },
+    {
+      "epoch": 0.68,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.4518833911325049,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.91,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2716896533966064,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.327,
+      "eval_samples_per_second": 812.557,
+      "eval_steps_per_second": 1.587,
+      "eval_transition_accuracy": 0.5993548387096774,
+      "step": 13500
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.7,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2687,
+      "max_norm": 41.1092643737793,
+      "max_norm/layer0": 17.324541091918945,
+      "max_norm/layer1": 19.974578857421875,
+      "max_norm/layer2": 30.87788200378418,
+      "max_norm/layer3": 41.1092643737793,
+      "mean_norm": 8.26871033012867,
+      "mean_norm/layer0": 8.46183955669403,
+      "mean_norm/layer1": 8.177218735218048,
+      "mean_norm/layer2": 8.076003432273865,
+      "mean_norm/layer3": 8.359779596328735,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 14000
+    },
+    {
+      "epoch": 0.7,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.45239882581815943,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.9,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2687005996704102,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.5627,
+      "eval_samples_per_second": 807.837,
+      "eval_steps_per_second": 1.578,
+      "eval_transition_accuracy": 0.5756451612903226,
+      "step": 14000
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.72,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2685,
+      "max_norm": 42.766014099121094,
+      "max_norm/layer0": 17.42141342163086,
+      "max_norm/layer1": 20.071725845336914,
+      "max_norm/layer2": 31.913164138793945,
+      "max_norm/layer3": 42.766014099121094,
+      "mean_norm": 8.276251748204231,
+      "mean_norm/layer0": 8.46206510066986,
+      "mean_norm/layer1": 8.179498374462128,
+      "mean_norm/layer2": 8.097876787185669,
+      "mean_norm/layer3": 8.365566730499268,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 14500
+    },
+    {
+      "epoch": 0.72,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.45213714359313484,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.89,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2709327936172485,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.2398,
+      "eval_samples_per_second": 814.319,
+      "eval_steps_per_second": 1.59,
+      "eval_transition_accuracy": 0.612741935483871,
+      "step": 14500
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.75,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2685,
+      "max_norm": 44.61077117919922,
+      "max_norm/layer0": 17.665727615356445,
+      "max_norm/layer1": 20.15743637084961,
+      "max_norm/layer2": 32.966209411621094,
+      "max_norm/layer3": 44.61077117919922,
+      "mean_norm": 8.283790707588196,
+      "mean_norm/layer0": 8.462257981300354,
+      "mean_norm/layer1": 8.181303024291992,
+      "mean_norm/layer2": 8.120182931423187,
+      "mean_norm/layer3": 8.37141889333725,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 15000
+    },
+    {
+      "epoch": 0.75,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.4519187146284449,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.91,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2706036567687988,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 40.0952,
+      "eval_samples_per_second": 817.256,
+      "eval_steps_per_second": 1.596,
+      "eval_transition_accuracy": 0.587258064516129,
+      "step": 15000
+    },
+    {
+      "MSE": 0.0,
+      "MSE/layer0": 0.0,
+      "MSE/layer1": 0.0,
+      "MSE/layer2": 0.0,
+      "MSE/layer3": 0.0,
+      "dead_code_fraction": 1.0,
+      "dead_code_fraction/layer0": 1.0,
+      "dead_code_fraction/layer1": 1.0,
+      "dead_code_fraction/layer2": 1.0,
+      "dead_code_fraction/layer3": 1.0,
+      "epoch": 0.78,
+      "input_norm": 0.0,
+      "input_norm/layer0": 0.0,
+      "input_norm/layer1": 0.0,
+      "input_norm/layer2": 0.0,
+      "input_norm/layer3": 0.0,
+      "learning_rate": 0.001,
+      "loss": 1.2675,
+      "max_norm": 46.33829879760742,
+      "max_norm/layer0": 17.856664657592773,
+      "max_norm/layer1": 20.084186553955078,
+      "max_norm/layer2": 33.940242767333984,
+      "max_norm/layer3": 46.33829879760742,
+      "mean_norm": 8.291451185941696,
+      "mean_norm/layer0": 8.462452054023743,
+      "mean_norm/layer1": 8.18280303478241,
+      "mean_norm/layer2": 8.143204748630524,
+      "mean_norm/layer3": 8.377344906330109,
+      "multicode_k": 1,
+      "output_norm": 0.0,
+      "output_norm/layer0": 0.0,
+      "output_norm/layer1": 0.0,
+      "output_norm/layer2": 0.0,
+      "output_norm/layer3": 0.0,
+      "step": 15500
+    },
+    {
+      "epoch": 0.78,
+      "eval_MSE/layer0": 0.0,
+      "eval_MSE/layer1": 0.0,
+      "eval_MSE/layer2": 0.0,
+      "eval_MSE/layer3": 0.0,
+      "eval_accuracy": 0.45268790177472934,
+      "eval_dead_code_fraction/layer0": 1.0,
+      "eval_dead_code_fraction/layer1": 1.0,
+      "eval_dead_code_fraction/layer2": 1.0,
+      "eval_dead_code_fraction/layer3": 1.0,
+      "eval_first_transition_accuracy": 0.96,
+      "eval_input_norm/layer0": 0.0,
+      "eval_input_norm/layer1": 0.0,
+      "eval_input_norm/layer2": 0.0,
+      "eval_input_norm/layer3": 0.0,
+      "eval_loss": 1.2690919637680054,
+      "eval_multicode_k": 1,
+      "eval_output_norm/layer0": 0.0,
+      "eval_output_norm/layer1": 0.0,
+      "eval_output_norm/layer2": 0.0,
+      "eval_output_norm/layer3": 0.0,
+      "eval_runtime": 39.8501,
+      "eval_samples_per_second": 822.281,
+      "eval_steps_per_second": 1.606,
+      "eval_transition_accuracy": 0.6364516129032258,
+      "step": 15500
+    }
+  ],
+  "max_steps": 20000,
+  "num_train_epochs": 9223372036854775807,
+  "total_flos": 9712749772800000.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

Binary file (3.77 kB). View file

vocab.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"0":0,"1":1,"2":2,"3":3,"4":4,"5":5,"6":6,"7":7,"8":8,"9":9,"<\|endoftext\|>":10}