canrager
/

lm_sae

Model card Files Files and versions Community

canrager commited on 28 days ago

Commit

169f303

•

1 Parent(s): a39721c

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11/trainer_0/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11/trainer_1/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11/trainer_2/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11/trainer_3/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11/trainer_4/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11/trainer_5/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_0_step_0/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_0_step_154/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_0_step_1544/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_0_step_19531/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_0_step_29296/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_0_step_48/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_0_step_488/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_0_step_4882/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_0_step_9765/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_1_step_0/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_1_step_154/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_1_step_1544/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_1_step_19531/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_1_step_29296/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_1_step_48/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_1_step_488/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_1_step_4882/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_1_step_9765/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_2_step_0/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_2_step_154/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_2_step_1544/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_2_step_19531/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_2_step_29296/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_2_step_48/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_2_step_488/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_2_step_4882/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_2_step_9765/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_3_step_0/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_3_step_154/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_3_step_1544/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_3_step_19531/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_3_step_29296/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_3_step_48/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_3_step_488/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_3_step_4882/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_3_step_9765/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_4_step_0/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_4_step_154/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_4_step_1544/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_4_step_19531/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_4_step_29296/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_4_step_48/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_4_step_488/eval_results.json +1 -0
pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_4_step_4882/eval_results.json +1 -0

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11/trainer_0/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 21.1375, "l1_loss": 131.35, "l0": 20.0, "frac_variance_explained": 0.769921875, "cossim": 0.907421875, "l2_ratio": 0.909375, "relative_reconstruction_bias": 1.000390625, "loss_original": 2.3, "loss_reconstructed": 2.6859375, "loss_zero": 12.4125, "frac_recovered": 0.959765625, "frac_alive": 0.19366455078125, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11/trainer_1/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 19.2, "l1_loss": 195.5, "l0": 40.0, "frac_variance_explained": 0.821484375, "cossim": 0.922265625, "l2_ratio": 0.9234375, "relative_reconstruction_bias": 1.00234375, "loss_original": 2.3, "loss_reconstructed": 2.5671875, "loss_zero": 12.4125, "frac_recovered": 0.971484375, "frac_alive": 0.31732177734375, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11/trainer_2/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 18.4875, "l1_loss": 167.8, "l0": 80.0, "frac_variance_explained": 0.744140625, "cossim": 0.927734375, "l2_ratio": 0.9265625, "relative_reconstruction_bias": 0.9984375, "loss_original": 2.3, "loss_reconstructed": 2.4828125, "loss_zero": 12.4125, "frac_recovered": 0.980859375, "frac_alive": 0.46820068359375, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11/trainer_3/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 16.7875, "l1_loss": 246.9, "l0": 160.0, "frac_variance_explained": 0.79296875, "cossim": 0.94140625, "l2_ratio": 0.9421875, "relative_reconstruction_bias": 1.00234375, "loss_original": 2.3, "loss_reconstructed": 2.4359375, "loss_zero": 12.4125, "frac_recovered": 0.984765625, "frac_alive": 0.628173828125, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11/trainer_4/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 14.79375, "l1_loss": 486.2, "l0": 320.0, "frac_variance_explained": 0.887109375, "cossim": 0.95625, "l2_ratio": 0.957421875, "relative_reconstruction_bias": 1.0015625, "loss_original": 2.3, "loss_reconstructed": 2.390625, "loss_zero": 12.4125, "frac_recovered": 0.98828125, "frac_alive": 0.75830078125, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11/trainer_5/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 12.1875, "l1_loss": 757.6, "l0": 640.0, "frac_variance_explained": 0.9, "cossim": 0.9703125, "l2_ratio": 0.969140625, "relative_reconstruction_bias": 1.0015625, "loss_original": 2.3, "loss_reconstructed": 2.35, "loss_zero": 12.4125, "frac_recovered": 0.992578125, "frac_alive": 0.59039306640625, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_0_step_0/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 68.45, "l1_loss": 53.0, "l0": 20.0, "frac_variance_explained": 0.05703125, "cossim": 0.2986328125, "l2_ratio": 0.19013671875, "relative_reconstruction_bias": 0.626171875, "loss_original": 2.3, "loss_reconstructed": 11.96875, "loss_zero": 12.4125, "frac_recovered": 0.043798828125, "frac_alive": 0.11407470703125, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_0_step_154/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 40.9625, "l1_loss": 168.6, "l0": 20.0, "frac_variance_explained": 0.495703125, "cossim": 0.789453125, "l2_ratio": 0.833984375, "relative_reconstruction_bias": 0.93984375, "loss_original": 2.3, "loss_reconstructed": 4.746875, "loss_zero": 12.4125, "frac_recovered": 0.75703125, "frac_alive": 0.1495361328125, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_0_step_1544/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 23.1, "l1_loss": 84.2, "l0": 20.0, "frac_variance_explained": 0.60234375, "cossim": 0.884765625, "l2_ratio": 0.887890625, "relative_reconstruction_bias": 1.002734375, "loss_original": 2.3, "loss_reconstructed": 2.8765625, "loss_zero": 12.4125, "frac_recovered": 0.9421875, "frac_alive": 0.18695068359375, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_0_step_19531/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 21.5625, "l1_loss": 85.55, "l0": 20.0, "frac_variance_explained": 0.6609375, "cossim": 0.90078125, "l2_ratio": 0.904296875, "relative_reconstruction_bias": 1.003125, "loss_original": 2.3, "loss_reconstructed": 2.721875, "loss_zero": 12.4125, "frac_recovered": 0.95703125, "frac_alive": 0.19183349609375, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_0_step_29296/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 21.35, "l1_loss": 132.0, "l0": 20.0, "frac_variance_explained": 0.76640625, "cossim": 0.9046875, "l2_ratio": 0.905859375, "relative_reconstruction_bias": 1.002734375, "loss_original": 2.3, "loss_reconstructed": 2.6984375, "loss_zero": 12.4125, "frac_recovered": 0.959375, "frac_alive": 0.19061279296875, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_0_step_48/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 39.3625, "l1_loss": 64.325, "l0": 20.0, "frac_variance_explained": 0.176953125, "cossim": 0.7515625, "l2_ratio": 0.757421875, "relative_reconstruction_bias": 0.9359375, "loss_original": 2.3, "loss_reconstructed": 7.221875, "loss_zero": 12.4125, "frac_recovered": 0.5134765625, "frac_alive": 0.1993408203125, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_0_step_488/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 25.9375, "l1_loss": 81.7, "l0": 20.0, "frac_variance_explained": 0.5171875, "cossim": 0.860546875, "l2_ratio": 0.860546875, "relative_reconstruction_bias": 1.001171875, "loss_original": 2.3, "loss_reconstructed": 3.19375, "loss_zero": 12.4125, "frac_recovered": 0.91015625, "frac_alive": 0.17303466796875, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_0_step_4882/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 21.7125, "l1_loss": 86.1, "l0": 20.0, "frac_variance_explained": 0.646875, "cossim": 0.90078125, "l2_ratio": 0.89921875, "relative_reconstruction_bias": 0.99609375, "loss_original": 2.3, "loss_reconstructed": 2.7765625, "loss_zero": 12.4125, "frac_recovered": 0.95234375, "frac_alive": 0.1864013671875, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_0_step_9765/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 21.6375, "l1_loss": 124.2, "l0": 20.0, "frac_variance_explained": 0.715625, "cossim": 0.901171875, "l2_ratio": 0.90390625, "relative_reconstruction_bias": 1.001171875, "loss_original": 2.3, "loss_reconstructed": 2.7453125, "loss_zero": 12.4125, "frac_recovered": 0.9546875, "frac_alive": 0.18743896484375, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_1_step_0/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 60.9, "l1_loss": 94.5, "l0": 40.0, "frac_variance_explained": 0.10078125, "cossim": 0.3873046875, "l2_ratio": 0.2634765625, "relative_reconstruction_bias": 0.675390625, "loss_original": 2.3, "loss_reconstructed": 11.30625, "loss_zero": 12.4125, "frac_recovered": 0.109130859375, "frac_alive": 0.18304443359375, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_1_step_154/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 31.875, "l1_loss": 193.75, "l0": 40.0, "frac_variance_explained": 0.483203125, "cossim": 0.818359375, "l2_ratio": 0.856640625, "relative_reconstruction_bias": 1.042578125, "loss_original": 2.3, "loss_reconstructed": 4.0953125, "loss_zero": 12.4125, "frac_recovered": 0.82265625, "frac_alive": 0.3134765625, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_1_step_1544/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 20.7125, "l1_loss": 262.8, "l0": 40.0, "frac_variance_explained": 0.74375, "cossim": 0.91171875, "l2_ratio": 0.9125, "relative_reconstruction_bias": 1.0, "loss_original": 2.3, "loss_reconstructed": 2.69375, "loss_zero": 12.4125, "frac_recovered": 0.961328125, "frac_alive": 0.32391357421875, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_1_step_19531/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 20.3625, "l1_loss": 167.95, "l0": 40.0, "frac_variance_explained": 0.760546875, "cossim": 0.915625, "l2_ratio": 0.9171875, "relative_reconstruction_bias": 1.003125, "loss_original": 2.3, "loss_reconstructed": 2.5828125, "loss_zero": 12.4125, "frac_recovered": 0.971484375, "frac_alive": 0.322021484375, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_1_step_29296/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 19.675, "l1_loss": 117.0, "l0": 40.0, "frac_variance_explained": 0.71171875, "cossim": 0.9203125, "l2_ratio": 0.9203125, "relative_reconstruction_bias": 1.0, "loss_original": 2.3, "loss_reconstructed": 2.5765625, "loss_zero": 12.4125, "frac_recovered": 0.971484375, "frac_alive": 0.308837890625, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_1_step_48/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 47.8625, "l1_loss": 151.25, "l0": 40.0, "frac_variance_explained": 0.289453125, "cossim": 0.7703125, "l2_ratio": 0.771484375, "relative_reconstruction_bias": 0.8107421875, "loss_original": 2.3, "loss_reconstructed": 5.828125, "loss_zero": 12.4125, "frac_recovered": 0.65078125, "frac_alive": 0.38104248046875, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_1_step_488/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 23.4, "l1_loss": 109.6, "l0": 40.0, "frac_variance_explained": 0.58671875, "cossim": 0.885546875, "l2_ratio": 0.889453125, "relative_reconstruction_bias": 1.004296875, "loss_original": 2.3, "loss_reconstructed": 2.909375, "loss_zero": 12.4125, "frac_recovered": 0.939453125, "frac_alive": 0.32025146484375, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_1_step_4882/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 20.4, "l1_loss": 186.05, "l0": 40.0, "frac_variance_explained": 0.75703125, "cossim": 0.9140625, "l2_ratio": 0.9140625, "relative_reconstruction_bias": 1.001171875, "loss_original": 2.3, "loss_reconstructed": 2.6140625, "loss_zero": 12.4125, "frac_recovered": 0.967578125, "frac_alive": 0.31817626953125, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_1_step_9765/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 19.425, "l1_loss": 148.65, "l0": 40.0, "frac_variance_explained": 0.748828125, "cossim": 0.92109375, "l2_ratio": 0.920703125, "relative_reconstruction_bias": 1.0, "loss_original": 2.3, "loss_reconstructed": 2.6, "loss_zero": 12.4125, "frac_recovered": 0.96953125, "frac_alive": 0.324951171875, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_2_step_0/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 45.175, "l1_loss": 147.3, "l0": 80.0, "frac_variance_explained": 0.17578125, "cossim": 0.4873046875, "l2_ratio": 0.36953125, "relative_reconstruction_bias": 0.75859375, "loss_original": 2.3, "loss_reconstructed": 10.9375, "loss_zero": 12.4125, "frac_recovered": 0.14580078125, "frac_alive": 0.28033447265625, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_2_step_154/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 27.075, "l1_loss": 224.4, "l0": 80.0, "frac_variance_explained": 0.5328125, "cossim": 0.85390625, "l2_ratio": 0.863671875, "relative_reconstruction_bias": 1.0109375, "loss_original": 2.3, "loss_reconstructed": 3.3921875, "loss_zero": 12.4125, "frac_recovered": 0.890625, "frac_alive": 0.60479736328125, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_2_step_1544/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 19.8125, "l1_loss": 268.7, "l0": 80.0, "frac_variance_explained": 0.773828125, "cossim": 0.91875, "l2_ratio": 0.91875, "relative_reconstruction_bias": 1.00078125, "loss_original": 2.3, "loss_reconstructed": 2.584375, "loss_zero": 12.4125, "frac_recovered": 0.971484375, "frac_alive": 0.51849365234375, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_2_step_19531/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 18.55, "l1_loss": 168.1, "l0": 80.0, "frac_variance_explained": 0.74609375, "cossim": 0.92890625, "l2_ratio": 0.93046875, "relative_reconstruction_bias": 1.003125, "loss_original": 2.3, "loss_reconstructed": 2.5015625, "loss_zero": 12.4125, "frac_recovered": 0.97890625, "frac_alive": 0.46893310546875, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_2_step_29296/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 18.175, "l1_loss": 249.8, "l0": 80.0, "frac_variance_explained": 0.83359375, "cossim": 0.93203125, "l2_ratio": 0.931640625, "relative_reconstruction_bias": 1.00078125, "loss_original": 2.3, "loss_reconstructed": 2.49375, "loss_zero": 12.4125, "frac_recovered": 0.9796875, "frac_alive": 0.4757080078125, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_2_step_48/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 29.6125, "l1_loss": 149.6, "l0": 80.0, "frac_variance_explained": 0.35546875, "cossim": 0.811328125, "l2_ratio": 0.817578125, "relative_reconstruction_bias": 1.0015625, "loss_original": 2.3, "loss_reconstructed": 4.328125, "loss_zero": 12.4125, "frac_recovered": 0.798046875, "frac_alive": 0.63909912109375, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_2_step_488/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 21.85, "l1_loss": 156.4, "l0": 80.0, "frac_variance_explained": 0.637109375, "cossim": 0.900390625, "l2_ratio": 0.902734375, "relative_reconstruction_bias": 1.003125, "loss_original": 2.3, "loss_reconstructed": 2.7703125, "loss_zero": 12.4125, "frac_recovered": 0.952734375, "frac_alive": 0.5589599609375, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_2_step_4882/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 18.95, "l1_loss": 208.3, "l0": 80.0, "frac_variance_explained": 0.753125, "cossim": 0.927734375, "l2_ratio": 0.926953125, "relative_reconstruction_bias": 1.0015625, "loss_original": 2.3, "loss_reconstructed": 2.521875, "loss_zero": 12.4125, "frac_recovered": 0.976953125, "frac_alive": 0.46966552734375, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_2_step_9765/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 18.6625, "l1_loss": 164.6, "l0": 80.0, "frac_variance_explained": 0.740625, "cossim": 0.926953125, "l2_ratio": 0.92734375, "relative_reconstruction_bias": 1.000390625, "loss_original": 2.3, "loss_reconstructed": 2.5109375, "loss_zero": 12.4125, "frac_recovered": 0.978125, "frac_alive": 0.4600830078125, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_3_step_0/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 47.425, "l1_loss": 302.2, "l0": 160.0, "frac_variance_explained": 0.251171875, "cossim": 0.588671875, "l2_ratio": 0.52421875, "relative_reconstruction_bias": 0.88515625, "loss_original": 2.3, "loss_reconstructed": 8.775, "loss_zero": 12.4125, "frac_recovered": 0.3591796875, "frac_alive": 0.3839111328125, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_3_step_154/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 23.975, "l1_loss": 231.5, "l0": 160.0, "frac_variance_explained": 0.56953125, "cossim": 0.880078125, "l2_ratio": 0.884375, "relative_reconstruction_bias": 1.00546875, "loss_original": 2.3, "loss_reconstructed": 2.9640625, "loss_zero": 12.4125, "frac_recovered": 0.93359375, "frac_alive": 0.87225341796875, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_3_step_1544/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 18.9125, "l1_loss": 382.6, "l0": 160.0, "frac_variance_explained": 0.758984375, "cossim": 0.92578125, "l2_ratio": 0.925390625, "relative_reconstruction_bias": 1.000390625, "loss_original": 2.3, "loss_reconstructed": 2.5203125, "loss_zero": 12.4125, "frac_recovered": 0.977734375, "frac_alive": 0.77105712890625, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_3_step_19531/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 16.6, "l1_loss": 237.4, "l0": 160.0, "frac_variance_explained": 0.788671875, "cossim": 0.942578125, "l2_ratio": 0.944140625, "relative_reconstruction_bias": 1.00390625, "loss_original": 2.3, "loss_reconstructed": 2.4484375, "loss_zero": 12.4125, "frac_recovered": 0.983984375, "frac_alive": 0.6077880859375, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_3_step_29296/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 16.7875, "l1_loss": 276.6, "l0": 159.99583435058594, "frac_variance_explained": 0.816015625, "cossim": 0.9421875, "l2_ratio": 0.94375, "relative_reconstruction_bias": 1.0015625, "loss_original": 2.3, "loss_reconstructed": 2.44375, "loss_zero": 12.4125, "frac_recovered": 0.984765625, "frac_alive": 0.635009765625, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_3_step_48/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 27.2, "l1_loss": 238.9, "l0": 160.0, "frac_variance_explained": 0.4703125, "cossim": 0.844921875, "l2_ratio": 0.85234375, "relative_reconstruction_bias": 1.00546875, "loss_original": 2.3, "loss_reconstructed": 3.4765625, "loss_zero": 12.4125, "frac_recovered": 0.88203125, "frac_alive": 0.87200927734375, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_3_step_488/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 22.025, "l1_loss": 487.5, "l0": 160.0, "frac_variance_explained": 0.76640625, "cossim": 0.90703125, "l2_ratio": 0.911328125, "relative_reconstruction_bias": 1.003125, "loss_original": 2.3, "loss_reconstructed": 2.665625, "loss_zero": 12.4125, "frac_recovered": 0.963671875, "frac_alive": 0.84619140625, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_3_step_4882/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 17.575, "l1_loss": 410.5, "l0": 159.97916717529296, "frac_variance_explained": 0.821484375, "cossim": 0.93828125, "l2_ratio": 0.9375, "relative_reconstruction_bias": 1.000390625, "loss_original": 2.3, "loss_reconstructed": 2.465625, "loss_zero": 12.4125, "frac_recovered": 0.982421875, "frac_alive": 0.6915283203125, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_3_step_9765/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 17.31875, "l1_loss": 458.8, "l0": 160.0, "frac_variance_explained": 0.867578125, "cossim": 0.9390625, "l2_ratio": 0.941015625, "relative_reconstruction_bias": 1.000390625, "loss_original": 2.3, "loss_reconstructed": 2.45625, "loss_zero": 12.4125, "frac_recovered": 0.983984375, "frac_alive": 0.66497802734375, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_4_step_0/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 37.325, "l1_loss": 495.8, "l0": 320.0, "frac_variance_explained": 0.310546875, "cossim": 0.685546875, "l2_ratio": 0.757421875, "relative_reconstruction_bias": 1.10546875, "loss_original": 2.3, "loss_reconstructed": 6.1, "loss_zero": 12.4125, "frac_recovered": 0.6234375, "frac_alive": 0.53265380859375, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_4_step_154/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 21.625, "l1_loss": 564.8, "l0": 320.0, "frac_variance_explained": 0.734765625, "cossim": 0.9078125, "l2_ratio": 0.910546875, "relative_reconstruction_bias": 1.001953125, "loss_original": 2.3, "loss_reconstructed": 2.671875, "loss_zero": 12.4125, "frac_recovered": 0.96171875, "frac_alive": 0.985595703125, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_4_step_1544/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 17.26875, "l1_loss": 323.4, "l0": 320.0, "frac_variance_explained": 0.776953125, "cossim": 0.93828125, "l2_ratio": 0.93984375, "relative_reconstruction_bias": 1.00234375, "loss_original": 2.3, "loss_reconstructed": 2.4578125, "loss_zero": 12.4125, "frac_recovered": 0.983203125, "frac_alive": 0.94976806640625, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_4_step_19531/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 14.88125, "l1_loss": 496.4, "l0": 320.0, "frac_variance_explained": 0.865625, "cossim": 0.9546875, "l2_ratio": 0.95625, "relative_reconstruction_bias": 1.0015625, "loss_original": 2.3, "loss_reconstructed": 2.396875, "loss_zero": 12.4125, "frac_recovered": 0.98828125, "frac_alive": 0.7767333984375, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_4_step_29296/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 15.225, "l1_loss": 451.0, "l0": 319.99583435058594, "frac_variance_explained": 0.860546875, "cossim": 0.953515625, "l2_ratio": 0.95390625, "relative_reconstruction_bias": 1.0, "loss_original": 2.3, "loss_reconstructed": 2.3953125, "loss_zero": 12.4125, "frac_recovered": 0.98828125, "frac_alive": 0.75531005859375, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_4_step_48/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 25.475, "l1_loss": 598.6, "l0": 320.0, "frac_variance_explained": 0.668359375, "cossim": 0.88203125, "l2_ratio": 0.889453125, "relative_reconstruction_bias": 1.0109375, "loss_original": 2.3, "loss_reconstructed": 2.925, "loss_zero": 12.4125, "frac_recovered": 0.93828125, "frac_alive": 0.9815673828125, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_4_step_488/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 19.375, "l1_loss": 540.4, "l0": 320.0, "frac_variance_explained": 0.776171875, "cossim": 0.92421875, "l2_ratio": 0.926953125, "relative_reconstruction_bias": 1.001953125, "loss_original": 2.3, "loss_reconstructed": 2.5546875, "loss_zero": 12.4125, "frac_recovered": 0.97421875, "frac_alive": 0.97955322265625, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

pythia1.4b_sweep_topk_ctx128_0913/resid_post_layer_11_checkpoints/trainer_4_step_4882/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"l2_loss": 15.58125, "l1_loss": 655.4, "l0": 320.0, "frac_variance_explained": 0.908203125, "cossim": 0.95, "l2_ratio": 0.951953125, "relative_reconstruction_bias": 1.003125, "loss_original": 2.3, "loss_reconstructed": 2.4140625, "loss_zero": 12.4125, "frac_recovered": 0.9875, "frac_alive": 0.897705078125, "hyperparameters": {"n_inputs": 250, "context_length": 128}}