canrager
/

lm_sae

Model card Files Files and versions Community

canrager commited on Aug 28

Commit

9e9510b

•

1 Parent(s): c15f1b5

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_0/ae.pt +3 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_0/config.json +26 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_0/eval_results.json +1 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_1/ae.pt +3 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_1/config.json +26 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_1/eval_results.json +1 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_2/ae.pt +3 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_2/config.json +26 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_2/eval_results.json +1 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_3/ae.pt +3 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_3/config.json +26 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_3/eval_results.json +1 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_4/ae.pt +3 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_4/config.json +26 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_4/eval_results.json +1 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_5/ae.pt +3 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_5/config.json +26 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_5/eval_results.json +1 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_0/ae.pt +3 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_0/config.json +27 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_0/eval_results.json +1 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_19528/ae.pt +3 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_19528/config.json +27 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_19528/eval_results.json +1 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_29292/ae.pt +3 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_29292/config.json +27 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_29292/eval_results.json +1 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_4882/ae.pt +3 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_4882/config.json +27 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_4882/eval_results.json +1 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_9764/ae.pt +3 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_9764/config.json +27 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_9764/eval_results.json +1 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_0/ae.pt +3 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_0/config.json +27 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_0/eval_results.json +1 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_19528/ae.pt +3 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_19528/config.json +27 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_19528/eval_results.json +1 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_29292/ae.pt +3 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_29292/config.json +27 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_29292/eval_results.json +1 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_4882/ae.pt +3 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_4882/config.json +27 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_4882/eval_results.json +1 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_9764/ae.pt +3 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_9764/config.json +27 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_9764/eval_results.json +1 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_2_step_0/ae.pt +3 -0
gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_2_step_0/config.json +27 -0

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_0/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f07e60a6572837b4a0cdb07896306bdba27ece418e0460a90de44dec443d5f2d
+size 339823400

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_0/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+ "trainer": {
+ "dict_class": "AutoEncoder",
+ "trainer_class": "StandardTrainer",
+ "activation_dim": 2304,
+ "dict_size": 18432,
+ "lr": 0.0003,
+ "l1_penalty": 0.025,
+ "warmup_steps": 1000,
+ "resample_steps": null,
+ "device": "cuda:0",
+ "layer": 11,
+ "lm_name": "google/gemma-2-2b",
+ "wandb_name": "StandardTrainer-google/gemma-2-2b-resid_post_layer_11",
+ "submodule_name": "resid_post_layer_11"
+ },
+ "buffer": {
+ "d_submodule": 2304,
+ "io": "out",
+ "n_ctxs": 2000,
+ "ctx_len": 128,
+ "refresh_batch_size": 24,
+ "out_batch_size": 4096,
+ "device": "cuda:0"
+ }
+}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_0/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"l2_loss": 44.21599082946777, "l1_loss": 689.0535034179687, "l0": 653.0125183105469, "frac_variance_explained": 0.876203840970993, "cossim": 0.9503044188022614, "l2_ratio": 0.9132377088069916, "relative_reconstruction_bias": 0.9689015865325927, "loss_original": 2.4489264488220215, "loss_reconstructed": 2.516097593307495, "loss_zero": 12.452933025360107, "frac_recovered": 0.9933268785476684, "frac_alive": 0.722276508808136, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_1/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29e5e54af2527baf5c2e5f289f93d6efa2852902ecd843743bb3b6816ca51895
+size 339823400

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_1/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+ "trainer": {
+ "dict_class": "AutoEncoder",
+ "trainer_class": "StandardTrainer",
+ "activation_dim": 2304,
+ "dict_size": 18432,
+ "lr": 0.0003,
+ "l1_penalty": 0.035,
+ "warmup_steps": 1000,
+ "resample_steps": null,
+ "device": "cuda:0",
+ "layer": 11,
+ "lm_name": "google/gemma-2-2b",
+ "wandb_name": "StandardTrainer-google/gemma-2-2b-resid_post_layer_11",
+ "submodule_name": "resid_post_layer_11"
+ },
+ "buffer": {
+ "d_submodule": 2304,
+ "io": "out",
+ "n_ctxs": 2000,
+ "ctx_len": 128,
+ "refresh_batch_size": 24,
+ "out_batch_size": 4096,
+ "device": "cuda:0"
+ }
+}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_1/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"l2_loss": 54.783888244628905, "l1_loss": 430.45958251953124, "l0": 216.9250061035156, "frac_variance_explained": 0.821322637796402, "cossim": 0.9228447735309601, "l2_ratio": 0.8802441656589508, "relative_reconstruction_bias": 0.9668310403823852, "loss_original": 2.4489264488220215, "loss_reconstructed": 2.602967619895935, "loss_zero": 12.452933025360107, "frac_recovered": 0.9846588850021363, "frac_alive": 0.4129774272441864, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_2/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd719f77d241c3ea711d59e23750c8c92065b395e9d18fc093f16e8ad1e510e2
+size 339823400

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_2/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+ "trainer": {
+ "dict_class": "AutoEncoder",
+ "trainer_class": "StandardTrainer",
+ "activation_dim": 2304,
+ "dict_size": 18432,
+ "lr": 0.0003,
+ "l1_penalty": 0.04,
+ "warmup_steps": 1000,
+ "resample_steps": null,
+ "device": "cuda:0",
+ "layer": 11,
+ "lm_name": "google/gemma-2-2b",
+ "wandb_name": "StandardTrainer-google/gemma-2-2b-resid_post_layer_11",
+ "submodule_name": "resid_post_layer_11"
+ },
+ "buffer": {
+ "d_submodule": 2304,
+ "io": "out",
+ "n_ctxs": 2000,
+ "ctx_len": 128,
+ "refresh_batch_size": 24,
+ "out_batch_size": 4096,
+ "device": "cuda:0"
+ }
+}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_2/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"l2_loss": 60.528709411621094, "l1_loss": 360.99082946777344, "l0": 142.25417404174806, "frac_variance_explained": 0.7947052717208862, "cossim": 0.9053027153015136, "l2_ratio": 0.855720329284668, "relative_reconstruction_bias": 0.9635509788990021, "loss_original": 2.4489264488220215, "loss_reconstructed": 2.675975728034973, "loss_zero": 12.452933025360107, "frac_recovered": 0.9773781895637512, "frac_alive": 0.28173828125, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_3/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4abf3cf629fcac10584c3dc1b7e9c96d747bca836cac532604b32a6fa6947ead
+size 339823400

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_3/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+ "trainer": {
+ "dict_class": "AutoEncoder",
+ "trainer_class": "StandardTrainer",
+ "activation_dim": 2304,
+ "dict_size": 18432,
+ "lr": 0.0003,
+ "l1_penalty": 0.05,
+ "warmup_steps": 1000,
+ "resample_steps": null,
+ "device": "cuda:0",
+ "layer": 11,
+ "lm_name": "google/gemma-2-2b",
+ "wandb_name": "StandardTrainer-google/gemma-2-2b-resid_post_layer_11",
+ "submodule_name": "resid_post_layer_11"
+ },
+ "buffer": {
+ "d_submodule": 2304,
+ "io": "out",
+ "n_ctxs": 2000,
+ "ctx_len": 128,
+ "refresh_batch_size": 24,
+ "out_batch_size": 4096,
+ "device": "cuda:0"
+ }
+}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_3/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"l2_loss": 69.19085235595703, "l1_loss": 260.5812042236328, "l0": 68.32500228881835, "frac_variance_explained": 0.6767194271087646, "cossim": 0.8739384233951568, "l2_ratio": 0.8242608070373535, "relative_reconstruction_bias": 0.9541641473770142, "loss_original": 2.4489264488220215, "loss_reconstructed": 2.999904203414917, "loss_zero": 12.452933025360107, "frac_recovered": 0.9450006365776062, "frac_alive": 0.1184895858168602, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_4/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a092855acf1ea9d81aaf427f34a87b6800ad5a1d7d9802f46e1a22bb10b6475
+size 339823400

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_4/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+ "trainer": {
+ "dict_class": "AutoEncoder",
+ "trainer_class": "StandardTrainer",
+ "activation_dim": 2304,
+ "dict_size": 18432,
+ "lr": 0.0003,
+ "l1_penalty": 0.06,
+ "warmup_steps": 1000,
+ "resample_steps": null,
+ "device": "cuda:0",
+ "layer": 11,
+ "lm_name": "google/gemma-2-2b",
+ "wandb_name": "StandardTrainer-google/gemma-2-2b-resid_post_layer_11",
+ "submodule_name": "resid_post_layer_11"
+ },
+ "buffer": {
+ "d_submodule": 2304,
+ "io": "out",
+ "n_ctxs": 2000,
+ "ctx_len": 128,
+ "refresh_batch_size": 24,
+ "out_batch_size": 4096,
+ "device": "cuda:0"
+ }
+}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_4/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"l2_loss": 77.07271423339844, "l1_loss": 209.26783905029296, "l0": 35.49583435058594, "frac_variance_explained": 0.673879736661911, "cossim": 0.8379469156265259, "l2_ratio": 0.7764925301074982, "relative_reconstruction_bias": 0.9512474119663239, "loss_original": 2.4489264488220215, "loss_reconstructed": 3.923832106590271, "loss_zero": 12.452933025360107, "frac_recovered": 0.8525889277458191, "frac_alive": 0.0455729179084301, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_5/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27e91f8ed1189ba35845febd3a89950cdacefdd1f29637471386b543b12acf49
+size 339823400

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_5/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+ "trainer": {
+ "dict_class": "AutoEncoder",
+ "trainer_class": "StandardTrainer",
+ "activation_dim": 2304,
+ "dict_size": 18432,
+ "lr": 0.0003,
+ "l1_penalty": 0.07,
+ "warmup_steps": 1000,
+ "resample_steps": null,
+ "device": "cuda:0",
+ "layer": 11,
+ "lm_name": "google/gemma-2-2b",
+ "wandb_name": "StandardTrainer-google/gemma-2-2b-resid_post_layer_11",
+ "submodule_name": "resid_post_layer_11"
+ },
+ "buffer": {
+ "d_submodule": 2304,
+ "io": "out",
+ "n_ctxs": 2000,
+ "ctx_len": 128,
+ "refresh_batch_size": 24,
+ "out_batch_size": 4096,
+ "device": "cuda:0"
+ }
+}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11/trainer_5/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"l2_loss": 85.48247909545898, "l1_loss": 188.83019409179687, "l0": 20.800000953674317, "frac_variance_explained": 0.6401739776134491, "cossim": 0.7948622822761535, "l2_ratio": 0.7354530394077301, "relative_reconstruction_bias": 0.9544944584369659, "loss_original": 2.4489264488220215, "loss_reconstructed": 4.871973085403442, "loss_zero": 12.452933025360107, "frac_recovered": 0.757849270105362, "frac_alive": 0.0176866315305233, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_0/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45b8cc77115534d114d1a5fddfbc0ad30635744f12e82ebf19a50910aea4cb1e
+size 339823416

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_0/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+ "trainer": {
+ "dict_class": "AutoEncoder",
+ "trainer_class": "StandardTrainer",
+ "activation_dim": 2304,
+ "dict_size": 18432,
+ "lr": 0.0003,
+ "l1_penalty": 0.025,
+ "warmup_steps": 1000,
+ "resample_steps": null,
+ "device": "cuda:0",
+ "layer": 11,
+ "lm_name": "google/gemma-2-2b",
+ "wandb_name": "StandardTrainer-google/gemma-2-2b-resid_post_layer_11",
+ "submodule_name": "resid_post_layer_11",
+ "steps": "0"
+ },
+ "buffer": {
+ "d_submodule": 2304,
+ "io": "out",
+ "n_ctxs": 2000,
+ "ctx_len": 128,
+ "refresh_batch_size": 24,
+ "out_batch_size": 4096,
+ "device": "cuda:0"
+ }
+}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_0/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"l2_loss": 262.5618362426758, "l1_loss": 15419.97216796875, "l0": 9220.8796875, "frac_variance_explained": -1.1251216292381288, "cossim": 0.0072056266712024804, "l2_ratio": 1.1523211359977723, "relative_reconstruction_bias": -3121.6480613708495, "loss_original": 2.4489264488220215, "loss_reconstructed": 20.26519641876221, "loss_zero": 12.452933025360107, "frac_recovered": -0.7811744093894959, "frac_alive": 1.0, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_19528/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4b2d2619f12a6e2a704e178c17f91f12ea02594c140b939417e3d918c6d9d3a
+size 339823704

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_19528/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+ "trainer": {
+ "dict_class": "AutoEncoder",
+ "trainer_class": "StandardTrainer",
+ "activation_dim": 2304,
+ "dict_size": 18432,
+ "lr": 0.0003,
+ "l1_penalty": 0.025,
+ "warmup_steps": 1000,
+ "resample_steps": null,
+ "device": "cuda:0",
+ "layer": 11,
+ "lm_name": "google/gemma-2-2b",
+ "wandb_name": "StandardTrainer-google/gemma-2-2b-resid_post_layer_11",
+ "submodule_name": "resid_post_layer_11",
+ "steps": "19528"
+ },
+ "buffer": {
+ "d_submodule": 2304,
+ "io": "out",
+ "n_ctxs": 2000,
+ "ctx_len": 128,
+ "refresh_batch_size": 24,
+ "out_batch_size": 4096,
+ "device": "cuda:0"
+ }
+}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_19528/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"l2_loss": 44.36017074584961, "l1_loss": 678.7422302246093, "l0": 664.40419921875, "frac_variance_explained": 0.8578554630279541, "cossim": 0.9489532053470612, "l2_ratio": 0.9064467251300812, "relative_reconstruction_bias": 0.962804764509201, "loss_original": 2.4489264488220215, "loss_reconstructed": 2.5181885957717896, "loss_zero": 12.452933025360107, "frac_recovered": 0.9931147575378418, "frac_alive": 0.7009006142616272, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_29292/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff706cfe33a97a1d38c76137b9afb8ec8a6a71fb0dcbd11bf6a7964da3f17a6b
+size 339823704

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_29292/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+ "trainer": {
+ "dict_class": "AutoEncoder",
+ "trainer_class": "StandardTrainer",
+ "activation_dim": 2304,
+ "dict_size": 18432,
+ "lr": 0.0003,
+ "l1_penalty": 0.025,
+ "warmup_steps": 1000,
+ "resample_steps": null,
+ "device": "cuda:0",
+ "layer": 11,
+ "lm_name": "google/gemma-2-2b",
+ "wandb_name": "StandardTrainer-google/gemma-2-2b-resid_post_layer_11",
+ "submodule_name": "resid_post_layer_11",
+ "steps": "29292"
+ },
+ "buffer": {
+ "d_submodule": 2304,
+ "io": "out",
+ "n_ctxs": 2000,
+ "ctx_len": 128,
+ "refresh_batch_size": 24,
+ "out_batch_size": 4096,
+ "device": "cuda:0"
+ }
+}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_29292/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"l2_loss": 45.5604850769043, "l1_loss": 697.0533264160156, "l0": 648.0208557128906, "frac_variance_explained": 0.8660320043563843, "cossim": 0.9488271653652192, "l2_ratio": 0.9062425673007966, "relative_reconstruction_bias": 0.9621650040149688, "loss_original": 2.4489264488220215, "loss_reconstructed": 2.5167696475982666, "loss_zero": 12.452933025360107, "frac_recovered": 0.9932600975036621, "frac_alive": 0.7202690839767456, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_4882/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:280470d324fe6abcb4007f3e211f540a134ac6652f66513f8277e809cff41d9c
+size 339823504

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_4882/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+ "trainer": {
+ "dict_class": "AutoEncoder",
+ "trainer_class": "StandardTrainer",
+ "activation_dim": 2304,
+ "dict_size": 18432,
+ "lr": 0.0003,
+ "l1_penalty": 0.025,
+ "warmup_steps": 1000,
+ "resample_steps": null,
+ "device": "cuda:0",
+ "layer": 11,
+ "lm_name": "google/gemma-2-2b",
+ "wandb_name": "StandardTrainer-google/gemma-2-2b-resid_post_layer_11",
+ "submodule_name": "resid_post_layer_11",
+ "steps": "4882"
+ },
+ "buffer": {
+ "d_submodule": 2304,
+ "io": "out",
+ "n_ctxs": 2000,
+ "ctx_len": 128,
+ "refresh_batch_size": 24,
+ "out_batch_size": 4096,
+ "device": "cuda:0"
+ }
+}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_4882/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"l2_loss": 55.02547416687012, "l1_loss": 694.5177673339844, "l0": 500.9125122070312, "frac_variance_explained": 0.8116631209850311, "cossim": 0.9266311347484588, "l2_ratio": 0.8777791380882263, "relative_reconstruction_bias": 0.9579416394233704, "loss_original": 2.4489264488220215, "loss_reconstructed": 2.589069104194641, "loss_zero": 12.452933025360107, "frac_recovered": 0.9860494375228882, "frac_alive": 0.2698567807674408, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_9764/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4570a69548af7b891cab38bb169d2c4aebd41ff94feaf2b8e702a3cf8b7f0b0
+size 339823504

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_9764/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+ "trainer": {
+ "dict_class": "AutoEncoder",
+ "trainer_class": "StandardTrainer",
+ "activation_dim": 2304,
+ "dict_size": 18432,
+ "lr": 0.0003,
+ "l1_penalty": 0.025,
+ "warmup_steps": 1000,
+ "resample_steps": null,
+ "device": "cuda:0",
+ "layer": 11,
+ "lm_name": "google/gemma-2-2b",
+ "wandb_name": "StandardTrainer-google/gemma-2-2b-resid_post_layer_11",
+ "submodule_name": "resid_post_layer_11",
+ "steps": "9764"
+ },
+ "buffer": {
+ "d_submodule": 2304,
+ "io": "out",
+ "n_ctxs": 2000,
+ "ctx_len": 128,
+ "refresh_batch_size": 24,
+ "out_batch_size": 4096,
+ "device": "cuda:0"
+ }
+}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_0_step_9764/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"l2_loss": 46.25635299682617, "l1_loss": 680.0863464355468, "l0": 628.8416809082031, "frac_variance_explained": 0.857069319486618, "cossim": 0.9428604900836944, "l2_ratio": 0.8974497258663178, "relative_reconstruction_bias": 0.9643844664096832, "loss_original": 2.4489264488220215, "loss_reconstructed": 2.531099796295166, "loss_zero": 12.452933025360107, "frac_recovered": 0.9918265163898468, "frac_alive": 0.529405415058136, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_0/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45b8cc77115534d114d1a5fddfbc0ad30635744f12e82ebf19a50910aea4cb1e
+size 339823416

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_0/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+ "trainer": {
+ "dict_class": "AutoEncoder",
+ "trainer_class": "StandardTrainer",
+ "activation_dim": 2304,
+ "dict_size": 18432,
+ "lr": 0.0003,
+ "l1_penalty": 0.035,
+ "warmup_steps": 1000,
+ "resample_steps": null,
+ "device": "cuda:0",
+ "layer": 11,
+ "lm_name": "google/gemma-2-2b",
+ "wandb_name": "StandardTrainer-google/gemma-2-2b-resid_post_layer_11",
+ "submodule_name": "resid_post_layer_11",
+ "steps": "0"
+ },
+ "buffer": {
+ "d_submodule": 2304,
+ "io": "out",
+ "n_ctxs": 2000,
+ "ctx_len": 128,
+ "refresh_batch_size": 24,
+ "out_batch_size": 4096,
+ "device": "cuda:0"
+ }
+}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_0/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"l2_loss": 231.1881851196289, "l1_loss": 13521.2337890625, "l0": 9215.55029296875, "frac_variance_explained": -1.0510494828224182, "cossim": 0.006548775953706354, "l2_ratio": 1.1542882323265076, "relative_reconstruction_bias": -167.9729995727539, "loss_original": 2.4489264488220215, "loss_reconstructed": 20.26519641876221, "loss_zero": 12.452933025360107, "frac_recovered": -0.7811744093894959, "frac_alive": 1.0, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_19528/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec9505d1aa3f9d9c39a80a45d3365eb1133979a032ce204f6720fefd5d7a77de
+size 339823704

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_19528/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+ "trainer": {
+ "dict_class": "AutoEncoder",
+ "trainer_class": "StandardTrainer",
+ "activation_dim": 2304,
+ "dict_size": 18432,
+ "lr": 0.0003,
+ "l1_penalty": 0.035,
+ "warmup_steps": 1000,
+ "resample_steps": null,
+ "device": "cuda:0",
+ "layer": 11,
+ "lm_name": "google/gemma-2-2b",
+ "wandb_name": "StandardTrainer-google/gemma-2-2b-resid_post_layer_11",
+ "submodule_name": "resid_post_layer_11",
+ "steps": "19528"
+ },
+ "buffer": {
+ "d_submodule": 2304,
+ "io": "out",
+ "n_ctxs": 2000,
+ "ctx_len": 128,
+ "refresh_batch_size": 24,
+ "out_batch_size": 4096,
+ "device": "cuda:0"
+ }
+}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_19528/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"l2_loss": 54.52329711914062, "l1_loss": 434.2824768066406, "l0": 215.03750610351562, "frac_variance_explained": 0.8672008395195008, "cossim": 0.9186275959014892, "l2_ratio": 0.8766422688961029, "relative_reconstruction_bias": 0.9781448543071747, "loss_original": 2.4489264488220215, "loss_reconstructed": 2.614857029914856, "loss_zero": 12.452933025360107, "frac_recovered": 0.9834800899028778, "frac_alive": 0.3849283754825592, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_29292/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:623526a8ca8f22bcc6eebed26fda196b9dd681b88a45c817c26d408db96758e4
+size 339823704

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_29292/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+ "trainer": {
+ "dict_class": "AutoEncoder",
+ "trainer_class": "StandardTrainer",
+ "activation_dim": 2304,
+ "dict_size": 18432,
+ "lr": 0.0003,
+ "l1_penalty": 0.035,
+ "warmup_steps": 1000,
+ "resample_steps": null,
+ "device": "cuda:0",
+ "layer": 11,
+ "lm_name": "google/gemma-2-2b",
+ "wandb_name": "StandardTrainer-google/gemma-2-2b-resid_post_layer_11",
+ "submodule_name": "resid_post_layer_11",
+ "steps": "29292"
+ },
+ "buffer": {
+ "d_submodule": 2304,
+ "io": "out",
+ "n_ctxs": 2000,
+ "ctx_len": 128,
+ "refresh_batch_size": 24,
+ "out_batch_size": 4096,
+ "device": "cuda:0"
+ }
+}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_29292/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"l2_loss": 55.41632499694824, "l1_loss": 412.8124267578125, "l0": 213.2916702270508, "frac_variance_explained": 0.7951547861099243, "cossim": 0.9193026781082153, "l2_ratio": 0.8765688300132751, "relative_reconstruction_bias": 0.963158255815506, "loss_original": 2.4489264488220215, "loss_reconstructed": 2.6072664499282836, "loss_zero": 12.452933025360107, "frac_recovered": 0.9842307686805725, "frac_alive": 0.4042426347732544, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_4882/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b26a0f80215164888b75650c3f5546b116aa98394100332880c937be3320dde2
+size 339823504

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_4882/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+ "trainer": {
+ "dict_class": "AutoEncoder",
+ "trainer_class": "StandardTrainer",
+ "activation_dim": 2304,
+ "dict_size": 18432,
+ "lr": 0.0003,
+ "l1_penalty": 0.035,
+ "warmup_steps": 1000,
+ "resample_steps": null,
+ "device": "cuda:0",
+ "layer": 11,
+ "lm_name": "google/gemma-2-2b",
+ "wandb_name": "StandardTrainer-google/gemma-2-2b-resid_post_layer_11",
+ "submodule_name": "resid_post_layer_11",
+ "steps": "4882"
+ },
+ "buffer": {
+ "d_submodule": 2304,
+ "io": "out",
+ "n_ctxs": 2000,
+ "ctx_len": 128,
+ "refresh_batch_size": 24,
+ "out_batch_size": 4096,
+ "device": "cuda:0"
+ }
+}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_4882/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"l2_loss": 65.93699836730957, "l1_loss": 390.71771545410155, "l0": 140.8791732788086, "frac_variance_explained": 0.7948267936706543, "cossim": 0.8820845127105713, "l2_ratio": 0.833953058719635, "relative_reconstruction_bias": 0.9701622486114502, "loss_original": 2.4489264488220215, "loss_reconstructed": 2.8883158922195435, "loss_zero": 12.452933025360107, "frac_recovered": 0.9561446309089661, "frac_alive": 0.149685338139534, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_9764/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e88656faf15724ffe7e9490c332a2505fc3ebb4af222037d5f9c10ae598ea9b1
+size 339823504

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_9764/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+ "trainer": {
+ "dict_class": "AutoEncoder",
+ "trainer_class": "StandardTrainer",
+ "activation_dim": 2304,
+ "dict_size": 18432,
+ "lr": 0.0003,
+ "l1_penalty": 0.035,
+ "warmup_steps": 1000,
+ "resample_steps": null,
+ "device": "cuda:0",
+ "layer": 11,
+ "lm_name": "google/gemma-2-2b",
+ "wandb_name": "StandardTrainer-google/gemma-2-2b-resid_post_layer_11",
+ "submodule_name": "resid_post_layer_11",
+ "steps": "9764"
+ },
+ "buffer": {
+ "d_submodule": 2304,
+ "io": "out",
+ "n_ctxs": 2000,
+ "ctx_len": 128,
+ "refresh_batch_size": 24,
+ "out_batch_size": 4096,
+ "device": "cuda:0"
+ }
+}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_1_step_9764/eval_results.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"l2_loss": 59.162353134155275, "l1_loss": 431.5362915039062, "l0": 187.0416732788086, "frac_variance_explained": 0.7984853267669678, "cossim": 0.9067982614040375, "l2_ratio": 0.8616488099098205, "relative_reconstruction_bias": 0.9632077217102051, "loss_original": 2.4489264488220215, "loss_reconstructed": 2.6684057474136353, "loss_zero": 12.452933025360107, "frac_recovered": 0.9781309604644776, "frac_alive": 0.2636176347732544, "hyperparameters": {"n_inputs": 250, "context_length": 128}}

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_2_step_0/ae.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45b8cc77115534d114d1a5fddfbc0ad30635744f12e82ebf19a50910aea4cb1e
+size 339823416

gemma-2-2b_sweep_standard_ctx128_ef8_0824/resid_post_layer_11_checkpoints/trainer_2_step_0/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+ "trainer": {
+ "dict_class": "AutoEncoder",
+ "trainer_class": "StandardTrainer",
+ "activation_dim": 2304,
+ "dict_size": 18432,
+ "lr": 0.0003,
+ "l1_penalty": 0.04,
+ "warmup_steps": 1000,
+ "resample_steps": null,
+ "device": "cuda:0",
+ "layer": 11,
+ "lm_name": "google/gemma-2-2b",
+ "wandb_name": "StandardTrainer-google/gemma-2-2b-resid_post_layer_11",
+ "submodule_name": "resid_post_layer_11",
+ "steps": "0"
+ },
+ "buffer": {
+ "d_submodule": 2304,
+ "io": "out",
+ "n_ctxs": 2000,
+ "ctx_len": 128,
+ "refresh_batch_size": 24,
+ "out_batch_size": 4096,
+ "device": "cuda:0"
+ }
+}