diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/anagrams2-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/anagrams2-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..f74887fe16ec042fcdf995b7b7b694d3fec92659
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/anagrams2-v0-res.json
@@ -0,0 +1 @@
+{"results": {"anagrams2": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"anagrams2": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/anli_r3-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/anli_r3-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..29d3d67c8b038c0b0882e97071033fefb9481a41
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/anli_r3-v0-loglikelihood
@@ -0,0 +1 @@
+6b6e5c6a794f2fbff78b7aa24fe0c90156039334bbd1cb34f7af9fc6e6183845
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_2dm-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_2dm-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..8fc5d47310794c3ec4228c51ccb05e58c90aad5c
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_2dm-v0-res.json
@@ -0,0 +1 @@
+{"results": {"arithmetic_2dm": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_2dm": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_2ds-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_2ds-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..28f32c92c67df30eb1548fd27939b45b484a4cbc
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_2ds-v0-loglikelihood
@@ -0,0 +1 @@
+66f7ff3b40251ee38fadcbee658e309a200224356fc3efa07d0a490a2c24bfa3
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_3da-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_3da-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..6c99dece2230426db75774b5e639b9ca4d871ff4
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_3da-v0-loglikelihood
@@ -0,0 +1 @@
+c421f9cd5a5001b80e528441da925128177a04db8526ebcdab543a90b33c9ce2
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_3ds-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_3ds-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..6bc029c520d8787ad45e3bfd5d728da3e65f15cf
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_3ds-v0-loglikelihood
@@ -0,0 +1 @@
+d3d8bad8827d4530945a1d8b3c7589c0235bbed0bc89e7561a6fdac678f6ce5c
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_4da-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_4da-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..57ce0e3007f3e987096d09f4442fa6bd106ab2ca
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_4da-v0-res.json
@@ -0,0 +1 @@
+{"results": {"arithmetic_4da": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_4da": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_adjunct_island-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_adjunct_island-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..85f0e8fb2af3101c8a916368f957ab4968fd132b
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_adjunct_island-v0-loglikelihood
@@ -0,0 +1 @@
+976a5cac4bdb724632eebd4cb9e522203ce3da8d5525288a597c86e80469f3f2
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_adjunct_island-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_adjunct_island-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..39e2517bbc481b6727ff2fc1337de9600cd5451c
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_adjunct_island-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_adjunct_island": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_adjunct_island": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_1-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_1-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..a2457550677d4a39a7e466d1fddaa4583bc649d7
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_1-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_determiner_noun_agreement_1": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_determiner_noun_agreement_1": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_existential_there_quantifiers_1-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_existential_there_quantifiers_1-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..7697713f85bef6fd2d624f5b9075aae5bfd8f168
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_existential_there_quantifiers_1-v0-loglikelihood
@@ -0,0 +1 @@
+d77594382e6d9af31a8b8ef00ba1ef6c29d6be6d0ddb7a9c27ef25ace654e05a
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_intransitive-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_intransitive-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..d5b2f91179f553c61c519f50380d6f36fcb6240d
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_intransitive-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_intransitive": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_intransitive": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_irregular_past_participle_adjectives-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_irregular_past_participle_adjectives-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..e3b8718ff8cee5d379a4ec8e8bda05b8a8d3e8b8
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_irregular_past_participle_adjectives-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_irregular_past_participle_adjectives": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_irregular_past_participle_adjectives": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_left_branch_island_echo_question-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_left_branch_island_echo_question-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..198f9a289c4bb7892c87113e9356f3de7709669b
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_left_branch_island_echo_question-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_left_branch_island_echo_question": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_left_branch_island_echo_question": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_left_branch_island_simple_question-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_left_branch_island_simple_question-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..057af2db85481de8a2e64488c35d48dbf3061ad7
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_left_branch_island_simple_question-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_left_branch_island_simple_question": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_left_branch_island_simple_question": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_1-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_1-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..16fed715d4effd467e798c56399f0ed4729bd49c
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_1-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_regular_plural_subject_verb_agreement_1": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_regular_plural_subject_verb_agreement_1": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_2-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_2-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..4b6525a10ebb7ed53b78dc1f18553ad5896b0691
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_2-v0-loglikelihood
@@ -0,0 +1 @@
+f69d9891f59872538962221fccc425b07df7cfbd83cdc546ce83e6b0e9a93f7c
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_2-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_2-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..6d64b97e20bb4688afca5e708f7fc41243ecca14
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_2-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_regular_plural_subject_verb_agreement_2": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_regular_plural_subject_verb_agreement_2": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_transitive-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_transitive-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..98156dcf1ea33db946094d1e9d47c979f158b8b2
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_transitive-v0-loglikelihood
@@ -0,0 +1 @@
+d0d47fe40a7ee558ba782edbc4f49f7d9123c8472a36decc97f8ab142b45b9d8
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..dfd3f66b77cb52234d967a827a3c6dffc706e5aa
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_wh_vs_that_no_gap": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_wh_vs_that_no_gap": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/copa-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/copa-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..9a537ec768e7311cd4ef3fafcfde63cf9ff42f59
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/copa-v0-res.json
@@ -0,0 +1 @@
+{"results": {"copa": {"acc": 0.48, "acc_stderr": 0.050211673156867795}}, "versions": {"copa": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_nationality-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_nationality-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..5fd526ccc1c07111d2cceef633ccb72b0d65387b
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_nationality-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_english_nationality": {"likelihood_difference": 0.3383027778174895, "likelihood_difference_stderr": 0.015957585374543233, "pct_stereotype": 0.4675925925925926, "pct_stereotype_stderr": 0.03402801581358966}}, "versions": {"crows_pairs_english_nationality": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_sexual_orientation-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_sexual_orientation-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..9a93b9add705c62cd228fd21a89ea670022189ab
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_sexual_orientation-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_english_sexual_orientation": {"likelihood_difference": 0.31947594049467243, "likelihood_difference_stderr": 0.024404952720497735, "pct_stereotype": 0.43010752688172044, "pct_stereotype_stderr": 0.051616798980291805}}, "versions": {"crows_pairs_english_sexual_orientation": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..77195255653eaebf9f1d542df02b9720c1f37df8
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_french": {"likelihood_difference": 0.3367363060632734, "likelihood_difference_stderr": 0.005827747024053628, "pct_stereotype": 0.5062611806797853, "pct_stereotype_stderr": 0.012212341600228745}}, "versions": {"crows_pairs_french": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_age-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_age-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..4bd87f68c37946bcb26e2a989e98a79251a8361c
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_age-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_french_age": {"likelihood_difference": 0.31896094607685194, "likelihood_difference_stderr": 0.024068391933540753, "pct_stereotype": 0.4444444444444444, "pct_stereotype_stderr": 0.05267171812666418}}, "versions": {"crows_pairs_french_age": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_autre-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_autre-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..3900f561993a333909d46e7a4fc18906c9b69721
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_autre-v0-loglikelihood
@@ -0,0 +1 @@
+f145ad5086da0bf8c76f0730258529fa243efe32b7ab792d3c4716284b4b5495
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_disability-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_disability-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..9cc4d2bb8012080bb2030e494eebd97e945b203c
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_disability-v0-loglikelihood
@@ -0,0 +1 @@
+fa1e5fc7492a66c9a90765e605003c38408347617db5ecf36706f1d374af5d42
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_gender-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_gender-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..bdb363e75dc8006cd39e237392b2cf589741fb46
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_gender-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_french_gender": {"likelihood_difference": 0.3364019171359413, "likelihood_difference_stderr": 0.012815700745990895, "pct_stereotype": 0.4766355140186916, "pct_stereotype_stderr": 0.027920316348204986}}, "versions": {"crows_pairs_french_gender": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_physical_appearance-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_physical_appearance-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..eea3efa006503d2062660ae0e0625c85b4196899
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_physical_appearance-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_french_physical_appearance": {"likelihood_difference": 0.3221673223187262, "likelihood_difference_stderr": 0.026978346460100555, "pct_stereotype": 0.4027777777777778, "pct_stereotype_stderr": 0.05820650942569533}}, "versions": {"crows_pairs_french_physical_appearance": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_religion-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_religion-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..990eab593f8a175be48d44c7318eeb968aab2921
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_religion-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_french_religion": {"likelihood_difference": 0.32691651640972225, "likelihood_difference_stderr": 0.021833493193249474, "pct_stereotype": 0.45217391304347826, "pct_stereotype_stderr": 0.046614569799583463}}, "versions": {"crows_pairs_french_religion": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_socioeconomic-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_socioeconomic-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..7372018798d522cdfda7e458f1d608f1a3c13169
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_socioeconomic-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_french_socioeconomic": {"likelihood_difference": 0.3394681494647815, "likelihood_difference_stderr": 0.01702488895584347, "pct_stereotype": 0.4642857142857143, "pct_stereotype_stderr": 0.035714285714285705}}, "versions": {"crows_pairs_french_socioeconomic": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/ethics_deontology-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/ethics_deontology-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..3af24f414a42803984877a710b95c037187984b9
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/ethics_deontology-v0-res.json
@@ -0,0 +1 @@
+{"results": {"ethics_deontology": {"acc": 0.503615127919911, "acc_stderr": 0.008338908432085105, "em": 0.07119021134593993}}, "versions": {"ethics_deontology": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/gsm8k-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/gsm8k-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..fb6514a0e750d4e3737cf33766fcc851f79bfa48
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/gsm8k-v0-res.json
@@ -0,0 +1 @@
+{"results": {"gsm8k": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"gsm8k": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-anatomy-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-anatomy-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..67bc2e7be6de4ba9d6b9aa40c0d45cd60d7d506b
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-anatomy-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-anatomy": {"acc": 0.2222222222222222, "acc_norm": 0.23703703703703705, "acc_norm_stderr": 0.03673731683969506, "acc_stderr": 0.0359144408419697}}, "versions": {"hendrycksTest-anatomy": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-astronomy-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-astronomy-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..d3626ccf80f233702478886fffeede1f587ad2fb
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-astronomy-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-astronomy": {"acc": 0.2565789473684211, "acc_norm": 0.29605263157894735, "acc_norm_stderr": 0.03715062154998904, "acc_stderr": 0.0355418036802569}}, "versions": {"hendrycksTest-astronomy": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-college_chemistry-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-college_chemistry-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..52a255e82a35b8d084459e72140f30f26ef8c57f
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-college_chemistry-v0-loglikelihood
@@ -0,0 +1 @@
+044752b21540db95118b8cbe7e75c4c9b8758e27df56543deaeadec7f749a28d
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-econometrics-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-econometrics-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..ed3332eddaf041c82908352c43cf8d9187b8f381
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-econometrics-v0-loglikelihood
@@ -0,0 +1 @@
+cde76ba2c7382b4876e17136c94f52aca2774e50342ab757b2a2d18da370dcb6
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_microeconomics-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_microeconomics-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..37962bf9fb93bc8f49fa83af34c30ac0ef49df09
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_microeconomics-v0-loglikelihood
@@ -0,0 +1 @@
+513b998585ebc1ebdefca6435b7c84fd73dc36fc80321a22503467f04efed23e
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_physics-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_physics-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..b6b3bb9d012756280cf8a0ba68d4011fe9089e39
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_physics-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-high_school_physics": {"acc": 0.2582781456953642, "acc_norm": 0.271523178807947, "acc_norm_stderr": 0.03631329803969653, "acc_stderr": 0.035737053147634576}}, "versions": {"hendrycksTest-high_school_physics": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_world_history-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_world_history-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..ca1bf95b9d2d37c2b9cbe75efd7f1e3fd88ecdcf
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_world_history-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-high_school_world_history": {"acc": 0.23628691983122363, "acc_norm": 0.24472573839662448, "acc_norm_stderr": 0.02798569938703642, "acc_stderr": 0.027652153144159263}}, "versions": {"hendrycksTest-high_school_world_history": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-marketing-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-marketing-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..1d241a97733c081a3f00280cfbedc411c0570001
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-marketing-v0-loglikelihood
@@ -0,0 +1 @@
+b4fa0681fe54671a80509779d4338d744097a7206687f62977df7145dfa74a66
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_accounting-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_accounting-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..b665d57e234aa5b9f67f85da689bba952f930914
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_accounting-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-professional_accounting": {"acc": 0.2553191489361702, "acc_norm": 0.26595744680851063, "acc_norm_stderr": 0.026358065698880582, "acc_stderr": 0.026011992930902006}}, "versions": {"hendrycksTest-professional_accounting": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_medicine-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_medicine-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..cc3c3be8c6c09ffccdf7dbfd318ea3928c87a769
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_medicine-v0-loglikelihood
@@ -0,0 +1 @@
+7a30599858398169cde61430c18efdd7fb4dcd09c34aa9baba70f0f8cf17a9f1
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-security_studies-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-security_studies-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..6aa9b5ec005a326616b812b816b95329ad9349a2
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-security_studies-v0-loglikelihood
@@ -0,0 +1 @@
+92dfffe2acf3278256486d3e1cf1edb5a739ad0a54c0f9c67695f7a411ed5f76
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/lambada-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/lambada-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..ead0e9ce5d9629dea9be37e521fb3a152ced8680
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/lambada-v0-res.json
@@ -0,0 +1 @@
+{"results": {"lambada": {"acc": 0.0, "acc_stderr": 0.0, "ppl": 1.6479047769869253, "ppl_stderr": 0.006497321146240192}}, "versions": {"lambada": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_mt_es-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_mt_es-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..df895fe6d6bf04fc51c1633d26fb835941176534
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_mt_es-v0-loglikelihood
@@ -0,0 +1 @@
+4a88f4b316c72fe0396c382d6cbb33568ac4d0ad225150d3536635c085359fc9
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_cloze-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_cloze-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..b599a89f7af0c28e795e5c5dfc1961f34acde2fc
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_cloze-v0-loglikelihood
@@ -0,0 +1 @@
+7655e748b63ae7e9911411d2d2a2577221d6c861ca4448509992541294d689f3
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_mt_es-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_mt_es-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..684e35a4cf44f85a0dc5f82fc06fb2b4ebc90316
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_mt_es-v0-res.json
@@ -0,0 +1 @@
+{"results": {"lambada_openai_mt_es": {"acc": 0.0, "acc_stderr": 0.0, "ppl": 1.6479047769869253, "ppl_stderr": 0.006497321146240192}}, "versions": {"lambada_openai_mt_es": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_standard-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_standard-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..fcbd56f50425ca6e143ccc0dd88458c051b63fb2
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_standard-v0-loglikelihood
@@ -0,0 +1 @@
+8958d9f8d8145046b692fadd8a9cc9c8bad5617c10774280cf7c24c21d2be160
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/math_algebra-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/math_algebra-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..192cb9d8529cd67cb47e6f90d76a4a9e98b12d97
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/math_algebra-v0-res.json
@@ -0,0 +1 @@
+{"results": {"math_algebra": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"math_algebra": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/mutual-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/mutual-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..2d240576b3b8d891ff91a47770df9990edf34105
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/mutual-v0-res.json
@@ -0,0 +1 @@
+{"results": {"mutual": {"mrr": 0.5023513920240772, "mrr_stderr": 0.009501864812936679, "r@1": 0.22573363431151242, "r@1_stderr": 0.014053085820407457, "r@2": 0.4221218961625282, "r@2_stderr": 0.016602191705517556}}, "versions": {"mutual": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/openbookqa-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/openbookqa-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..b2cc5e9795fd1623bfc11e4d1cb53b0e1baa3dbf
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/openbookqa-v0-loglikelihood
@@ -0,0 +1 @@
+78a49a0ca1a47373adb33463b1d092e6bc0d8f4b01bcb380ada48065037849d7
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_arxiv-v1-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_arxiv-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..05cbab38732c94665750aac31cd2c41688552a8d
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_arxiv-v1-res.json
@@ -0,0 +1 @@
+{"results": {"pile_arxiv": {"bits_per_byte": 1.55095665856779e-05, "byte_perplexity": 1.0000107504701365, "word_perplexity": 1.0000819333090385}}, "versions": {"pile_arxiv": 1}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_books3-v1-loglikelihood_rolling b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_books3-v1-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..b483d3b45b43abddd6cbd169a8afda8d3f803d9c
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_books3-v1-loglikelihood_rolling
@@ -0,0 +1 @@
+0f8f36f705b999b6d55fa72ff89a82793dd1cb568ab1f8727a6a2086a12b9410
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_enron-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_enron-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..a4a49493d56db35c99b7e58ea66ebc21304184b2
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_enron-v0-res.json
@@ -0,0 +1 @@
+{"results": {"pile_enron": {"bits_per_byte": 0.0003163902828673244, "byte_perplexity": 1.000316440339552, "word_perplexity": 1.00224668051869}}, "versions": {"pile_enron": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_gutenberg-v1-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_gutenberg-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..6d22ed3ff50eaa5a68f8a5ad1ac4d3828f74f81f
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_gutenberg-v1-res.json
@@ -0,0 +1 @@
+{"results": {"pile_gutenberg": {"bits_per_byte": 1.7952329146458065e-06, "byte_perplexity": 1.0000012443614075, "word_perplexity": 1.0000072174665404}}, "versions": {"pile_gutenberg": 1}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_hackernews-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_hackernews-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..68578fe4c952b8bccb26700be82df67450c558dd
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_hackernews-v0-res.json
@@ -0,0 +1 @@
+{"results": {"pile_hackernews": {"bits_per_byte": 0.00010170276359193358, "byte_perplexity": 1.0001017079354932, "word_perplexity": 1.0006273924348839}}, "versions": {"pile_hackernews": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_nih-exporter-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_nih-exporter-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..1c7bb56c6dc6cec7e2677317b3f9888293a65b92
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_nih-exporter-v0-res.json
@@ -0,0 +1 @@
+{"results": {"pile_nih-exporter": {"bits_per_byte": 0.00024394433346975716, "byte_perplexity": 1.0002439740903082, "word_perplexity": 1.0016712202288802}}, "versions": {"pile_nih-exporter": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_openwebtext2-v0-loglikelihood_rolling b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_openwebtext2-v0-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..22046e440584d0df85ceeed057ad2c0633273782
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_openwebtext2-v0-loglikelihood_rolling
@@ -0,0 +1 @@
+5d6c19665f429ab1ccbe027da67f42bdaf219f819ab093673976eee55e015ff4
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_pubmed-abstracts-v1-loglikelihood_rolling b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_pubmed-abstracts-v1-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..de5660d60a8d4f0d5e35d47008992befed318d28
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_pubmed-abstracts-v1-loglikelihood_rolling
@@ -0,0 +1 @@
+66436569a43163afb2caf422d32c5f329899e74c49865d4d13881fd465fd9976
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_stackexchange-v1-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_stackexchange-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..2773302990f71e46f7f44f5d2e2b624a52ddb54d
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_stackexchange-v1-res.json
@@ -0,0 +1 @@
+{"results": {"pile_stackexchange": {"bits_per_byte": 0.0003302063346758449, "byte_perplexity": 1.0002289077852733, "word_perplexity": 1.0016993562258851}}, "versions": {"pile_stackexchange": 1}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_uspto-v1-loglikelihood_rolling b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_uspto-v1-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..4649d3b9b7f1f17e4731644d470fc0a2651a980d
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_uspto-v1-loglikelihood_rolling
@@ -0,0 +1 @@
+789b2bdb31564d512b70f801316f49320a26c83ba361226bac0afb255341d477
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/race-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/race-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..5fe1ce356b49f558ce758de50809109acd9c153c
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/race-v0-loglikelihood
@@ -0,0 +1 @@
+bdfdfab7fa1c7af0c1e161785e347b1b8071a15cbf971f6f2a9ae8c8e845199f
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/rte-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/rte-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..c239923e4f3ec676961da50b3823c09872edd36d
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/rte-v0-loglikelihood
@@ -0,0 +1 @@
+c80ce13c8c736087f1557f8736d5d318b540ff01e4bb7f55e568890dc8b0393e
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/sst-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/sst-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..5fe3c62a205cdd7a57acaf082f671e9ba864e5f7
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/sst-v0-res.json
@@ -0,0 +1 @@
+{"results": {"sst": {"acc": 0.5172018348623854, "acc_stderr": 0.016931824425903734}}, "versions": {"sst": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/triviaqa-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/triviaqa-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..d576c4977fc769dc56c31340f07558fefc1f1459
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/triviaqa-v0-loglikelihood
@@ -0,0 +1 @@
+f8ec05b306b9f6187c0f8117cae441fb85a7a2e4670f4f9a1a3b632b1978421a
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/triviaqa-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/triviaqa-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..ab98847da6985f5c9d1e650008367ba739a1147f
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/triviaqa-v0-res.json
@@ -0,0 +1 @@
+{"results": {"triviaqa": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"triviaqa": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/truthfulqa_gen-v1-greedy_until b/scripts/yans/lm-evaluation-harness/tests/testdata/truthfulqa_gen-v1-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..d5261f22133a65b6968881eeb87260c5a1fca3af
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/truthfulqa_gen-v1-greedy_until
@@ -0,0 +1 @@
+1a280973bbac2b7ac29dd64dddac474fb4749585f7de893483b4034814466c67
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/truthfulqa_mc-v1-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/truthfulqa_mc-v1-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..4bab2d1f4df241fe0cf47f22bf185d52f9b783ef
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/truthfulqa_mc-v1-loglikelihood
@@ -0,0 +1 @@
+1e07020e9cf41d46ed65312eb39d2b8e6599673d4f0d6b67c0d0eba0efb493bb
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/wmt14-fr-en-v0-greedy_until b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt14-fr-en-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..7249d39990f9aea60634b07c975f735983bade89
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt14-fr-en-v0-greedy_until
@@ -0,0 +1 @@
+c1d9f7283755fbdd7ecd6cc4278b0ac25a80ac256b7071ea5f839ccd038e5974
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-cs-en-v0-greedy_until b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-cs-en-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..7bcf240b7090e406259d4bfc090d1eb22ec6e291
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-cs-en-v0-greedy_until
@@ -0,0 +1 @@
+bfead9efdb1b2402a414c55929c8d8f956585f938a35466931d44e81d89cfe00
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-de-v0-greedy_until b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-de-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..c4078efd996d010eac102fe23de50fdbbe0310d9
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-de-v0-greedy_until
@@ -0,0 +1 @@
+b6e9c305766ea23ce1027309f83c6d4c2ce8948d70b63a7858586ca34050d7fb
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-ja-v1-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-ja-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..be5e56abcf2253276d405dae64758b9cab09f3e4
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-ja-v1-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-en-ja": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 4.1305928226819116e-05, "chrf_stderr": 2.0455354158878388e-05, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-en-ja": 1}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v1-greedy_until b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v1-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..db79b7f03fcfc8f7720f1344339e7d94d8a01ebf
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v1-greedy_until
@@ -0,0 +1 @@
+67f0333ddbcb07d7a9ac12919129a18fe4fea24e4826a11bbdde4fd5ed5ed83f
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-ps-en-v0-greedy_until b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-ps-en-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..7776c5952383a6254943869dad8fddb50e50e987
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-ps-en-v0-greedy_until
@@ -0,0 +1 @@
+c3976465e3709b4bc371175cc1494c69fe096ea4ba7d114da779d2baa0a47466
\ No newline at end of file