koichi12 commited on Nov 28, 2024

Commit

be3ca49

verified ·

1 Parent(s): 4801538

Add files using upload-large-folder tool

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

scripts/yans/lm-evaluation-harness/tests/testdata/anagrams2-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/anli_r3-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_2dm-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_2ds-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_3da-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_3ds-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_4da-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_adjunct_island-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_adjunct_island-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_1-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_existential_there_quantifiers_1-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_intransitive-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_irregular_past_participle_adjectives-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_left_branch_island_echo_question-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_left_branch_island_simple_question-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_1-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_2-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_2-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_transitive-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/copa-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_nationality-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_sexual_orientation-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_age-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_autre-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_disability-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_gender-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_physical_appearance-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_religion-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_socioeconomic-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/ethics_deontology-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/gsm8k-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-anatomy-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-astronomy-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-college_chemistry-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-econometrics-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_microeconomics-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_physics-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_world_history-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-marketing-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_accounting-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_medicine-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-security_studies-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/lambada-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/lambada_mt_es-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_cloze-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_mt_es-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/lambada_standard-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/math_algebra-v0-res.json +1 -0

scripts/yans/lm-evaluation-harness/tests/testdata/anagrams2-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"anagrams2": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"anagrams2": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/anli_r3-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 6b6e5c6a794f2fbff78b7aa24fe0c90156039334bbd1cb34f7af9fc6e6183845

scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_2dm-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"arithmetic_2dm": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_2dm": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_2ds-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 66f7ff3b40251ee38fadcbee658e309a200224356fc3efa07d0a490a2c24bfa3

scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_3da-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ c421f9cd5a5001b80e528441da925128177a04db8526ebcdab543a90b33c9ce2

scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_3ds-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ d3d8bad8827d4530945a1d8b3c7589c0235bbed0bc89e7561a6fdac678f6ce5c

scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_4da-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"arithmetic_4da": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_4da": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_adjunct_island-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 976a5cac4bdb724632eebd4cb9e522203ce3da8d5525288a597c86e80469f3f2

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_adjunct_island-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_adjunct_island": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_adjunct_island": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_1-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_determiner_noun_agreement_1": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_determiner_noun_agreement_1": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_existential_there_quantifiers_1-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ d77594382e6d9af31a8b8ef00ba1ef6c29d6be6d0ddb7a9c27ef25ace654e05a

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_intransitive-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_intransitive": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_intransitive": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_irregular_past_participle_adjectives-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_irregular_past_participle_adjectives": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_irregular_past_participle_adjectives": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_left_branch_island_echo_question-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_left_branch_island_echo_question": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_left_branch_island_echo_question": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_left_branch_island_simple_question-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_left_branch_island_simple_question": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_left_branch_island_simple_question": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_1-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_regular_plural_subject_verb_agreement_1": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_regular_plural_subject_verb_agreement_1": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_2-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ f69d9891f59872538962221fccc425b07df7cfbd83cdc546ce83e6b0e9a93f7c

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_2-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_regular_plural_subject_verb_agreement_2": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_regular_plural_subject_verb_agreement_2": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_transitive-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ d0d47fe40a7ee558ba782edbc4f49f7d9123c8472a36decc97f8ab142b45b9d8

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_wh_vs_that_no_gap": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_wh_vs_that_no_gap": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/copa-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"copa": {"acc": 0.48, "acc_stderr": 0.050211673156867795}}, "versions": {"copa": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_nationality-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"crows_pairs_english_nationality": {"likelihood_difference": 0.3383027778174895, "likelihood_difference_stderr": 0.015957585374543233, "pct_stereotype": 0.4675925925925926, "pct_stereotype_stderr": 0.03402801581358966}}, "versions": {"crows_pairs_english_nationality": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_sexual_orientation-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"crows_pairs_english_sexual_orientation": {"likelihood_difference": 0.31947594049467243, "likelihood_difference_stderr": 0.024404952720497735, "pct_stereotype": 0.43010752688172044, "pct_stereotype_stderr": 0.051616798980291805}}, "versions": {"crows_pairs_english_sexual_orientation": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"crows_pairs_french": {"likelihood_difference": 0.3367363060632734, "likelihood_difference_stderr": 0.005827747024053628, "pct_stereotype": 0.5062611806797853, "pct_stereotype_stderr": 0.012212341600228745}}, "versions": {"crows_pairs_french": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_age-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"crows_pairs_french_age": {"likelihood_difference": 0.31896094607685194, "likelihood_difference_stderr": 0.024068391933540753, "pct_stereotype": 0.4444444444444444, "pct_stereotype_stderr": 0.05267171812666418}}, "versions": {"crows_pairs_french_age": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_autre-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ f145ad5086da0bf8c76f0730258529fa243efe32b7ab792d3c4716284b4b5495

scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_disability-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ fa1e5fc7492a66c9a90765e605003c38408347617db5ecf36706f1d374af5d42

scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_gender-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"crows_pairs_french_gender": {"likelihood_difference": 0.3364019171359413, "likelihood_difference_stderr": 0.012815700745990895, "pct_stereotype": 0.4766355140186916, "pct_stereotype_stderr": 0.027920316348204986}}, "versions": {"crows_pairs_french_gender": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_physical_appearance-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"crows_pairs_french_physical_appearance": {"likelihood_difference": 0.3221673223187262, "likelihood_difference_stderr": 0.026978346460100555, "pct_stereotype": 0.4027777777777778, "pct_stereotype_stderr": 0.05820650942569533}}, "versions": {"crows_pairs_french_physical_appearance": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_religion-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"crows_pairs_french_religion": {"likelihood_difference": 0.32691651640972225, "likelihood_difference_stderr": 0.021833493193249474, "pct_stereotype": 0.45217391304347826, "pct_stereotype_stderr": 0.046614569799583463}}, "versions": {"crows_pairs_french_religion": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_socioeconomic-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"crows_pairs_french_socioeconomic": {"likelihood_difference": 0.3394681494647815, "likelihood_difference_stderr": 0.01702488895584347, "pct_stereotype": 0.4642857142857143, "pct_stereotype_stderr": 0.035714285714285705}}, "versions": {"crows_pairs_french_socioeconomic": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/ethics_deontology-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"ethics_deontology": {"acc": 0.503615127919911, "acc_stderr": 0.008338908432085105, "em": 0.07119021134593993}}, "versions": {"ethics_deontology": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/gsm8k-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"gsm8k": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"gsm8k": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-anatomy-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"hendrycksTest-anatomy": {"acc": 0.2222222222222222, "acc_norm": 0.23703703703703705, "acc_norm_stderr": 0.03673731683969506, "acc_stderr": 0.0359144408419697}}, "versions": {"hendrycksTest-anatomy": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-astronomy-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"hendrycksTest-astronomy": {"acc": 0.2565789473684211, "acc_norm": 0.29605263157894735, "acc_norm_stderr": 0.03715062154998904, "acc_stderr": 0.0355418036802569}}, "versions": {"hendrycksTest-astronomy": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-college_chemistry-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 044752b21540db95118b8cbe7e75c4c9b8758e27df56543deaeadec7f749a28d

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-econometrics-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ cde76ba2c7382b4876e17136c94f52aca2774e50342ab757b2a2d18da370dcb6

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_microeconomics-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 513b998585ebc1ebdefca6435b7c84fd73dc36fc80321a22503467f04efed23e

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_physics-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"hendrycksTest-high_school_physics": {"acc": 0.2582781456953642, "acc_norm": 0.271523178807947, "acc_norm_stderr": 0.03631329803969653, "acc_stderr": 0.035737053147634576}}, "versions": {"hendrycksTest-high_school_physics": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_world_history-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"hendrycksTest-high_school_world_history": {"acc": 0.23628691983122363, "acc_norm": 0.24472573839662448, "acc_norm_stderr": 0.02798569938703642, "acc_stderr": 0.027652153144159263}}, "versions": {"hendrycksTest-high_school_world_history": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-marketing-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ b4fa0681fe54671a80509779d4338d744097a7206687f62977df7145dfa74a66

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_accounting-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"hendrycksTest-professional_accounting": {"acc": 0.2553191489361702, "acc_norm": 0.26595744680851063, "acc_norm_stderr": 0.026358065698880582, "acc_stderr": 0.026011992930902006}}, "versions": {"hendrycksTest-professional_accounting": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_medicine-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 7a30599858398169cde61430c18efdd7fb4dcd09c34aa9baba70f0f8cf17a9f1

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-security_studies-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 92dfffe2acf3278256486d3e1cf1edb5a739ad0a54c0f9c67695f7a411ed5f76

scripts/yans/lm-evaluation-harness/tests/testdata/lambada-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"lambada": {"acc": 0.0, "acc_stderr": 0.0, "ppl": 1.6479047769869253, "ppl_stderr": 0.006497321146240192}}, "versions": {"lambada": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/lambada_mt_es-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 4a88f4b316c72fe0396c382d6cbb33568ac4d0ad225150d3536635c085359fc9

scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_cloze-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 7655e748b63ae7e9911411d2d2a2577221d6c861ca4448509992541294d689f3

scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_mt_es-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"lambada_openai_mt_es": {"acc": 0.0, "acc_stderr": 0.0, "ppl": 1.6479047769869253, "ppl_stderr": 0.006497321146240192}}, "versions": {"lambada_openai_mt_es": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/lambada_standard-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 8958d9f8d8145046b692fadd8a9cc9c8bad5617c10774280cf7c24c21d2be160

scripts/yans/lm-evaluation-harness/tests/testdata/math_algebra-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"math_algebra": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"math_algebra": 0}}