koichi12 commited on Nov 28, 2024

Commit

b98e04a

verified ·

1 Parent(s): 0ba7ae8

Add files using upload-large-folder tool

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_4ds-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_5ds-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_anaphor_gender_agreement-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_coordinate_structure_constraint_complex_left_branch-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_with_adj_irregular_1-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_distractor_agreement_relational_noun-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_ellipsis_n_bar_2-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_inchoative-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_intransitive-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_irregular_plural_subject_verb_agreement_1-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_npi_present_1-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_principle_A_case_1-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_principle_A_domain_2-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_principle_A_reconstruction-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_superlative_quantifiers_1-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_superlative_quantifiers_2-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_tough_vs_raising_2-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/blimp_wh_questions_subject_gap-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/boolq-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/boolq-v1-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/copa-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_gender-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_socioeconomic-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_age-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/drop-v1-greedy_until +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/ethics_utilitarianism-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/gsm8k-v0-greedy_until +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-clinical_knowledge-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-college_chemistry-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-college_mathematics-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-global_facts-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_chemistry-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_geography-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_government_and_politics-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_mathematics-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_microeconomics-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-international_law-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-management-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-management-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-public_relations-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-security_studies-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-sociology-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/iwslt17-ar-en-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/lambada_mt_de-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_mt_en-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_mt_es-v0-loglikelihood +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_mt_it-v0-res.json +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/math_intermediate_algebra-v1-greedy_until +1 -0
scripts/yans/lm-evaluation-harness/tests/testdata/math_precalc-v0-greedy_until +1 -0

scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_4ds-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"arithmetic_4ds": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_4ds": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_5ds-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"arithmetic_5ds": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_5ds": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_anaphor_gender_agreement-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 2d8964e56a17661502ecf3f09c0befba63915360ddf2145b0bd845816950515d

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_coordinate_structure_constraint_complex_left_branch-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 7e1cc5b9f71abfbe56c4bdf343a1e5632785b66a986b8e904a41ed8f45a2c33e

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_with_adj_irregular_1-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_determiner_noun_agreement_with_adj_irregular_1": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_determiner_noun_agreement_with_adj_irregular_1": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_distractor_agreement_relational_noun-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_distractor_agreement_relational_noun": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_distractor_agreement_relational_noun": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_ellipsis_n_bar_2-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_ellipsis_n_bar_2": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_ellipsis_n_bar_2": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_inchoative-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_inchoative": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_inchoative": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_intransitive-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 6469ae3b0d46b008846b5fd132f2d2b26ea2858745d056df1470b89aa97a790f

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_irregular_plural_subject_verb_agreement_1-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_irregular_plural_subject_verb_agreement_1": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_irregular_plural_subject_verb_agreement_1": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_npi_present_1-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 3ef532a85e0ee8f8ff779bc7ddc873d515969a708da84a4eb4a85b7c843cf244

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_principle_A_case_1-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_principle_A_case_1": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_principle_A_case_1": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_principle_A_domain_2-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ eb5ddf0a97982373ab1a4e58267cfcdebdecdb86c376dfd5ebf46737c9d3ee12

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_principle_A_reconstruction-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 894efedfd8750d5b8de6157f9b2ed2b51b5290d3a78ea9b041fc62d34e96efbc

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_superlative_quantifiers_1-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 8a01f6a5ea87a01c0c9b0c7b3bc4de4711bf0ff050976976651182b9ed34a0d4

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_superlative_quantifiers_2-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 59c20ff0f632cf42afc74ecc682cf92e5e740417b01e6cf9a610a3bc544d2ea5

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_tough_vs_raising_2-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_tough_vs_raising_2": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_tough_vs_raising_2": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/blimp_wh_questions_subject_gap-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_wh_questions_subject_gap": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_wh_questions_subject_gap": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/boolq-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"boolq": {"acc": 0.5048929663608562, "acc_stderr": 0.00874463623355505}}, "versions": {"boolq": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/boolq-v1-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 6577e0d88572772ef08e64f624c0e3df0953286ae1f118ccef15623b59ffeabf

scripts/yans/lm-evaluation-harness/tests/testdata/copa-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 66276b9045b5300cba4b81340db06f674f031fa0b8883714ad0d03be464cd799

scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_gender-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 2bf62b7cc678f64ffad4a6e6715ff76a2b984bfe8d1165da4b76b3b4dfafb2f9

scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_socioeconomic-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ c309eabfd247a702e32efc4e08211f9a72693d38995be5dd444d497b476396bd

scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 4fb61dcf4d2c59d6470b297a01d5f429ee442864e225e1760fbf191b2a0901cd

scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_french_age-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ b14a5769f415a234abe89063a1b546aa4a990c84217e5d4a697874cd7f85af35

scripts/yans/lm-evaluation-harness/tests/testdata/drop-v1-greedy_until ADDED Viewed

	@@ -0,0 +1 @@


1	+ a670f911ab2999d72db15f534b22703d19e7837edbda4f9f199ad587f7aae6b2

scripts/yans/lm-evaluation-harness/tests/testdata/ethics_utilitarianism-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 88872f1ed1b203f9649a4ced4fb4627d18c17af455d713de6e17c05eced4ec60

scripts/yans/lm-evaluation-harness/tests/testdata/gsm8k-v0-greedy_until ADDED Viewed

	@@ -0,0 +1 @@


1	+ e7292dbdd7fd8419ba954f2e0701e04c8d0e8842fe053dbf2fe47d926630e35e

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-clinical_knowledge-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ fbcb7ce507e0675d811e71e10a67c8d05a6605e29036f46776e04a6588cefbda

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-college_chemistry-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"hendrycksTest-college_chemistry": {"acc": 0.28, "acc_norm": 0.26, "acc_norm_stderr": 0.04408440022768078, "acc_stderr": 0.04512608598542127}}, "versions": {"hendrycksTest-college_chemistry": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-college_mathematics-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ e9fe80752686527281f834d2397875b4580581434b94799f9de6aaa450bd73ff

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-global_facts-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 9fdc85240b8170839278b1e883ee0868611d84dce202cb8aa037c841ec76d089

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_chemistry-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"hendrycksTest-high_school_chemistry": {"acc": 0.2857142857142857, "acc_norm": 0.2660098522167488, "acc_norm_stderr": 0.031089826002937523, "acc_stderr": 0.031785297106427496}}, "versions": {"hendrycksTest-high_school_chemistry": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_geography-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ add45970ea3865be7c7a31f788a835949f6937ac73f699b122ca56a3431e95f8

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_government_and_politics-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"hendrycksTest-high_school_government_and_politics": {"acc": 0.24352331606217617, "acc_norm": 0.23834196891191708, "acc_norm_stderr": 0.03074890536390988, "acc_stderr": 0.030975436386845436}}, "versions": {"hendrycksTest-high_school_government_and_politics": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_mathematics-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ ab368d16fc4648ad27940f71abd266366663f51db612f732a0b9b0eea28de9f8

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_microeconomics-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"hendrycksTest-high_school_microeconomics": {"acc": 0.24369747899159663, "acc_norm": 0.22268907563025211, "acc_norm_stderr": 0.027025433498882378, "acc_stderr": 0.027886828078380558}}, "versions": {"hendrycksTest-high_school_microeconomics": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-international_law-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"hendrycksTest-international_law": {"acc": 0.2396694214876033, "acc_norm": 0.3140495867768595, "acc_norm_stderr": 0.042369647530410164, "acc_stderr": 0.03896878985070417}}, "versions": {"hendrycksTest-international_law": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-management-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 355489f4bd176ab84db5ef4c03d56ddeeeb1b0ad69827122b2d800e1cdc7e5f0

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-management-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"hendrycksTest-management": {"acc": 0.24271844660194175, "acc_norm": 0.2621359223300971, "acc_norm_stderr": 0.043546310772605956, "acc_stderr": 0.04245022486384495}}, "versions": {"hendrycksTest-management": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-public_relations-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ ab70f500cf24e876f6ae6bdc27525a1d6074fa9b6ea97770255d9fc2559b36ff

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-security_studies-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"hendrycksTest-security_studies": {"acc": 0.2979591836734694, "acc_norm": 0.2693877551020408, "acc_norm_stderr": 0.02840125202902294, "acc_stderr": 0.029279567411065674}}, "versions": {"hendrycksTest-security_studies": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-sociology-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ f99a3caece11169f2a5cc951001f92027104afd25d29b2a399883bd4bf118605

scripts/yans/lm-evaluation-harness/tests/testdata/iwslt17-ar-en-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"iwslt17-ar-en": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 0.015049895477752772, "chrf_stderr": 0.0002940315671893584, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"iwslt17-ar-en": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/lambada_mt_de-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 5ad125e1708499832b2cee8c3388f89f9c0277010fd96fbd3359039ce8105984

scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_mt_en-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 6829e6a8aa5922e6c92dd31403cc060f242dc0ede4a775e085a70da095ab2e20

scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_mt_es-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 4a88f4b316c72fe0396c382d6cbb33568ac4d0ad225150d3536635c085359fc9

scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_mt_it-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"lambada_openai_mt_it": {"acc": 0.0, "acc_stderr": 0.0, "ppl": 1.6479047769869253, "ppl_stderr": 0.006497321146240192}}, "versions": {"lambada_openai_mt_it": 0}}

scripts/yans/lm-evaluation-harness/tests/testdata/math_intermediate_algebra-v1-greedy_until ADDED Viewed

	@@ -0,0 +1 @@


1	+ d53c699de272d517ed7ad783b4e692302be9f9f97a8d4ac7a6541e538a7cabe0

scripts/yans/lm-evaluation-harness/tests/testdata/math_precalc-v0-greedy_until ADDED Viewed

	@@ -0,0 +1 @@


1	+ bc834b06fd79473ca6fe38a51b714aad0bf0478c1b0eec787eca34dbdf69cb71