Adding the Open Portuguese LLM Leaderboard Evaluation Results

fb0f1c7 verified 10 months ago

3.97 kB

	---
	license: llama2
	model-index:
	- name: cabrita_7b_pt_850000
	results:
	- task:
	type: text-generation
	name: Text Generation
	dataset:
	name: ENEM Challenge (No Images)
	type: eduagarcia/enem_challenge
	split: train
	args:
	num_few_shot: 3
	metrics:
	- type: acc
	value: 22.53
	name: accuracy
	source:
	url: https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=22h/cabrita_7b_pt_850000
	name: Open Portuguese LLM Leaderboard
	- task:
	type: text-generation
	name: Text Generation
	dataset:
	name: BLUEX (No Images)
	type: eduagarcia-temp/BLUEX_without_images
	split: train
	args:
	num_few_shot: 3
	metrics:
	- type: acc
	value: 23.09
	name: accuracy
	source:
	url: https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=22h/cabrita_7b_pt_850000
	name: Open Portuguese LLM Leaderboard
	- task:
	type: text-generation
	name: Text Generation
	dataset:
	name: OAB Exams
	type: eduagarcia/oab_exams
	split: train
	args:
	num_few_shot: 3
	metrics:
	- type: acc
	value: 29.2
	name: accuracy
	source:
	url: https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=22h/cabrita_7b_pt_850000
	name: Open Portuguese LLM Leaderboard
	- task:
	type: text-generation
	name: Text Generation
	dataset:
	name: Assin2 RTE
	type: assin2
	split: test
	args:
	num_few_shot: 15
	metrics:
	- type: f1_macro
	value: 33.33
	name: f1-macro
	- type: pearson
	value: 12.65
	name: pearson
	source:
	url: https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=22h/cabrita_7b_pt_850000
	name: Open Portuguese LLM Leaderboard
	- task:
	type: text-generation
	name: Text Generation
	dataset:
	name: FaQuAD NLI
	type: ruanchaves/faquad-nli
	split: test
	args:
	num_few_shot: 15
	metrics:
	- type: f1_macro
	value: 17.72
	name: f1-macro
	source:
	url: https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=22h/cabrita_7b_pt_850000
	name: Open Portuguese LLM Leaderboard
	- task:
	type: text-generation
	name: Text Generation
	dataset:
	name: HateBR Binary
	type: eduagarcia/portuguese_benchmark
	split: test
	args:
	num_few_shot: 25
	metrics:
	- type: f1_macro
	value: 55.98
	name: f1-macro
	- type: f1_macro
	value: 49.02
	name: f1-macro
	source:
	url: https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=22h/cabrita_7b_pt_850000
	name: Open Portuguese LLM Leaderboard
	- task:
	type: text-generation
	name: Text Generation
	dataset:
	name: tweetSentBR
	type: eduagarcia-temp/tweetsentbr
	split: test
	args:
	num_few_shot: 25
	metrics:
	- type: f1_macro
	value: 45.75
	name: f1-macro
	source:
	url: https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=22h/cabrita_7b_pt_850000
	name: Open Portuguese LLM Leaderboard
	---

	# [Open Portuguese LLM Leaderboard Evaluation Results](https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard)
	Detailed results can be found [here](https://huggingface.co/datasets/eduagarcia-temp/llm_pt_leaderboard_raw_results/tree/main/22h/cabrita_7b_pt_850000)

	\| Metric \| Value \|
	\|--------------------------\|---------\|
	\|Average \|32.14\|
	\|ENEM Challenge (No Images)\| 22.53\|
	\|BLUEX (No Images) \| 23.09\|
	\|OAB Exams \| 29.20\|
	\|Assin2 RTE \| 33.33\|
	\|Assin2 STS \| 12.65\|
	\|FaQuAD NLI \| 17.72\|
	\|HateBR Binary \| 55.98\|
	\|PT Hate Speech Binary \| 49.02\|
	\|tweetSentBR \| 45.75\|