Cabra Qwen 7b

Esse modelo รฉ um finetune do Qwen 1.5 7b Chat com o dataset interno Cabra 10k. Esse modelo รฉ optimizado para portuguรชs e responde em portuguese nativamente. Ele apresenta melhoria em varios benchmarks brasileiros em comparaรงรฃo com o modelo base.

Exprimente o nosso demo aqui: CabraChat.

Conheรงa os nossos outros modelos: Cabra.

Detalhes do Modelo

Modelo: Qwen 1.5 7b chat

Qwen1.5 รฉ uma sรฉrie de modelos de linguagem que inclui modelos de linguagem decodificadores de diferentes tamanhos de modelo. Para cada tamanho, lanรงamos o modelo de linguagem base e o modelo de chat alinhado. Baseia-se na arquitetura Transformer com ativaรงรฃo SwiGLU, viรฉs de atenรงรฃo QKV, atenรงรฃo de consulta em grupo, mistura de atenรงรฃo de janela deslizante e atenรงรฃo completa, etc. Adicionalmente, temos um tokenizador melhorado adaptativo a mรบltiplas lรญnguas naturais e cรณdigos. Para a versรฃo beta, temporariamente nรฃo incluรญmos GQA e a mistura de SWA e atenรงรฃo completa.

dataset: Cabra 10k

Dataset interno para finetuning. Vamos lanรงar em breve.

Quantizaรงรฃo / GGUF

Colocamos diversas versรตes (GGUF) quantanizadas no branch "quantanization".

Exemplo

<s> [INST] What makes Brasรญlia special? [/INST] Brasรญlia, a capital do Brasil, รฉ uma cidade รบnica e especial por vรกrias razรตes. Estabelecida como o novo centro polรญtico do paรญs em 1960, ela foi projetada pelo arquiteto Oscar Niemeyer e pelo urbanista Lรบcio Costa para ser um sรญmbolo da modernidade e progresso brasileiro.

Aqui estรฃo algumas caracterรญsticas que tornam Brasรญlia especial:

Design Urbano: A cidade รฉ conhecida por seu design inovador e futurista, com seus arranha-cรฉus imponentes, grandes praรงas abertas e espaรงos verdes extensos. O layout da cidade segue um padrรฃo de grade, com cada distrito representando diferentes aspectos da cultura e histรณria brasileira.

Praรงa dos Trรชs Poderes: Estรก enorme praรงa central รฉ cercada pelos prรฉdios da Assembleia Nacional (conhecido como "Palรกcio do Planalto"), Senado Federal e Supremo Tribunal Federal. ร‰ um marco icรดnico da cidade e um local popular para eventos polรญticos.

Monumentos e Arquitetura: Brasรญlia possui muitos monumentos impressionantes e edifรญcios arquitetรดnicos notรกveis, incluindo o Museu Nacional de Histรณria Natural e Ciรชncias, o Planetรกrio Anhembi, o Palรกcio da Alvorada e a Basรญlica Nossa Senhora Aparecida.

Espaรงos Verdes: A cidade รฉ cercada por parques e reservas naturais, proporcionando aos moradores e visitantes amplos espaรงos para relaxar, praticar esportes ou simplesmente apreciar a beleza natural do ambiente.

Cultura e Eventos: Como a capital nacional, Brasรญlia hospeda vรกrios festivais culturais e eventos importantes ao longo do ano, como o Festival Internacional de Cinema de Brasรญlia, o Carnaval das Naรงรตes Unidas e o Festival de Mรบsica de Verรฃo de Brasรญlia.
Significado Histรณrico: A construรงรฃo de Brasรญlia marcou um momento significativo na histรณria do Brasil, pois simbolizou sua independรชncia polรญtica e busca pela modernizaรงรฃo. Ela tambรฉm serviu como exemplo para outros paรญses em desenvolvimento que buscavam criar novas capitais.

Inclusรฃo Social: Brasรญlia foi projetada levando em consideraรงรฃo a inclusรฃo social, com bairros bem planejados distribuรญdos uniformemente pela cidade para garantir acesso igualitรกrio ร  educaรงรฃo, saรบde e serviรงos pรบblicos.

Em resumo, Brasรญlia รฉ uma cidade รบnica e especial devido ao seu design inovador, pontos turรญsticos icรดnicos, conexรฃo histรณrica com o desenvolvimento do Brasil e compromisso com a inclusรฃo social.
</s>

Paramentros de trainamento

- learning_rate: 1e-05
- train_batch_size: 4
- eval_batch_size: 4
- seed: 42
- distributed_type: multi-GPU
- num_devices: 2
- gradient_accumulation_steps: 8
- total_train_batch_size: 64
- total_eval_batch_size: 8
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: cosine
- lr_scheduler_warmup_ratio: 0.01
- num_epochs: 3

Framework

  • Transformers 4.39.0.dev0
  • Pytorch 2.1.2+cu118
  • Datasets 2.14.6
  • Tokenizers 0.15.2

Uso

O modelo รฉ destinado, por agora, a fins de pesquisa. As รกreas e tarefas de pesquisa possรญveis incluem:

  • Pesquisa sobre modelos gerativos.
  • Investigaรงรฃo e compreensรฃo das limitaรงรตes e viรฉses de modelos gerativos.

Proibido para uso comercial. Somente Pesquisa.

Evals

Tasks Version Filter n-shot Metric Value Stderr
assin2_rte 1.1 all 15 f1_macro 0.8852 ยฑ 0.0046
all 15 acc 0.8852 ยฑ 0.0046
assin2_sts 1.1 all 15 pearson 0.7618 ยฑ 0.0067
all 15 mse 0.5283 ยฑ N/A
bluex 1.1 all 3 acc 0.5605 ยฑ 0.0107
exam_id__USP_2021 3 acc 0.5385 ยฑ 0.0400
exam_id__UNICAMP_2021_2 3 acc 0.5490 ยฑ 0.0401
exam_id__USP_2019 3 acc 0.4750 ยฑ 0.0455
exam_id__USP_2022 3 acc 0.4898 ยฑ 0.0413
exam_id__USP_2020 3 acc 0.5714 ยฑ 0.0381
exam_id__UNICAMP_2019 3 acc 0.6200 ยฑ 0.0398
exam_id__USP_2018 3 acc 0.5000 ยฑ 0.0392
exam_id__USP_2024 3 acc 0.7073 ยฑ 0.0411
exam_id__UNICAMP_2020 3 acc 0.6000 ยฑ 0.0382
exam_id__UNICAMP_2024 3 acc 0.6000 ยฑ 0.0422
exam_id__USP_2023 3 acc 0.5682 ยฑ 0.0429
exam_id__UNICAMP_2018 3 acc 0.4444 ยฑ 0.0391
exam_id__UNICAMP_2021_1 3 acc 0.4783 ยฑ 0.0425
exam_id__UNICAMP_2023 3 acc 0.6047 ยฑ 0.0430
exam_id__UNICAMP_2022 3 acc 0.7179 ยฑ 0.0416
enem 1.1 all 3 acc 0.6921 ยฑ 0.0071
exam_id__2012 3 acc 0.7241 ยฑ 0.0240
exam_id__2015 3 acc 0.7059 ยฑ 0.0241
exam_id__2023 3 acc 0.6741 ยฑ 0.0233
exam_id__2016_2 3 acc 0.6992 ยฑ 0.0238
exam_id__2022 3 acc 0.6090 ยฑ 0.0245
exam_id__2010 3 acc 0.7436 ยฑ 0.0233
exam_id__2016 3 acc 0.6612 ยฑ 0.0248
exam_id__2009 3 acc 0.7391 ยฑ 0.0236
exam_id__2014 3 acc 0.6606 ยฑ 0.0262
exam_id__2017 3 acc 0.7155 ยฑ 0.0241
exam_id__2011 3 acc 0.7778 ยฑ 0.0222
exam_id__2013 3 acc 0.6019 ยฑ 0.0272
faquad_nli 1.1 all 15 f1_macro 0.5780 ยฑ 0.0165
all 15 acc 0.7785 ยฑ 0.0115
hatebr_offensive_binary 1.0 all 25 f1_macro 0.7632 ยฑ 0.0082
all 25 acc 0.7736 ยฑ 0.0079
oab_exams 1.5 all 3 acc 0.4323 ยฑ 0.0061
exam_id__2015-18 3 acc 0.5000 ยฑ 0.0322
exam_id__2015-17 3 acc 0.5128 ยฑ 0.0326
exam_id__2010-01 3 acc 0.3412 ยฑ 0.0297
exam_id__2016-21 3 acc 0.4000 ยฑ 0.0317
exam_id__2012-06 3 acc 0.4500 ยฑ 0.0322
exam_id__2011-05 3 acc 0.3750 ยฑ 0.0313
exam_id__2016-20a 3 acc 0.3250 ยฑ 0.0302
exam_id__2018-25 3 acc 0.4250 ยฑ 0.0319
exam_id__2016-19 3 acc 0.4359 ยฑ 0.0325
exam_id__2017-22 3 acc 0.4250 ยฑ 0.0319
exam_id__2016-20 3 acc 0.3875 ยฑ 0.0315
exam_id__2014-14 3 acc 0.4875 ยฑ 0.0324
exam_id__2017-24 3 acc 0.4625 ยฑ 0.0322
exam_id__2017-23 3 acc 0.4250 ยฑ 0.0320
exam_id__2012-06a 3 acc 0.4625 ยฑ 0.0321
exam_id__2014-15 3 acc 0.5256 ยฑ 0.0326
exam_id__2012-09 3 acc 0.3377 ยฑ 0.0310
exam_id__2012-07 3 acc 0.4500 ยฑ 0.0322
exam_id__2014-13 3 acc 0.4500 ยฑ 0.0322
exam_id__2012-08 3 acc 0.4750 ยฑ 0.0323
exam_id__2013-11 3 acc 0.4250 ยฑ 0.0319
exam_id__2011-03 3 acc 0.3636 ยฑ 0.0279
exam_id__2013-12 3 acc 0.4625 ยฑ 0.0321
exam_id__2011-04 3 acc 0.3875 ยฑ 0.0315
exam_id__2010-02 3 acc 0.5400 ยฑ 0.0288
exam_id__2013-10 3 acc 0.4250 ยฑ 0.0320
exam_id__2015-16 3 acc 0.4125 ยฑ 0.0318
portuguese_hate_speech_binary 1.0 all 25 f1_macro 0.6969 ยฑ 0.0119
all 25 acc 0.7356 ยฑ 0.0107

Open Portuguese LLM Leaderboard Evaluation Results

Detailed results can be found here

Metric Value
Average 66.99
ENEM Challenge (No Images) 69.21
BLUEX (No Images) 56.05
OAB Exams 43.23
Assin2 RTE 88.52
Assin2 STS 76.17
FaQuAD NLI 57.80
HateBR Binary 76.32
PT Hate Speech Binary 69.69
tweetSentBR 65.96
Downloads last month
16
Safetensors
Model size
7.72B params
Tensor type
BF16
ยท
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for botbot-ai/CabraQwen7b

Finetuned
(42)
this model
Quantizations
3 models

Space using botbot-ai/CabraQwen7b 1

Collection including botbot-ai/CabraQwen7b

Evaluation results