Cabra Qwen 7b

Esse modelo Γ© um finetune do Qwen 1.5 7b Chat com o dataset interno Cabra 10k. Esse modelo Γ© optimizado para portuguΓͺs e responde em portuguese nativamente. Ele apresenta melhoria em varios benchmarks brasileiros em comparaΓ§Γ£o com o modelo base.

Exprimente o nosso demo aqui: CabraChat.

ConheΓ§a os nossos outros modelos: Cabra.

Detalhes do Modelo

Modelo: Qwen 1.5 7b chat

Qwen1.5 Γ© uma sΓ©rie de modelos de linguagem que inclui modelos de linguagem decodificadores de diferentes tamanhos de modelo. Para cada tamanho, lanΓ§amos o modelo de linguagem base e o modelo de chat alinhado. Baseia-se na arquitetura Transformer com ativaΓ§Γ£o SwiGLU, viΓ©s de atenΓ§Γ£o QKV, atenΓ§Γ£o de consulta em grupo, mistura de atenΓ§Γ£o de janela deslizante e atenΓ§Γ£o completa, etc. Adicionalmente, temos um tokenizador melhorado adaptativo a mΓΊltiplas lΓ­nguas naturais e cΓ³digos. Para a versΓ£o beta, temporariamente nΓ£o incluΓ­mos GQA e a mistura de SWA e atenΓ§Γ£o completa.

dataset: Cabra 10k

Dataset interno para finetuning. Vamos lanΓ§ar em breve.

QuantizaΓ§Γ£o / GGUF

Colocamos diversas versΓ΅es (GGUF) quantanizadas no branch "quantanization".

Exemplo

<s> [INST] What makes BrasΓ­lia special? [/INST] BrasΓ­lia, a capital do Brasil, Γ© uma cidade ΓΊnica e especial por vΓ‘rias razΓ΅es. Estabelecida como o novo centro polΓ­tico do paΓ­s em 1960, ela foi projetada pelo arquiteto Oscar Niemeyer e pelo urbanista LΓΊcio Costa para ser um sΓ­mbolo da modernidade e progresso brasileiro.

Aqui estΓ£o algumas caracterΓ­sticas que tornam BrasΓ­lia especial:

Design Urbano: A cidade Γ© conhecida por seu design inovador e futurista, com seus arranha-cΓ©us imponentes, grandes praΓ§as abertas e espaΓ§os verdes extensos. O layout da cidade segue um padrΓ£o de grade, com cada distrito representando diferentes aspectos da cultura e histΓ³ria brasileira.

PraΓ§a dos TrΓͺs Poderes: EstΓ‘ enorme praΓ§a central Γ© cercada pelos prΓ©dios da Assembleia Nacional (conhecido como "PalΓ‘cio do Planalto"), Senado Federal e Supremo Tribunal Federal. Γ‰ um marco icΓ΄nico da cidade e um local popular para eventos polΓ­ticos.

Monumentos e Arquitetura: BrasΓ­lia possui muitos monumentos impressionantes e edifΓ­cios arquitetΓ΄nicos notΓ‘veis, incluindo o Museu Nacional de HistΓ³ria Natural e CiΓͺncias, o PlanetΓ‘rio Anhembi, o PalΓ‘cio da Alvorada e a BasΓ­lica Nossa Senhora Aparecida.

EspaΓ§os Verdes: A cidade Γ© cercada por parques e reservas naturais, proporcionando aos moradores e visitantes amplos espaΓ§os para relaxar, praticar esportes ou simplesmente apreciar a beleza natural do ambiente.

Cultura e Eventos: Como a capital nacional, BrasΓ­lia hospeda vΓ‘rios festivais culturais e eventos importantes ao longo do ano, como o Festival Internacional de Cinema de BrasΓ­lia, o Carnaval das NaΓ§Γ΅es Unidas e o Festival de MΓΊsica de VerΓ£o de BrasΓ­lia.
Significado HistΓ³rico: A construΓ§Γ£o de BrasΓ­lia marcou um momento significativo na histΓ³ria do Brasil, pois simbolizou sua independΓͺncia polΓ­tica e busca pela modernizaΓ§Γ£o. Ela tambΓ©m serviu como exemplo para outros paΓ­ses em desenvolvimento que buscavam criar novas capitais.

InclusΓ£o Social: BrasΓ­lia foi projetada levando em consideraΓ§Γ£o a inclusΓ£o social, com bairros bem planejados distribuΓ­dos uniformemente pela cidade para garantir acesso igualitΓ‘rio Γ  educaΓ§Γ£o, saΓΊde e serviΓ§os pΓΊblicos.

Em resumo, BrasΓ­lia Γ© uma cidade ΓΊnica e especial devido ao seu design inovador, pontos turΓ­sticos icΓ΄nicos, conexΓ£o histΓ³rica com o desenvolvimento do Brasil e compromisso com a inclusΓ£o social.
</s>

Paramentros de trainamento

- learning_rate: 1e-05
- train_batch_size: 4
- eval_batch_size: 4
- seed: 42
- distributed_type: multi-GPU
- num_devices: 2
- gradient_accumulation_steps: 8
- total_train_batch_size: 64
- total_eval_batch_size: 8
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: cosine
- lr_scheduler_warmup_ratio: 0.01
- num_epochs: 3

Framework

  • Transformers 4.39.0.dev0
  • Pytorch 2.1.2+cu118
  • Datasets 2.14.6
  • Tokenizers 0.15.2

Uso

O modelo Γ© destinado, por agora, a fins de pesquisa. As Γ‘reas e tarefas de pesquisa possΓ­veis incluem:

  • Pesquisa sobre modelos gerativos.
  • InvestigaΓ§Γ£o e compreensΓ£o das limitaΓ§Γ΅es e viΓ©ses de modelos gerativos.

Proibido para uso comercial. Somente Pesquisa.

Evals

Tasks Version Filter n-shot Metric Value Stderr
assin2_rte 1.1 all 15 f1_macro 0.8852 Β± 0.0046
all 15 acc 0.8852 Β± 0.0046
assin2_sts 1.1 all 15 pearson 0.7618 Β± 0.0067
all 15 mse 0.5283 Β± N/A
bluex 1.1 all 3 acc 0.5605 Β± 0.0107
exam_id__USP_2021 3 acc 0.5385 Β± 0.0400
exam_id__UNICAMP_2021_2 3 acc 0.5490 Β± 0.0401
exam_id__USP_2019 3 acc 0.4750 Β± 0.0455
exam_id__USP_2022 3 acc 0.4898 Β± 0.0413
exam_id__USP_2020 3 acc 0.5714 Β± 0.0381
exam_id__UNICAMP_2019 3 acc 0.6200 Β± 0.0398
exam_id__USP_2018 3 acc 0.5000 Β± 0.0392
exam_id__USP_2024 3 acc 0.7073 Β± 0.0411
exam_id__UNICAMP_2020 3 acc 0.6000 Β± 0.0382
exam_id__UNICAMP_2024 3 acc 0.6000 Β± 0.0422
exam_id__USP_2023 3 acc 0.5682 Β± 0.0429
exam_id__UNICAMP_2018 3 acc 0.4444 Β± 0.0391
exam_id__UNICAMP_2021_1 3 acc 0.4783 Β± 0.0425
exam_id__UNICAMP_2023 3 acc 0.6047 Β± 0.0430
exam_id__UNICAMP_2022 3 acc 0.7179 Β± 0.0416
enem 1.1 all 3 acc 0.6921 Β± 0.0071
exam_id__2012 3 acc 0.7241 Β± 0.0240
exam_id__2015 3 acc 0.7059 Β± 0.0241
exam_id__2023 3 acc 0.6741 Β± 0.0233
exam_id__2016_2 3 acc 0.6992 Β± 0.0238
exam_id__2022 3 acc 0.6090 Β± 0.0245
exam_id__2010 3 acc 0.7436 Β± 0.0233
exam_id__2016 3 acc 0.6612 Β± 0.0248
exam_id__2009 3 acc 0.7391 Β± 0.0236
exam_id__2014 3 acc 0.6606 Β± 0.0262
exam_id__2017 3 acc 0.7155 Β± 0.0241
exam_id__2011 3 acc 0.7778 Β± 0.0222
exam_id__2013 3 acc 0.6019 Β± 0.0272
faquad_nli 1.1 all 15 f1_macro 0.5780 Β± 0.0165
all 15 acc 0.7785 Β± 0.0115
hatebr_offensive_binary 1.0 all 25 f1_macro 0.7632 Β± 0.0082
all 25 acc 0.7736 Β± 0.0079
oab_exams 1.5 all 3 acc 0.4323 Β± 0.0061
exam_id__2015-18 3 acc 0.5000 Β± 0.0322
exam_id__2015-17 3 acc 0.5128 Β± 0.0326
exam_id__2010-01 3 acc 0.3412 Β± 0.0297
exam_id__2016-21 3 acc 0.4000 Β± 0.0317
exam_id__2012-06 3 acc 0.4500 Β± 0.0322
exam_id__2011-05 3 acc 0.3750 Β± 0.0313
exam_id__2016-20a 3 acc 0.3250 Β± 0.0302
exam_id__2018-25 3 acc 0.4250 Β± 0.0319
exam_id__2016-19 3 acc 0.4359 Β± 0.0325
exam_id__2017-22 3 acc 0.4250 Β± 0.0319
exam_id__2016-20 3 acc 0.3875 Β± 0.0315
exam_id__2014-14 3 acc 0.4875 Β± 0.0324
exam_id__2017-24 3 acc 0.4625 Β± 0.0322
exam_id__2017-23 3 acc 0.4250 Β± 0.0320
exam_id__2012-06a 3 acc 0.4625 Β± 0.0321
exam_id__2014-15 3 acc 0.5256 Β± 0.0326
exam_id__2012-09 3 acc 0.3377 Β± 0.0310
exam_id__2012-07 3 acc 0.4500 Β± 0.0322
exam_id__2014-13 3 acc 0.4500 Β± 0.0322
exam_id__2012-08 3 acc 0.4750 Β± 0.0323
exam_id__2013-11 3 acc 0.4250 Β± 0.0319
exam_id__2011-03 3 acc 0.3636 Β± 0.0279
exam_id__2013-12 3 acc 0.4625 Β± 0.0321
exam_id__2011-04 3 acc 0.3875 Β± 0.0315
exam_id__2010-02 3 acc 0.5400 Β± 0.0288
exam_id__2013-10 3 acc 0.4250 Β± 0.0320
exam_id__2015-16 3 acc 0.4125 Β± 0.0318
portuguese_hate_speech_binary 1.0 all 25 f1_macro 0.6969 Β± 0.0119
all 25 acc 0.7356 Β± 0.0107

Open Portuguese LLM Leaderboard Evaluation Results

Detailed results can be found here

Metric Value
Average 66.99
ENEM Challenge (No Images) 69.21
BLUEX (No Images) 56.05
OAB Exams 43.23
Assin2 RTE 88.52
Assin2 STS 76.17
FaQuAD NLI 57.80
HateBR Binary 76.32
PT Hate Speech Binary 69.69
tweetSentBR 65.96
Downloads last month
18
Safetensors
Model size
7.72B params
Tensor type
BF16
Β·
Inference Providers NEW
This model isn't deployed by any Inference Provider. πŸ™‹ Ask for provider support

Model tree for botbot-ai/CabraQwen7b

Finetuned
(46)
this model
Quantizations
3 models

Spaces using botbot-ai/CabraQwen7b 7

Collection including botbot-ai/CabraQwen7b

Evaluation results