metadata

language:
  - pt
  - en
license: cc
tags:
  - text-generation-inference
  - transformers
  - qwen
  - gguf
  - brazil
  - brasil
  - 14b
  - portuguese
base_model: Qwen/Qwen1.5-14B-Chat
pipeline_tag: text-generation

Cabra Qwen 14b

Esse modelo é um finetune do Qwen 1.5 14b Chat com o dataset interno Cabra 10k. Esse modelo é otimizado para português e responde em portuguese nativamente. Ele apresenta melhoria em vários benchmarks brasileiros em comparação com o modelo base.

Experimente o nosso demo aqui: CabraChat.

Conheça os nossos outros modelos Cabra.

Detalhes do Modelo

Modelo: Qwen 1.5 14b chat

Qwen1.5 é uma série de modelos de linguagem que inclui modelos de linguagem decodificadores de diferentes tamanhos de modelo. Para cada tamanho, lançamos o modelo de linguagem base e o modelo de chat alinhado. Baseia-se na arquitetura Transformer com ativação SwiGLU, viés de atenção QKV, atenção de consulta em grupo, mistura de atenção de janela deslizante e atenção completa, etc. Adicionalmente, temos um tokenizador melhorado adaptativo a múltiplas línguas naturais e códigos. Para a versão beta, temporariamente não incluímos GQA e a mistura de SWA e atenção completa.

dataset: Cabra 10k

Dataset interno para fine-tuning. Vamos lançar em breve.

Quantização / GGUF

Colocamos diversas versões (GGUF) quantanizadas no branch "quantanization".

Exemplo

<s> [INST]Quem são os jogadores brasileiros de futebol mais conhecidos, atuais e passados?? [/INST] 

O Brasil tem uma rica história na produção de alguns dos maiores jogadores de futebol do mundo. Alguns dos jogadores brasileiros mais importantes atualmente e que já jogaram incluem:

Pelé - amplamente considerado um dos maiores jogadores de todos os tempos, o Pelé venceu três Copas do Mundo com o Brasil e marcou mais de 1.000 gols em sua carreira.
Ronaldo Nazário de Lima - conhecido como Ronaldo, este jogador de ataque é o segundo maior artilheiro da história da seleção brasileira e ajudou o Brasil a vencer duas Copas do Mundo.

Ronaldinho Gaúcho - um criativo meio-campista ofensivo que jogou pelo Barcelona e pela AC Milan, o Ronaldinho foi nomeado Jogador Mundial FIFA de 2004 e ajudou o Brasil a vencer a Copa do Mundo de 2002.

Neymar Jr. - um dos melhores jogadores do mundo hoje, o Neymar desempenhou um papel fundamental ao liderar o Brasil para várias vitórias em torneios principais e é conhecido por suas habilidades incríveis de drible e capacidade de marcar gols.

Esses são apenas alguns exemplos dos muitos talentosos jogadores de futebol que vieram do Brasil ao longo de sua rica história.
</s>

Paramentros de trainamento

- learning_rate: 1e-05
- train_batch_size: 4
- eval_batch_size: 4
- seed: 42
- distributed_type: multi-GPU
- num_devices: 2
- gradient_accumulation_steps: 8
- total_train_batch_size: 64
- total_eval_batch_size: 8
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: cosine
- lr_scheduler_warmup_ratio: 0.01
- num_epochs: 3

Framework

Transformers 4.39.0.dev0
Pytorch 2.1.2+cu118
Datasets 2.14.6
Tokenizers 0.15.2

Uso

O modelo é destinado, por agora, a fins de pesquisa. As áreas e tarefas de pesquisa possíveis incluem:

Pesquisa sobre modelos gerativos.
Investigação e compreensão das limitações e vieses de modelos gerativos.

Proibido para uso comercial. Somente Pesquisa.

Evals

Tasks	Version	Filter	n-shot	Metric	Value	Stderr
assin2_rte	1.1	all	15	f1_macro	0.9142	± 0.0040
		all	15	acc	0.9142	± 0.0040
assin2_sts	1.1	all	15	pearson	0.8085	± 0.0059
		all	15	mse	0.4023	± N/A
bluex	1.1	all	3	acc	0.6078	± 0.0105
		exam_id__UNICAMP_2020	3	acc	0.5818	± 0.0385
		exam_id__UNICAMP_2021_1	3	acc	0.6087	± 0.0416
		exam_id__USP_2023	3	acc	0.6591	± 0.0410
		exam_id__USP_2020	3	acc	0.5714	± 0.0381
		exam_id__USP_2018	3	acc	0.5926	± 0.0385
		exam_id__UNICAMP_2018	3	acc	0.5556	± 0.0390
		exam_id__UNICAMP_2023	3	acc	0.6279	± 0.0426
		exam_id__USP_2024	3	acc	0.8293	± 0.0339
		exam_id__USP_2022	3	acc	0.5306	± 0.0411
		exam_id__USP_2019	3	acc	0.5750	± 0.0452
		exam_id__UNICAMP_2024	3	acc	0.6444	± 0.0412
		exam_id__UNICAMP_2019	3	acc	0.6400	± 0.0392
		exam_id__UNICAMP_2021_2	3	acc	0.5882	± 0.0397
		exam_id__USP_2021	3	acc	0.5577	± 0.0400
		exam_id__UNICAMP_2022	3	acc	0.6154	± 0.0450
enem	1.1	all	3	acc	0.7516	± 0.0066
		exam_id__2009	3	acc	0.7739	± 0.0225
		exam_id__2013	3	acc	0.7407	± 0.0244
		exam_id__2012	3	acc	0.7586	± 0.0230
		exam_id__2023	3	acc	0.6741	± 0.0233
		exam_id__2016	3	acc	0.7686	± 0.0220
		exam_id__2015	3	acc	0.7731	± 0.0221
		exam_id__2011	3	acc	0.8205	± 0.0205
		exam_id__2010	3	acc	0.7179	± 0.0241
		exam_id__2014	3	acc	0.7339	± 0.0245
		exam_id__2016_2	3	acc	0.7724	± 0.0219
		exam_id__2022	3	acc	0.7143	± 0.0227
		exam_id__2017	3	acc	0.7845	± 0.0220
faquad_nli	1.1	all	15	f1_macro	0.4605	± 0.0093
		all	15	acc	0.7862	± 0.0114
hatebr_offensive_binary	1.0	all	25	f1_macro	0.7932	± 0.0077
		all	25	acc	0.7986	± 0.0076
oab_exams	1.5	all	3	acc	0.4989	± 0.0062
		exam_id__2012-08	3	acc	0.5250	± 0.0322
		exam_id__2015-17	3	acc	0.6795	± 0.0305
		exam_id__2016-21	3	acc	0.4000	± 0.0316
		exam_id__2013-12	3	acc	0.4750	± 0.0323
		exam_id__2010-02	3	acc	0.5300	± 0.0288
		exam_id__2011-04	3	acc	0.4625	± 0.0323
		exam_id__2011-05	3	acc	0.5750	± 0.0319
		exam_id__2015-18	3	acc	0.5250	± 0.0322
		exam_id__2012-07	3	acc	0.4750	± 0.0323
		exam_id__2013-11	3	acc	0.4750	± 0.0322
		exam_id__2012-09	3	acc	0.4156	± 0.0324
		exam_id__2014-13	3	acc	0.4875	± 0.0323
		exam_id__2015-16	3	acc	0.5500	± 0.0321
		exam_id__2017-23	3	acc	0.3875	± 0.0314
		exam_id__2017-24	3	acc	0.5250	± 0.0322
		exam_id__2018-25	3	acc	0.5250	± 0.0323
		exam_id__2012-06	3	acc	0.4125	± 0.0317
		exam_id__2010-01	3	acc	0.3882	± 0.0305
		exam_id__2011-03	3	acc	0.4646	± 0.0288
		exam_id__2014-14	3	acc	0.5750	± 0.0319
		exam_id__2016-20a	3	acc	0.4875	± 0.0323
		exam_id__2012-06a	3	acc	0.5500	± 0.0320
		exam_id__2016-20	3	acc	0.5375	± 0.0322
		exam_id__2016-19	3	acc	0.4231	± 0.0322
		exam_id__2013-10	3	acc	0.5125	± 0.0323
		exam_id__2017-22	3	acc	0.5250	± 0.0322
		exam_id__2014-15	3	acc	0.5897	± 0.0323
portuguese_hate_speech_binary	1.0	all	25	f1_macro	0.7180	± 0.0115
		all	25	acc	0.7462	± 0.0106