histlearn commited on
Commit
e2f0e4d
·
verified ·
1 Parent(s): 569a972

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +82 -3
README.md CHANGED
@@ -1,3 +1,82 @@
1
- ---
2
- license: cc
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: cc
3
+ ---
4
+ # Fine-Tuning do Modelo `microsoft/git-base` com o Dataset #PraCegoVer
5
+
6
+ Este repositório contém um modelo de fine-tuning baseado no `microsoft/git-base`, ajustado usando uma amostra de 8070 imagens do dataset [#PraCegoVer](https://zenodo.org/records/5710562). O vocabulário foi traduzido automaticamente utilizando o modelo `Helsinki-NLP/opus-mt-tc-big-en-pt`.
7
+
8
+ ## Descrição do Modelo
9
+
10
+ O modelo original `microsoft/git-base` foi ajustado para melhorar a geração de descrições em português para imagens, visando proporcionar maior acessibilidade para pessoas com deficiência visual.
11
+
12
+ ## Dataset Utilizado
13
+
14
+ O dataset utilizado para o fine-tuning é o [#PraCegoVer](https://zenodo.org/records/5710562), que contém imagens anotadas com descrições detalhadas em português. Este dataset é uma iniciativa importante para promover a inclusão e acessibilidade de pessoas com deficiência visual.
15
+
16
+ - **Total de Imagens Utilizadas**: 8070
17
+ - **Fonte do Dataset**: [Zenodo](https://zenodo.org/records/5710562)
18
+
19
+ ## Tradução do Vocabulário
20
+
21
+ Para traduzir o vocabulário das descrições das imagens para o português, utilizamos o modelo de tradução automática `Helsinki-NLP/opus-mt-tc-big-en-pt`. Este modelo é conhecido pela sua eficácia na tradução de textos entre o inglês e o português, garantindo a manutenção do contexto e da precisão das descrições.
22
+
23
+ ## Estrutura do Repositório
24
+
25
+ - `config.json`: Configuração do modelo.
26
+ - `generation_config.json`: Configurações para geração de texto.
27
+ - `model.safetensors` e `pytorch_model.bin`: Pesos do modelo.
28
+ - `preprocessor_config.json`: Configurações do pré-processador.
29
+ - `special_tokens_map.json`: Mapeamento de tokens especiais.
30
+ - `tokenizer.json`: Arquivo do tokenizer.
31
+ - `tokenizer_config.json`: Configurações do tokenizer.
32
+ - `vocab.txt`: Arquivo de vocabulário.
33
+
34
+ ## Como Utilizar
35
+
36
+ 1. **Carregar o Modelo**:
37
+ ```python
38
+ from transformers import AutoModelForCausalLM, AutoTokenizer, AutoProcessor
39
+
40
+ model = AutoModelForCausalLM.from_pretrained("seu-usuario/nome-do-repositorio")
41
+ tokenizer = AutoTokenizer.from_pretrained("seu-usuario/nome-do-repositorio")
42
+ processor = AutoProcessor.from_pretrained("seu-usuario/nome-do-repositorio")
43
+ ```
44
+
45
+ 2. **Gerar Legendas para uma Imagem**:
46
+ ```python
47
+ from PIL import Image
48
+ import torch
49
+
50
+ def generate_caption(model, processor, image_path, device):
51
+ img = Image.open(image_path).convert("RGB")
52
+ inputs = processor(images=img, return_tensors="pt").to(device)
53
+ pixel_values = inputs.pixel_values
54
+
55
+ model.eval()
56
+ with torch.no_grad():
57
+ generated_ids = model.generate(pixel_values=pixel_values, max_length=50)
58
+ generated_caption = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
59
+
60
+ return generated_caption, img
61
+
62
+ device = "cuda" if torch.cuda.is_available() else "cpu"
63
+ model.to(device)
64
+
65
+ # Exemplo de imagem para inferência
66
+ image_path = "caminho/para/sua/imagem.jpg"
67
+ generated_caption, img = generate_caption(model, processor, image_path, device)
68
+
69
+ print("Generated Caption:", generated_caption)
70
+ ```
71
+
72
+ ## Contribuições
73
+
74
+ Contribuições são bem-vindas! Sinta-se à vontade para abrir issues ou pull requests para melhorar este repositório.
75
+
76
+ ## Licença
77
+
78
+ Este projeto está licenciado sob os termos da licença MIT. Veja o arquivo [LICENSE](LICENSE) para mais detalhes.
79
+
80
+ ## Agradecimentos
81
+
82
+ Agradecemos à equipe do [Hugging Face](https://huggingface.co/) por fornecer as ferramentas e os modelos que possibilitaram este trabalho, e ao projeto [#PraCegoVer](https://zenodo.org/records/5710562) pela disponibilização do dataset.