Update README.md
Browse files
README.md
CHANGED
@@ -1,3 +1,82 @@
|
|
1 |
-
---
|
2 |
-
license: cc
|
3 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
license: cc
|
3 |
+
---
|
4 |
+
# Fine-Tuning do Modelo `microsoft/git-base` com o Dataset #PraCegoVer
|
5 |
+
|
6 |
+
Este repositório contém um modelo de fine-tuning baseado no `microsoft/git-base`, ajustado usando uma amostra de 8070 imagens do dataset [#PraCegoVer](https://zenodo.org/records/5710562). O vocabulário foi traduzido automaticamente utilizando o modelo `Helsinki-NLP/opus-mt-tc-big-en-pt`.
|
7 |
+
|
8 |
+
## Descrição do Modelo
|
9 |
+
|
10 |
+
O modelo original `microsoft/git-base` foi ajustado para melhorar a geração de descrições em português para imagens, visando proporcionar maior acessibilidade para pessoas com deficiência visual.
|
11 |
+
|
12 |
+
## Dataset Utilizado
|
13 |
+
|
14 |
+
O dataset utilizado para o fine-tuning é o [#PraCegoVer](https://zenodo.org/records/5710562), que contém imagens anotadas com descrições detalhadas em português. Este dataset é uma iniciativa importante para promover a inclusão e acessibilidade de pessoas com deficiência visual.
|
15 |
+
|
16 |
+
- **Total de Imagens Utilizadas**: 8070
|
17 |
+
- **Fonte do Dataset**: [Zenodo](https://zenodo.org/records/5710562)
|
18 |
+
|
19 |
+
## Tradução do Vocabulário
|
20 |
+
|
21 |
+
Para traduzir o vocabulário das descrições das imagens para o português, utilizamos o modelo de tradução automática `Helsinki-NLP/opus-mt-tc-big-en-pt`. Este modelo é conhecido pela sua eficácia na tradução de textos entre o inglês e o português, garantindo a manutenção do contexto e da precisão das descrições.
|
22 |
+
|
23 |
+
## Estrutura do Repositório
|
24 |
+
|
25 |
+
- `config.json`: Configuração do modelo.
|
26 |
+
- `generation_config.json`: Configurações para geração de texto.
|
27 |
+
- `model.safetensors` e `pytorch_model.bin`: Pesos do modelo.
|
28 |
+
- `preprocessor_config.json`: Configurações do pré-processador.
|
29 |
+
- `special_tokens_map.json`: Mapeamento de tokens especiais.
|
30 |
+
- `tokenizer.json`: Arquivo do tokenizer.
|
31 |
+
- `tokenizer_config.json`: Configurações do tokenizer.
|
32 |
+
- `vocab.txt`: Arquivo de vocabulário.
|
33 |
+
|
34 |
+
## Como Utilizar
|
35 |
+
|
36 |
+
1. **Carregar o Modelo**:
|
37 |
+
```python
|
38 |
+
from transformers import AutoModelForCausalLM, AutoTokenizer, AutoProcessor
|
39 |
+
|
40 |
+
model = AutoModelForCausalLM.from_pretrained("seu-usuario/nome-do-repositorio")
|
41 |
+
tokenizer = AutoTokenizer.from_pretrained("seu-usuario/nome-do-repositorio")
|
42 |
+
processor = AutoProcessor.from_pretrained("seu-usuario/nome-do-repositorio")
|
43 |
+
```
|
44 |
+
|
45 |
+
2. **Gerar Legendas para uma Imagem**:
|
46 |
+
```python
|
47 |
+
from PIL import Image
|
48 |
+
import torch
|
49 |
+
|
50 |
+
def generate_caption(model, processor, image_path, device):
|
51 |
+
img = Image.open(image_path).convert("RGB")
|
52 |
+
inputs = processor(images=img, return_tensors="pt").to(device)
|
53 |
+
pixel_values = inputs.pixel_values
|
54 |
+
|
55 |
+
model.eval()
|
56 |
+
with torch.no_grad():
|
57 |
+
generated_ids = model.generate(pixel_values=pixel_values, max_length=50)
|
58 |
+
generated_caption = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
|
59 |
+
|
60 |
+
return generated_caption, img
|
61 |
+
|
62 |
+
device = "cuda" if torch.cuda.is_available() else "cpu"
|
63 |
+
model.to(device)
|
64 |
+
|
65 |
+
# Exemplo de imagem para inferência
|
66 |
+
image_path = "caminho/para/sua/imagem.jpg"
|
67 |
+
generated_caption, img = generate_caption(model, processor, image_path, device)
|
68 |
+
|
69 |
+
print("Generated Caption:", generated_caption)
|
70 |
+
```
|
71 |
+
|
72 |
+
## Contribuições
|
73 |
+
|
74 |
+
Contribuições são bem-vindas! Sinta-se à vontade para abrir issues ou pull requests para melhorar este repositório.
|
75 |
+
|
76 |
+
## Licença
|
77 |
+
|
78 |
+
Este projeto está licenciado sob os termos da licença MIT. Veja o arquivo [LICENSE](LICENSE) para mais detalhes.
|
79 |
+
|
80 |
+
## Agradecimentos
|
81 |
+
|
82 |
+
Agradecemos à equipe do [Hugging Face](https://huggingface.co/) por fornecer as ferramentas e os modelos que possibilitaram este trabalho, e ao projeto [#PraCegoVer](https://zenodo.org/records/5710562) pela disponibilização do dataset.
|