khang119966 commited on
Commit
33a156a
1 Parent(s): e58c480

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +7 -72
README.md CHANGED
@@ -17,17 +17,16 @@ tags:
17
  <img src="Vintern3B-logo.jpg" width="700"/>
18
  </div>
19
 
20
- ## Vintern-3B-beta 🇻🇳 ❄️ - The LLaVA 🌋 Challenger
21
-
22
- **What's new in Vintern-3B-beta!**
23
- - **We successfully reproduced the training process of InternVL from scratch.**
24
- - The model is the result of integrating [Qwen/Qwen2.5-3B-Instruct](https://huggingface.co/Qwen/Qwen2.5-3B-Instruct) and [InternViT-300M-448px](https://huggingface.co/OpenGVLab/InternViT-300M-448px) through an MLP layer.
25
- - Trained with more than 10 Milion Vietnamese QnAs, Descriptions, and 10% English, Chinese Data from [OpenGVLab/InternVL-Chat-V1-2-SFT-Data](https://huggingface.co/datasets/OpenGVLab/InternVL-Chat-V1-2-SFT-Data).
26
 
 
 
 
 
27
 
28
  ## Colpali Benchmarks
29
 
30
- We tested on the **ViDoRe** benchmark from the Colpali paper. The **TabF** and **Shift** test datasets were not used because they are in French. We plan to expand to multiple languages in the near future.
31
 
32
  | | ArxivQ | DocQ | InfoQ | TATQ | AI | Energy | Gov. | Health. | Avg. |
33
  |:------------------------------:|:--------:|:------:|:-------:|:------:|:------:|:--------:|:-------:|:---------:|:--------:|
@@ -52,6 +51,7 @@ We tested on the **ViDoRe** benchmark from the Colpali paper. The **TabF** and *
52
  | **Ours** | | | | | | | | | |
53
  | - ColVintern-1B (+Late Inter.) | 71.6 | 48.3 | **84.6** | 59.6 | 92.9 | 88.7 | 89.4 | **95.2** | 78.8 |
54
 
 
55
 
56
  ## Vietnamese Benchmarks
57
 
@@ -75,71 +75,6 @@ Assistant: Bức ảnh là một giao diện ứng dụng đặt hàng thức ă
75
  ```
76
 
77
 
78
- <div align="center">
79
- <img src="ex_1.jpg" width="400"/>
80
- </div>
81
-
82
- ```
83
- User: <image>
84
- Liệt kê toàn bộ bài thơ có trong ảnh.
85
- Assistant: Đi khắp thế gian không ai tốt bằng mẹ Gánh nặng cuộc đời không ai khổ bằng cha
86
- ```
87
-
88
- <div align="center">
89
- <img src="ex_2.jpg" width="400"/>
90
- </div>
91
-
92
- ```
93
- User: <image>
94
- Liệt kê toàn bộ bài thơ có trong ảnh.
95
- Assistant: Bài thơ có nội dung:
96
- - Mẹ như một ngọn hải đăng
97
- - Như ông mặt trời, như ông mặt trăng
98
- - Ngày ngày vất vả, tảo tần
99
- - Chăm lo con cái, làm việc siêng năng.
100
- ```
101
-
102
- <div align="center">
103
- <img src="ex_3.png" width="400"/>
104
- </div>
105
-
106
- ```
107
- User: <image>
108
- Mô tả hình ảnh chi tiết.
109
- Assistant: Bức ảnh chụp một bảng đen với các công thức toán học được viết bằng phấn trắng. Ở góc trên bên trái, có dòng chữ "20/19/SGK" được viết bằng màu vàng nhạt. Tiếp theo là phần a) với hai phương trình:
110
- 3x + y = 3
111
- 2x - y = 7
112
- Dưới hai phương trình này là mũi tên chỉ sang phải và hai phương trình mới:
113
- 5x = 10
114
- 3x + y = 3
115
- 3.2 + y = 3
116
- Sau đó là dòng chữ "x = 2"
117
- y = -3
118
- Cuối cùng là dòng chữ "Vậy hpt đã cho có no! (x; y) = (2; -3)"
119
- ```
120
-
121
- <div align="center">
122
- <img src="ex_4.jpg" width="400"/>
123
- </div>
124
-
125
- ```
126
- User: <image>
127
- Mô tả hình ảnh chi tiết.
128
- Assistant: Bức ảnh minh họa quá trình xử lý hình ảnh bằng mạng lưới thần kinh nhân tạo (CNN). Bức ảnh được chia thành 3 phần chính:
129
-
130
- 1. **Phần đầu tiên:** Hiển thị một hình ảnh của một chiếc xe hơi màu trắng với dòng chữ "input image" ở bên dưới.
131
- 2. **Phần thứ hai:** Hiển thị 6 khối vuông, mỗi khối đại diện cho một lớp trong mạng CNN. Các lớp được đánh số thứ tự từ trái sang phải:
132
- * Convolutional layer
133
- * Pooling layer
134
- * Convolutional layer
135
- * Pooling layer
136
- * Fully-connected layer
137
- * Predicted class
138
- 3. **Phần thứ ba:** Hiển thị một hình ảnh với dòng chữ "car" ở bên dưới.
139
-
140
- Một mũi tên màu đen nối các khối vuông với nhau, thể hiện quá trình truyền dữ liệu giữa các lớp.
141
- ```
142
-
143
  ## Quickstart
144
 
145
 
 
17
  <img src="Vintern3B-logo.jpg" width="700"/>
18
  </div>
19
 
20
+ ## ColVintern-1B-v1 🇻🇳 ❄️ - Colpali version for Vietnamese.
 
 
 
 
 
21
 
22
+ **What's new in ColVintern-1B-v1!**
23
+ - We coded and successfully trained the **Colpali pipeline for Vintern**. The model supports RAG by extracting vector embeddings for questions and images containing related information.
24
+ - This is the first experimental version, trained on the [**Colpali dataset**](https://huggingface.co/datasets/vidore/colpali_train_set) for English and **2%** of the image-based question-answer pairs we have for Vietnamese.
25
+ - The model achieves results nearly equivalent to Colpali version 1, with strong support for Vietnamese texts and only 1 billion parameters compared to current Colpali models.
26
 
27
  ## Colpali Benchmarks
28
 
29
+ We tested on the [**ViDoRe benchmark**](https://huggingface.co/collections/vidore/vidore-benchmark-667173f98e70a1c0fa4db00d) from the Colpali paper. The **TabF** and **Shift** test datasets were not used because they are in French. We plan to expand to multiple languages in the near future.
30
 
31
  | | ArxivQ | DocQ | InfoQ | TATQ | AI | Energy | Gov. | Health. | Avg. |
32
  |:------------------------------:|:--------:|:------:|:-------:|:------:|:------:|:--------:|:-------:|:---------:|:--------:|
 
51
  | **Ours** | | | | | | | | | |
52
  | - ColVintern-1B (+Late Inter.) | 71.6 | 48.3 | **84.6** | 59.6 | 92.9 | 88.7 | 89.4 | **95.2** | 78.8 |
53
 
54
+ We are expanding the training dataset for upcoming versions, including adding hard negative mining techniques, increasing GPU VRAM, etc., to achieve better results.
55
 
56
  ## Vietnamese Benchmarks
57
 
 
75
  ```
76
 
77
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
78
  ## Quickstart
79
 
80