khang119966
commited on
Commit
•
33a156a
1
Parent(s):
e58c480
Update README.md
Browse files
README.md
CHANGED
@@ -17,17 +17,16 @@ tags:
|
|
17 |
<img src="Vintern3B-logo.jpg" width="700"/>
|
18 |
</div>
|
19 |
|
20 |
-
##
|
21 |
-
|
22 |
-
**What's new in Vintern-3B-beta!**
|
23 |
-
- **We successfully reproduced the training process of InternVL from scratch.**
|
24 |
-
- The model is the result of integrating [Qwen/Qwen2.5-3B-Instruct](https://huggingface.co/Qwen/Qwen2.5-3B-Instruct) and [InternViT-300M-448px](https://huggingface.co/OpenGVLab/InternViT-300M-448px) through an MLP layer.
|
25 |
-
- Trained with more than 10 Milion Vietnamese QnAs, Descriptions, and 10% English, Chinese Data from [OpenGVLab/InternVL-Chat-V1-2-SFT-Data](https://huggingface.co/datasets/OpenGVLab/InternVL-Chat-V1-2-SFT-Data).
|
26 |
|
|
|
|
|
|
|
|
|
27 |
|
28 |
## Colpali Benchmarks
|
29 |
|
30 |
-
We tested on the **ViDoRe
|
31 |
|
32 |
| | ArxivQ | DocQ | InfoQ | TATQ | AI | Energy | Gov. | Health. | Avg. |
|
33 |
|:------------------------------:|:--------:|:------:|:-------:|:------:|:------:|:--------:|:-------:|:---------:|:--------:|
|
@@ -52,6 +51,7 @@ We tested on the **ViDoRe** benchmark from the Colpali paper. The **TabF** and *
|
|
52 |
| **Ours** | | | | | | | | | |
|
53 |
| - ColVintern-1B (+Late Inter.) | 71.6 | 48.3 | **84.6** | 59.6 | 92.9 | 88.7 | 89.4 | **95.2** | 78.8 |
|
54 |
|
|
|
55 |
|
56 |
## Vietnamese Benchmarks
|
57 |
|
@@ -75,71 +75,6 @@ Assistant: Bức ảnh là một giao diện ứng dụng đặt hàng thức ă
|
|
75 |
```
|
76 |
|
77 |
|
78 |
-
<div align="center">
|
79 |
-
<img src="ex_1.jpg" width="400"/>
|
80 |
-
</div>
|
81 |
-
|
82 |
-
```
|
83 |
-
User: <image>
|
84 |
-
Liệt kê toàn bộ bài thơ có trong ảnh.
|
85 |
-
Assistant: Đi khắp thế gian không ai tốt bằng mẹ Gánh nặng cuộc đời không ai khổ bằng cha
|
86 |
-
```
|
87 |
-
|
88 |
-
<div align="center">
|
89 |
-
<img src="ex_2.jpg" width="400"/>
|
90 |
-
</div>
|
91 |
-
|
92 |
-
```
|
93 |
-
User: <image>
|
94 |
-
Liệt kê toàn bộ bài thơ có trong ảnh.
|
95 |
-
Assistant: Bài thơ có nội dung:
|
96 |
-
- Mẹ như một ngọn hải đăng
|
97 |
-
- Như ông mặt trời, như ông mặt trăng
|
98 |
-
- Ngày ngày vất vả, tảo tần
|
99 |
-
- Chăm lo con cái, làm việc siêng năng.
|
100 |
-
```
|
101 |
-
|
102 |
-
<div align="center">
|
103 |
-
<img src="ex_3.png" width="400"/>
|
104 |
-
</div>
|
105 |
-
|
106 |
-
```
|
107 |
-
User: <image>
|
108 |
-
Mô tả hình ảnh chi tiết.
|
109 |
-
Assistant: Bức ảnh chụp một bảng đen với các công thức toán học được viết bằng phấn trắng. Ở góc trên bên trái, có dòng chữ "20/19/SGK" được viết bằng màu vàng nhạt. Tiếp theo là phần a) với hai phương trình:
|
110 |
-
3x + y = 3
|
111 |
-
2x - y = 7
|
112 |
-
Dưới hai phương trình này là mũi tên chỉ sang phải và hai phương trình mới:
|
113 |
-
5x = 10
|
114 |
-
3x + y = 3
|
115 |
-
3.2 + y = 3
|
116 |
-
Sau đó là dòng chữ "x = 2"
|
117 |
-
y = -3
|
118 |
-
Cuối cùng là dòng chữ "Vậy hpt đã cho có no! (x; y) = (2; -3)"
|
119 |
-
```
|
120 |
-
|
121 |
-
<div align="center">
|
122 |
-
<img src="ex_4.jpg" width="400"/>
|
123 |
-
</div>
|
124 |
-
|
125 |
-
```
|
126 |
-
User: <image>
|
127 |
-
Mô tả hình ảnh chi tiết.
|
128 |
-
Assistant: Bức ảnh minh họa quá trình xử lý hình ảnh bằng mạng lưới thần kinh nhân tạo (CNN). Bức ảnh được chia thành 3 phần chính:
|
129 |
-
|
130 |
-
1. **Phần đầu tiên:** Hiển thị một hình ảnh của một chiếc xe hơi màu trắng với dòng chữ "input image" ở bên dưới.
|
131 |
-
2. **Phần thứ hai:** Hiển thị 6 khối vuông, mỗi khối đại diện cho một lớp trong mạng CNN. Các lớp được đánh số thứ tự từ trái sang phải:
|
132 |
-
* Convolutional layer
|
133 |
-
* Pooling layer
|
134 |
-
* Convolutional layer
|
135 |
-
* Pooling layer
|
136 |
-
* Fully-connected layer
|
137 |
-
* Predicted class
|
138 |
-
3. **Phần thứ ba:** Hiển thị một hình ảnh với dòng chữ "car" ở bên dưới.
|
139 |
-
|
140 |
-
Một mũi tên màu đen nối các khối vuông với nhau, thể hiện quá trình truyền dữ liệu giữa các lớp.
|
141 |
-
```
|
142 |
-
|
143 |
## Quickstart
|
144 |
|
145 |
|
|
|
17 |
<img src="Vintern3B-logo.jpg" width="700"/>
|
18 |
</div>
|
19 |
|
20 |
+
## ColVintern-1B-v1 🇻🇳 ❄️ - Colpali version for Vietnamese.
|
|
|
|
|
|
|
|
|
|
|
21 |
|
22 |
+
**What's new in ColVintern-1B-v1!**
|
23 |
+
- We coded and successfully trained the **Colpali pipeline for Vintern**. The model supports RAG by extracting vector embeddings for questions and images containing related information.
|
24 |
+
- This is the first experimental version, trained on the [**Colpali dataset**](https://huggingface.co/datasets/vidore/colpali_train_set) for English and **2%** of the image-based question-answer pairs we have for Vietnamese.
|
25 |
+
- The model achieves results nearly equivalent to Colpali version 1, with strong support for Vietnamese texts and only 1 billion parameters compared to current Colpali models.
|
26 |
|
27 |
## Colpali Benchmarks
|
28 |
|
29 |
+
We tested on the [**ViDoRe benchmark**](https://huggingface.co/collections/vidore/vidore-benchmark-667173f98e70a1c0fa4db00d) from the Colpali paper. The **TabF** and **Shift** test datasets were not used because they are in French. We plan to expand to multiple languages in the near future.
|
30 |
|
31 |
| | ArxivQ | DocQ | InfoQ | TATQ | AI | Energy | Gov. | Health. | Avg. |
|
32 |
|:------------------------------:|:--------:|:------:|:-------:|:------:|:------:|:--------:|:-------:|:---------:|:--------:|
|
|
|
51 |
| **Ours** | | | | | | | | | |
|
52 |
| - ColVintern-1B (+Late Inter.) | 71.6 | 48.3 | **84.6** | 59.6 | 92.9 | 88.7 | 89.4 | **95.2** | 78.8 |
|
53 |
|
54 |
+
We are expanding the training dataset for upcoming versions, including adding hard negative mining techniques, increasing GPU VRAM, etc., to achieve better results.
|
55 |
|
56 |
## Vietnamese Benchmarks
|
57 |
|
|
|
75 |
```
|
76 |
|
77 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
78 |
## Quickstart
|
79 |
|
80 |
|