---
library_name: transformers
language:
- vi
- en
base_model:
- 5CD-AI/Vintern-1B-v2
datasets:
- vidore/colpali_train_set
- 5CD-AI/Viet-Doc-VQA
- 5CD-AI/Viet-OCR-VQA
- 5CD-AI/Viet-Doc-VQA-II
tags:
- colpali
---
## Vintern-3B-beta 🇻🇳 ❄️ - The LLaVA 🌋 Challenger
**What's new in Vintern-3B-beta!**
- **We successfully reproduced the training process of InternVL from scratch.**
- The model is the result of integrating [Qwen/Qwen2.5-3B-Instruct](https://huggingface.co/Qwen/Qwen2.5-3B-Instruct) and [InternViT-300M-448px](https://huggingface.co/OpenGVLab/InternViT-300M-448px) through an MLP layer.
- Trained with more than 10 Milion Vietnamese QnAs, Descriptions, and 10% English, Chinese Data from [OpenGVLab/InternVL-Chat-V1-2-SFT-Data](https://huggingface.co/datasets/OpenGVLab/InternVL-Chat-V1-2-SFT-Data).
## Colpali Benchmarks
We tested on the **ViDoRe** benchmark from the Colpali paper. The **TabF** and **Shift** test datasets were not used because they are in French. We plan to expand to multiple languages in the near future.
| | ArxivQ | DocQ | InfoQ | TATQ | AI | Energy | Gov. | Health. | Avg. |
|:------------------------------:|:--------:|:------:|:-------:|:------:|:------:|:--------:|:-------:|:---------:|:--------:|
| **Unstructured** Text only | | | | | | | | | |
| - BM25 | - | 34.1 | - | 44.0 | 90.4 | 78.3 | 78.8 | 82.6 | - |
| - BGE-M3 | - | 28.4 | - | 36.1 | 88.4 | 76.8 | 77.7 | 84.6 | - |
| **Unstructured** + OCR | | | | | | | | | |
| - BM25 | 31.6 | 36.8 | 62.9 | 62.7 | 92.8 | 85.9 | 83.9 | 87.2 | 68.0 |
| - BGE-M3 | 31.4 | 25.7 | 60.1 | 50.5 | 90.2 | 83.6 | 84.9 | 91.1 | 64.7 |
| **Unstructured** + Captioning | | | | | | | | | |
| - BM25 | 40.1 | 38.4 | 70.0 | 61.5 | 88.0 | 84.7 | 82.7 | 89.2 | 69.3 |
| - BGE-M3 | 35.7 | 32.9 | 71.9 | 43.8 | 88.8 | 83.3 | 80.4 | 91.3 | 66.0 |
| **Contrastive VLMs** | | | | | | | | | |
| - Jina-CLIP | 25.4 | 11.9 | 35.5 | 3.3 | 15.2 | 19.7 | 21.4 | 20.8 | 19.2 |
| - Nomic-vision | 17.1 | 10.7 | 30.1 | 2.7 | 12.9 | 10.9 | 11.4 | 15.7 | 13.9 |
| - SigLIP (Vanilla) | 43.2 | 30.3 | 64.1 | 26.2 | 62.5 | 65.7 | 66.1 | 79.1 | 54.7 |
| **Colpali** | | | | | | | | | |
| - SigLIP (Vanilla) | 43.2 | 30.3 | 64.1 | 26.2 | 62.5 | 65.7 | 66.1 | 79.1 | 54.7 |
| - BiSigLIP (+fine-tuning) | 58.5 | 32.9 | 70.5 | 30.5 | 74.3 | 73.7 | 74.2 | 82.3 | 62.1 |
| - BiPali (+LLM) | 56.5 | 30.0 | 67.4 | 33.4 | 71.2 | 61.9 | 73.8 | 73.6 | 58.5 |
| - ColPali (+Late Inter.) | **79.1** | **54.4** | 81.8 | **65.8** | **96.2** | **91.0** | **92.7** | 94.4 | **81.3** |
| **Ours** | | | | | | | | | |
| - ColVintern-1B (+Late Inter.) | 71.6 | 48.3 | **84.6** | 59.6 | 92.9 | 88.7 | 89.4 | **95.2** | 78.8 |
## Vietnamese Benchmarks
## Examples
```
User:
Mô tả hình ảnh chi tiết.
Assistant: Bức ảnh là một giao diện ứng dụng đặt hàng thức ăn trực tuyến. Giao diện được chia thành các phần:
- Phần đầu tiên hiển thị thông báo "Sẽ xong lúc 10:50 SA" và dòng chữ "Bếp đang thực hiện món.". Bên cạnh đó là biểu tượng bếp đang hoạt động với thanh tiến độ màu xanh lá cây.
- Tiếp theo là dòng chữ "Vui lòng đến lấy món trước 12:50".
- Phần tiếp theo là thông tin về quán cà phê "Wego Coffee - Mapletree Business Centre", kèm theo dòng chữ "#GF-29".
- Dòng chữ "Đừng quên kiểm tra lại để chắc rằng bạn nhận đúng món nhé!" được hiển thị trong một khung hình chữ nhật màu be.
- Phần cuối cùng là thông tin về đơn hàng, bao gồm logo quán cà phê, dòng chữ "Wego Coffee - Mapletree Business Centre", dòng chữ "Tổng cộng", giá trị đơn hàng (70.000đ), giá trị thanh toán (120.000đ) và dòng chữ "Merchants has not started a chat".
- Cuối cùng là nút "Xem tóm tắt đơn hàng" và nút "Đã lấy món" có màu xanh lá cây.
```
```
User:
Liệt kê toàn bộ bài thơ có trong ảnh.
Assistant: Đi khắp thế gian không ai tốt bằng mẹ Gánh nặng cuộc đời không ai khổ bằng cha
```
```
User:
Liệt kê toàn bộ bài thơ có trong ảnh.
Assistant: Bài thơ có nội dung:
- Mẹ như một ngọn hải đăng
- Như ông mặt trời, như ông mặt trăng
- Ngày ngày vất vả, tảo tần
- Chăm lo con cái, làm việc siêng năng.
```
```
User:
Mô tả hình ảnh chi tiết.
Assistant: Bức ảnh chụp một bảng đen với các công thức toán học được viết bằng phấn trắng. Ở góc trên bên trái, có dòng chữ "20/19/SGK" được viết bằng màu vàng nhạt. Tiếp theo là phần a) với hai phương trình:
3x + y = 3
2x - y = 7
Dưới hai phương trình này là mũi tên chỉ sang phải và hai phương trình mới:
5x = 10
3x + y = 3
3.2 + y = 3
Sau đó là dòng chữ "x = 2"
y = -3
Cuối cùng là dòng chữ "Vậy hpt đã cho có no! (x; y) = (2; -3)"
```
```
User:
Mô tả hình ảnh chi tiết.
Assistant: Bức ảnh minh họa quá trình xử lý hình ảnh bằng mạng lưới thần kinh nhân tạo (CNN). Bức ảnh được chia thành 3 phần chính:
1. **Phần đầu tiên:** Hiển thị một hình ảnh của một chiếc xe hơi màu trắng với dòng chữ "input image" ở bên dưới.
2. **Phần thứ hai:** Hiển thị 6 khối vuông, mỗi khối đại diện cho một lớp trong mạng CNN. Các lớp được đánh số thứ tự từ trái sang phải:
* Convolutional layer
* Pooling layer
* Convolutional layer
* Pooling layer
* Fully-connected layer
* Predicted class
3. **Phần thứ ba:** Hiển thị một hình ảnh với dòng chữ "car" ở bên dưới.
Một mũi tên màu đen nối các khối vuông với nhau, thể hiện quá trình truyền dữ liệu giữa các lớp.
```
## Quickstart
```python
import torch
from PIL import Image
from transformers import AutoModel, AutoTokenizer, AutoProcessor
# from colpali_engine.models import ColQwen2, ColQwen2Processor
# from colpali_engine.models import ColInternVL2Processor, ColInternVL2
model_name = "5CD-AI/ColVintern-1B-v1"
processor = AutoProcessor.from_pretrained(
model_name,
trust_remote_code=True
)
model = AutoModel.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=True,
trust_remote_code=True,
).eval().cuda()
```
## Citation