--- library_name: transformers language: - vi - en base_model: - 5CD-AI/Vintern-1B-v2 datasets: - vidore/colpali_train_set - 5CD-AI/Viet-Doc-VQA - 5CD-AI/Viet-OCR-VQA - 5CD-AI/Viet-Doc-VQA-II tags: - colpali ---

## Vintern-3B-beta 🇻🇳 ❄️ - The LLaVA 🌋 Challenger **What's new in Vintern-3B-beta!** - **We successfully reproduced the training process of InternVL from scratch.** - The model is the result of integrating [Qwen/Qwen2.5-3B-Instruct](https://huggingface.co/Qwen/Qwen2.5-3B-Instruct) and [InternViT-300M-448px](https://huggingface.co/OpenGVLab/InternViT-300M-448px) through an MLP layer. - Trained with more than 10 Milion Vietnamese QnAs, Descriptions, and 10% English, Chinese Data from [OpenGVLab/InternVL-Chat-V1-2-SFT-Data](https://huggingface.co/datasets/OpenGVLab/InternVL-Chat-V1-2-SFT-Data). ## Colpali Benchmarks We tested on the **ViDoRe** benchmark from the Colpali paper. The **TabF** and **Shift** test datasets were not used because they are in French. We plan to expand to multiple languages in the near future. | | ArxivQ | DocQ | InfoQ | TATQ | AI | Energy | Gov. | Health. | Avg. | |:------------------------------:|:--------:|:------:|:-------:|:------:|:------:|:--------:|:-------:|:---------:|:--------:| | **Unstructured** Text only | | | | | | | | | | | - BM25 | - | 34.1 | - | 44.0 | 90.4 | 78.3 | 78.8 | 82.6 | - | | - BGE-M3 | - | 28.4 | - | 36.1 | 88.4 | 76.8 | 77.7 | 84.6 | - | | **Unstructured** + OCR | | | | | | | | | | | - BM25 | 31.6 | 36.8 | 62.9 | 62.7 | 92.8 | 85.9 | 83.9 | 87.2 | 68.0 | | - BGE-M3 | 31.4 | 25.7 | 60.1 | 50.5 | 90.2 | 83.6 | 84.9 | 91.1 | 64.7 | | **Unstructured** + Captioning | | | | | | | | | | | - BM25 | 40.1 | 38.4 | 70.0 | 61.5 | 88.0 | 84.7 | 82.7 | 89.2 | 69.3 | | - BGE-M3 | 35.7 | 32.9 | 71.9 | 43.8 | 88.8 | 83.3 | 80.4 | 91.3 | 66.0 | | **Contrastive VLMs** | | | | | | | | | | | - Jina-CLIP | 25.4 | 11.9 | 35.5 | 3.3 | 15.2 | 19.7 | 21.4 | 20.8 | 19.2 | | - Nomic-vision | 17.1 | 10.7 | 30.1 | 2.7 | 12.9 | 10.9 | 11.4 | 15.7 | 13.9 | | - SigLIP (Vanilla) | 43.2 | 30.3 | 64.1 | 26.2 | 62.5 | 65.7 | 66.1 | 79.1 | 54.7 | | **Colpali** | | | | | | | | | | | - SigLIP (Vanilla) | 43.2 | 30.3 | 64.1 | 26.2 | 62.5 | 65.7 | 66.1 | 79.1 | 54.7 | | - BiSigLIP (+fine-tuning) | 58.5 | 32.9 | 70.5 | 30.5 | 74.3 | 73.7 | 74.2 | 82.3 | 62.1 | | - BiPali (+LLM) | 56.5 | 30.0 | 67.4 | 33.4 | 71.2 | 61.9 | 73.8 | 73.6 | 58.5 | | - ColPali (+Late Inter.) | **79.1** | **54.4** | 81.8 | **65.8** | **96.2** | **91.0** | **92.7** | 94.4 | **81.3** | | **Ours** | | | | | | | | | | | - ColVintern-1B (+Late Inter.) | 71.6 | 48.3 | **84.6** | 59.6 | 92.9 | 88.7 | 89.4 | **95.2** | 78.8 | ## Vietnamese Benchmarks ## Examples

``` User: Mô tả hình ảnh chi tiết. Assistant: Bức ảnh là một giao diện ứng dụng đặt hàng thức ăn trực tuyến. Giao diện được chia thành các phần: - Phần đầu tiên hiển thị thông báo "Sẽ xong lúc 10:50 SA" và dòng chữ "Bếp đang thực hiện món.". Bên cạnh đó là biểu tượng bếp đang hoạt động với thanh tiến độ màu xanh lá cây. - Tiếp theo là dòng chữ "Vui lòng đến lấy món trước 12:50". - Phần tiếp theo là thông tin về quán cà phê "Wego Coffee - Mapletree Business Centre", kèm theo dòng chữ "#GF-29". - Dòng chữ "Đừng quên kiểm tra lại để chắc rằng bạn nhận đúng món nhé!" được hiển thị trong một khung hình chữ nhật màu be. - Phần cuối cùng là thông tin về đơn hàng, bao gồm logo quán cà phê, dòng chữ "Wego Coffee - Mapletree Business Centre", dòng chữ "Tổng cộng", giá trị đơn hàng (70.000đ), giá trị thanh toán (120.000đ) và dòng chữ "Merchants has not started a chat". - Cuối cùng là nút "Xem tóm tắt đơn hàng" và nút "Đã lấy món" có màu xanh lá cây. ```

``` User: Liệt kê toàn bộ bài thơ có trong ảnh. Assistant: Đi khắp thế gian không ai tốt bằng mẹ Gánh nặng cuộc đời không ai khổ bằng cha ```

``` User: Liệt kê toàn bộ bài thơ có trong ảnh. Assistant: Bài thơ có nội dung: - Mẹ như một ngọn hải đăng - Như ông mặt trời, như ông mặt trăng - Ngày ngày vất vả, tảo tần - Chăm lo con cái, làm việc siêng năng. ```

``` User: Mô tả hình ảnh chi tiết. Assistant: Bức ảnh chụp một bảng đen với các công thức toán học được viết bằng phấn trắng. Ở góc trên bên trái, có dòng chữ "20/19/SGK" được viết bằng màu vàng nhạt. Tiếp theo là phần a) với hai phương trình: 3x + y = 3 2x - y = 7 Dưới hai phương trình này là mũi tên chỉ sang phải và hai phương trình mới: 5x = 10 3x + y = 3 3.2 + y = 3 Sau đó là dòng chữ "x = 2" y = -3 Cuối cùng là dòng chữ "Vậy hpt đã cho có no! (x; y) = (2; -3)" ```

``` User: Mô tả hình ảnh chi tiết. Assistant: Bức ảnh minh họa quá trình xử lý hình ảnh bằng mạng lưới thần kinh nhân tạo (CNN). Bức ảnh được chia thành 3 phần chính: 1. **Phần đầu tiên:** Hiển thị một hình ảnh của một chiếc xe hơi màu trắng với dòng chữ "input image" ở bên dưới. 2. **Phần thứ hai:** Hiển thị 6 khối vuông, mỗi khối đại diện cho một lớp trong mạng CNN. Các lớp được đánh số thứ tự từ trái sang phải: * Convolutional layer * Pooling layer * Convolutional layer * Pooling layer * Fully-connected layer * Predicted class 3. **Phần thứ ba:** Hiển thị một hình ảnh với dòng chữ "car" ở bên dưới. Một mũi tên màu đen nối các khối vuông với nhau, thể hiện quá trình truyền dữ liệu giữa các lớp. ``` ## Quickstart ```python import torch from PIL import Image from transformers import AutoModel, AutoTokenizer, AutoProcessor # from colpali_engine.models import ColQwen2, ColQwen2Processor # from colpali_engine.models import ColInternVL2Processor, ColInternVL2 model_name = "5CD-AI/ColVintern-1B-v1" processor = AutoProcessor.from_pretrained( model_name, trust_remote_code=True ) model = AutoModel.from_pretrained( model_name, torch_dtype=torch.bfloat16, low_cpu_mem_usage=True, trust_remote_code=True, ).eval().cuda() ``` ## Citation