OpenGVLab
/

Mono-InternVL-2B

@@ -46,7 +46,6 @@ This repository contains the instruction-tuned Mono-InternVL-2B model, which has
 ## Performance
 |          Benchmark           | Chameleon-7B | EVE-7B (HD) |    Emu3    | Mini-InternVL-2B-1-5 | Mono-InternVL-2B |
 | :--------------------------: | :----------: | :---------: | :--------: | :------------------: | :--------------: |
 |             Type             |  Monolithic  | Monolithic  | Monolithic |       Modular        |    Monolithic    |
@@ -249,19 +248,18 @@ If you find this project useful in your research, please consider citing:
 ## 简介
-我们发布了Mono-InternVL，这是一种**单体化**的多模态大语言模型（MLLM），将视觉编码和文本解码集成到一个单一的大语言模型中。在Mono-InternVL中，一组视觉专家通过专家混合机制嵌入到预训练的LLM中。通过冻结LLM的语言部分参数，Mono-InternVL确保了视觉能力的优化，同时不会影响预训练的语言知识。基于这一结构，我们引入了内源视觉预训练（Endogenous Visual Pretraining, EViP），实现了由粗粒度到精粒度的视觉学习。
-Mono-InternVL在性能上优于当前最先进的MLLM Mini-InternVL-2B-1.5，并且显著超越了其他单体化MLLMs，如上方的[雷达图](#radar)所示。同时，它的部署效率也得到了提升，首个token的延迟降低了最多达67%。
-本仓库包含了经过指令微调的Mono-InternVL-2B模型，它是基于[internlm2-chat-1_8b](https://huggingface.co/internlm/internlm2-chat-1_8b)搭建的。更多详细信息，请参阅我们的[论文](https://arxiv.org/abs/2410.08202)。
 ## 性能测试
 |          评测数据集          | Chameleon-7B | EVE-7B (HD) |  Emu3  | Mini-InternVL-2B-1-5 | Mono-InternVL-2B |
 | :--------------------------: | :----------: | :---------: | :----: | :------------------: | :--------------: |
-|           模型种类           |    单体化    |   单体化    | 单体化 |        模块化        |      单体化      |
 |           激活参数           |      7B      |     7B      |   8B   |         2.2B         |       1.8B       |
 |                              |              |             |        |                      |                  |
 |            MMVet             |     8.3      |    25.7     |  37.2  |         39.3         |       40.1       |
@@ -286,7 +284,7 @@ Mono-InternVL在性能上优于当前最先进的MLLM Mini-InternVL-2B-1.5，并
 - 以上结果的来源包括相应的原始论文、我们基于[VLMEvalKit](https://github.com/open-compass/VLMEvalKit)的评测，以及[OpenCompass](https://rank.opencompass.org.cn/leaderboard-multimodal/?m=REALTIME)。
 - 平均分数Avg通过将每个指标归一化到0至100之间来计算。
-- 请注意，使用不同的测试工具包评估同一模型可能会导致细微差异，这是正常的。代码版本的更新、环境和硬件的变化也可能导致结果的微小差异。

 ## Performance
 |          Benchmark           | Chameleon-7B | EVE-7B (HD) |    Emu3    | Mini-InternVL-2B-1-5 | Mono-InternVL-2B |
 | :--------------------------: | :----------: | :---------: | :--------: | :------------------: | :--------------: |
 |             Type             |  Monolithic  | Monolithic  | Monolithic |       Modular        |    Monolithic    |
 ## 简介
+我们发布了Mono-InternVL，这是一种**原生**多模态大语言模型，将视觉编码和文本解码集成到一个单一的大语言模型中。在Mono-InternVL中，一组视觉专家通过专家混合机制嵌入到预训练的语言模型中。通过冻结语言模型的语言部分参数，Mono-InternVL确保了视觉能力的优化，同时不会影响预训练的语言知识。基于这一结构，我们引入了内生视觉预训练（Endogenous Visual Pretraining, EViP），实现了由粗粒度到精粒度的视觉学习。
+Mono-InternVL在性能上优于当前最先进的多模态语言模型Mini-InternVL-2B-1.5，并且显著超越了其他原生多模态模型，如上方的[雷达图](#radar)所示。同时，它的部署效率也得到了提升，首个单词的延迟降低了最多达67%。
+本仓库包含了经过指令微调的Mono-InternVL-2B模型，它是基于[internlm2-chat-1_8b](https://huggingface.co/internlm/internlm2-chat-1_8b)搭建的。更多详细信息，请参阅我们的[论文](https://arxiv.org/abs/2410.08202)和[公众号报道](https://mp.weixin.qq.com/s/FmjG0Gp5ow7mm2Vzd9ppPg)。
 ## 性能测试
 |          评测数据集          | Chameleon-7B | EVE-7B (HD) |  Emu3  | Mini-InternVL-2B-1-5 | Mono-InternVL-2B |
 | :--------------------------: | :----------: | :---------: | :----: | :------------------: | :--------------: |
+|           模型种类           |    原生   |   原生    | 原生 |        非原生        |      原生      |
 |           激活参数           |      7B      |     7B      |   8B   |         2.2B         |       1.8B       |
 |                              |              |             |        |                      |                  |
 |            MMVet             |     8.3      |    25.7     |  37.2  |         39.3         |       40.1       |
 - 以上结果的来源包括相应的原始论文、我们基于[VLMEvalKit](https://github.com/open-compass/VLMEvalKit)的评测，以及[OpenCompass](https://rank.opencompass.org.cn/leaderboard-multimodal/?m=REALTIME)。
 - 平均分数Avg通过将每个指标归一化到0至100之间来计算。
+- 请注意，使用不同的测试工具包评估同一模型可能会导致评测结果的细微差异，这是正常的。代码版本的更新、环境和硬件的变化也可能导致结果的微小差异。