Mizukiluke's picture
Upload 43 files
236ae1f
|
raw
history blame
929 Bytes
---
tasks:
- multimodal-dialogue
studios:
- damo/mPLUG-Owl
model-type:
- mplug-owl2
domain:
- multi-modal
frameworks:
- pytorch
backbone:
- transformer
containers:
license: apache-2.0
language:
- en
tags:
- transformer
- mPLUG
- Multimodal
- ChatGPT
- GPT
- Alibaba
---
# mPLUG-Owl2介绍
mPLUG-Owl2是一种面向多模态语言模型的模块化的训练范式。其能学习与语言空间相适应的视觉知识,并支持在多模态场景(支持图片、文本输入)下进行多轮对话。它涌现多图关系理解,场景文本理解和基于视觉的文档理解等能力。
## 模型描述
mPLUG-Owl2基于mPLUG-2模块化的思想,通过多阶段分别训练模型的视觉底座与语言模型,使其视觉知识能与预训练语言模型紧密协作,达到了显著优于主流多模态语言模型的效果。
![Training paradigm and model overview](assets/mplug_owl2_radar.png)