metadata

tasks:
  - multimodal-dialogue
studios:
  - damo/mPLUG-Owl
model-type:
  - mplug-owl2
domain:
  - multi-modal
frameworks:
  - pytorch
backbone:
  - transformer
containers: null
license: apache-2.0
language:
  - en
tags:
  - transformer
  - mPLUG
  - Multimodal
  - ChatGPT
  - GPT
  - Alibaba

mPLUG-Owl2介绍

mPLUG-Owl2是一种面向多模态语言模型的模块化的训练范式。其能学习与语言空间相适应的视觉知识，并支持在多模态场景(支持图片、文本输入)下进行多轮对话。它涌现多图关系理解，场景文本理解和基于视觉的文档理解等能力。

模型描述

mPLUG-Owl2基于mPLUG-2模块化的思想，通过多阶段分别训练模型的视觉底座与语言模型，使其视觉知识能与预训练语言模型紧密协作，达到了显著优于主流多模态语言模型的效果。