木星链 木星链
Ctrl+D收藏木星链
首页 > BNB > 正文

OWL:达摩院猫头鹰 mPLUG-Owl 亮相:模块化多模态大模型,追赶 GPT-4 多模态能力

作者:

时间:1900/1/1 0:00:00

来源:机器之心

纯文本大模型方兴未艾,多模态领域也开始涌现出多模态大模型工作,地表最强的GPT-4具备读图的多模态能力,但是迟迟未向公众开放体验,于是乎研究社区开始在这个方向上发力研究并开源。MiniGPT-4和LLaVA问世不久,阿里达摩院便推出mPLUG-Owl,一个基于模块化实现的多模态大模型。

今天要介绍的是mPLUG-Owl,该工作不仅通过大量cases展示出优秀的多模态能力,还第一次针对视觉相关的指令理解提出一个全?的测试集OwlEval,通过人工评测对比了已有模型,包括LLaVA、MiniGPT-4、BLIP-2以及系统类MM-REACT等工作,实验结果表明mPLUG-Owl展示出更优的多模态能力,尤其在多模态指令理解能力、多轮对话能力、知识推理能力等方?表现突出

Gitcoin Passport与Galxe集成,用户将可根据分数申请AntiSybilAssembly NFT:7月27日消息,Gitcoin Passport已与Web3社区活动平台Galxe集成,用户可于 7 月 31 日根据 Gitcoin Passport 的Unique Humanity分数申请AntiSybilAssembly NFTs,分数越高,获得的纪念 NFT 就越丰厚,以集体抵御机器人和女巫攻击。[2023/7/28 16:03:11]

论文链接:https://arxiv.org/abs/2304.14178

代码链接:https://github.com/X-PLUG/mPLUG-Owl

ModelScope体验地址:

币安灵魂绑定代币有效铸造量突破70万枚:金色财经报道,据Dune Analytics数据显示,币安灵魂绑定代币有效铸造量已突破70万枚,本文撰写时达到795,633枚,当前累计铸造总量达到790,128枚,其中撤回数量为84,495枚。[2023/5/1 14:36:14]

https://modelscope.cn/studios/damo/mPLUG-Owl/summary

HuggingFace体验地址:

https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

多模态能力展示

我们把mPLUG-Owl与现有工作进行对比来感受一下mPLUG-Owl的多模态效果,值得一提的是,该工作中评比的测试样例基本上都来自已有工作,避免了cherrypick问题。

下图6展示了mPLUG-Owl很强的多轮对话能力。

美联储主席:年内预计还会加息一次:3月30日消息,据共和党众议员凯文·赫恩(Kevin Hern)称,美联储主席鲍威尔在与美国议员的一次私人会议上被问及美联储今年还会加息多少时,他指出,政策制定者的最新预测显示,他们预计还会加息一次。

赫恩是共和党研究委员会主席,鲍威尔周三会见了该委员会的保守派人士。该组织的一位女发言人表示,与鲍威尔的会面在硅谷银行倒闭之前就已经安排好。

鲍威尔基本上是在重申政策制定者上周在 FOMC 为期两天的会议后发布的新的利率预测,即美联储的点阵图。他们最近承认的一点是,他们预计今年还会加息一次,来自俄克拉荷马州的赫恩在与鲍威尔会晤后对记者说。[2023/3/30 13:34:27]

从图7中可以发现,?mPLUG-Owl具有很强的推理能力。

Bitpanda 加入 Visa Partner Connect 计划:金色财经报道,通过与奥地利金融科技独角兽 Bitpanda 合作,Visa 的合作伙伴将有机会使用 Bitpanda 的综合投资基础设施解决方案。此外,Bitpanda 的基础设施被设置为一个模块化系统,使合作伙伴能够从中挑选和选择,例如储蓄计划、资产到资产互换、加密抵押、分割股票、完整的区块链服务等等。 API集成,加密货币的托管由受 FCA 监管的机构级托管提供商 Bitpanda Custody 提供。

目前的合作伙伴包括德国数字银行 N26、法国货币应用程序 Lydia、英国金融科技 Plum 和意大利开放银行提供商 Fabrick 等。[2023/3/24 13:23:11]

如图9展示了一些笑话解释例?。

好莱坞娱乐巨头派拉蒙将在Roblox元宇宙中推出《海绵宝宝》和《忍者神龟》两大IP内容:金色财经报道,好莱坞娱乐巨头派拉蒙宣布将与游戏开发商Gamefam合作在Roblox中推出《海绵宝宝》和《忍者神龟》两大IP内容,据悉这两款近20年来收视率最高的动画角色体验将于2023年晚些时候在Roblox元宇宙中上线,支持海绵宝宝和忍者神龟粉丝将能在元宇宙中参与互动和探索。(licensing)[2023/2/15 12:09:02]

在该工作中,除了评测对比外,该研究团队还观察到mPLUG-Owl初显一些意想不到的能力,比如多图关联、多语?、文字识别和文档理解等能力。

如图10所示,虽然在训练阶段并没有进行多图关联数据的训练,mPLUG-Owl展现出了一定的多图关联能力。

如图11所示,尽管mPLUG-Owl在训练阶段仅使用了英文数据,但其展现出了有趣的多语?能力。这可能是因为mPLUG-Owl中的语?模型使用了LLaMA,从而出现了这一现象。

尽管mPLUG-Owl没有在带有标注的文档数据上进行训练,但其仍然展现出了一定的文字识别和文档理解能力,测试结果如图12所示。

方法介绍

该工作提出的mPLUG-Owl,其整体架构如图2所示。

模型结构:它由视觉基础模块(开源的ViT-L)、视觉抽象模块以及预训练语?模型(LLaMA-7B)组成。视觉抽象模块将较?的、细粒度的图像特征概括为少量可学习的Token,从而实现对视觉信息的?效建模。?成的视觉Token与文本查询一起输?到语?模型中,以?成相应的回复。

模型训练:采用两阶段的训练方式

第一阶段:主要目的也是先学习视觉和语?模态间的对?。不同于先前的工作,?mPLUG-Owl提出冻住视觉基础模块会限制模型关联视觉知识和文本知识的能力。?因此mPLUG-Owl在第一阶段只冻住LLM的参数,采用LAION-400M,?COYO-700M,?CC以及MSCOCO训练视觉基础模块和视觉摘要模块。

第?阶段:延续mPLUG和mPLUG-2中不同模态混合训练对彼此有收益的发现,Owl在第?阶段的指令微调训练中也同时采用了纯文本的指令数据(52kfromAlpaca+90kfromVicuna+50kfromBaize)和多模态的指令数据(150kfromLLaVA)。作者通过详细的消融实验验证了引?纯文本指令微调在指令理解等方?带来的收益。第?阶段中视觉基础模块、视觉摘要模块和原始LLM的参数都被冻住,参考LoRA,只在LLM引?少量参数的adapter结构用于指令微调。

实验结果

SOTA对比

为了比较不同模型的多模态能力,该工作构建一个多模态指令评测集OwlEval。由于?前并没有合适的自动化指标,参考Self-Intruct对模型的回复进行人工评测,打分规则为:A="正确且令人满意";B="有一些不完美,但可以接受";C="理解了指令但是回复存在明显错误";D="完全不相关或不正确的回复"。

对比结果如下图3所示,实验证明Owl在视觉相关的指令回复任务上优于已有的OpenFlamingo、BLIP-2、LLaVA、MiniGPT-4。

多维度能力对比

多模态指令回复任务中牵扯到多种能力,例如指令理解、视觉理解、图?上文字理解以及推理等。为了细粒度地探究模型在不同能力上的?平,本文进一步定义了多模态场景中的6种主要的能力,并对OwlEval每个测试指令人工标注了相关的能力要求以及模型的回复中体现了哪些能力。

结果如下表格6所示,在该部分实验,作者既进行了Owl的消融实验,验证了训练策略和多模态指令微调数据的有效性,也和上一个实验中表现最佳的baseline—MiniGPT4进行了对比,结果显示Owl在各个能力方?都优于MiniGPT4。

标签:OWLPLUPLUGMPLSOWL币Celeb Plusplugchain币是谁发行的IMPL币

BNB热门资讯
COI:Coinbase一季度营收7.73亿美元,盈利超预期

金色财经报道,根据FactSet的数据,加密货币交易所Coinbase(COIN)第一季度收入为7.73亿美元,超过分析师估计的6.55亿美元,高于第四季度收入6.29亿美元.

1900/1/1 0:00:00
SIX:SixthDaoVC投研第二期:涵盖a16z币安等参投明星项目

1.?EigenLayer简介:LSDfi,以太坊再质押市场,引入了再质押概念官网:https://www.eigenlayer.xyz/总融资:?6450?万美金.

1900/1/1 0:00:00
ARK:梳理ARK Invest的Crypto持仓变化情况,木头姐看涨有多坚定?

本文来自:Blockworks编译:Odaily星球日报Azuma 有着“木头姐”称呼的女股神CathieWood一直以来都是华尔街最大的?Crypto多头之一.

1900/1/1 0:00:00
LDO:LDO遭多家机构抛售?一览四月份部分VC和聪明钱的链上活动

原文作者:ThorHartvigsen,加密?KOL原文编译:Felix,PANews四月份,部分?VC?和聪明钱有一些大的投资组合变化.

1900/1/1 0:00:00
比特币:金色观察 | 比特币Ordinals理论手册(上)

比特币OrdinalsTheory由开发人员Casey?Rodarmor2022年开发,2023年2月提交BIP后比特币ordinals生态大爆发,BRC20代币、BRC21等概念层出不穷.

1900/1/1 0:00:00
Terra:韩国法院认定Do Kwon犯罪所得为1.76亿美元,已批准对其资产进行诉前保全

5月10日消息,韩国首尔南部地方法院法官近日接受了检方要求对Terra联合创始人DoKwon的财产进行诉前保全的请求。资产诉前保全是指冻结犯罪嫌疑人的犯罪所得或者财产,直至确定??有罪为止.

1900/1/1 0:00:00