木星链 木星链
Ctrl+D收藏木星链
首页 > Filecoin > 正文

GPT:金融圈注意了 BloombergGPT来了

作者:

时间:1900/1/1 0:00:00

ChatGPT引爆的AI热潮也“烧到了”金融圈,彭博社重磅发布为金融界打造的大型语言模型(LLM)——BloombergGPT。

3月30日,根据彭博社最新发布的报告显示,其构建迄今为止最大的特定领域数据集,并训练了专门用于金融领域的LLM,开发了拥有500亿参数的语言模型——BloombergGPT。

报告显示,该模型依托彭博社的大量金融数据源,构建了一个3630亿个标签的数据集,支持金融行业内的各类任务。该模型在金融任务上的表现远超过现有模型,且在通用场景上的表现与现有模型也能一较高下。

一般来说,在NLP领域,参数数量和复杂程度之间具有正相关性,GPT-3.5模型的参数量为2000亿,GPT-3的参数量为1750亿。

剑桥新兴金融中心推出比特币挖矿地图,数据由中国三大矿池提供:剑桥新兴金融中心(CCAF)宣布推出交互式比特币挖矿地图,该地图显示了按国家或地区划分的比特币算力(全网矿工执行计算的速度)的平均每月份额,并提供了中国省级算力分布的可视化。该地图使用汇总的地理位置数据进行绘制,这些数据由三大矿池:BTC.com、币印和 ViaBTC 直接提供。[2020/5/6]

关于BloombergGPT

报告指出,研究人员利用彭博社现有的数据,对资源进行创建、收集和整理,通过构建迄今为止最大的特定领域数据集来完成BloomberGPT,并基于通用和金融业务的场景进行混合模型训练:

彭博社主要是一家金融数据公司,数据分析师在公司成立的四十年的时间里收集了大量的金融文件,拥有广泛的金融数据档案,涵盖了一系列的主题。

动态 | 北京市金融科技应用试点代表的最新成果包括区块链等前沿技术:此前,央行营管部副主任曾志诚透露,目前已批复46个金融科技试点项目,涉及参与机构和企业77家。记者注意到,本次北京市金融科技应用试点主要代表了大数据、云计算、人工智能、区块链等金融科技前沿技术的最新成果。应用试点单位主要涉及政府部门、事业单位、商业银行、互联网巨头等。(北京商报)[2019/12/9]

我们将这些数据添加到公共数据集中,以创建一个拥有超过7000亿个标签的大型训练语料库。

使用这个训练语料库的一部分,我们训练了一个具有彭博风格的,达500亿参数的模型,该模型是根据Hoffmann和Le Scao等人的指导方针设计,基于通用和金融业务的场景进行混合模型训练。

结果表明,我们的混合训练方法使我们的模型在金融任务上的表现大大超过了现有的模型,而在通用场景上的表现则与之相当甚至优于现有模型。

动态 | 英国金融行为监管局推出受监管的数字证券发行平台:据cryptoglobe报道,英国金融行为监管局(FCA)周一宣布推出受全面监管的数字证券和管理平台Globacap。Globacap将利用区块链技术为发行数字证券的金融科技公司筹集资金。[2019/7/1]

1.BloombergGPT优势:特定领域模型仍有其不可替代性且彭博数据来源可靠

在论文中,彭博社指出,现阶段,通用的自然语言处理模型可以涵盖许多领域,但针对特定领域模型仍有其不可替代性,因彭博社的大多数应用均为金融领域,着手构建了一个针对金融领域的模型尤其优势,同时可以在通用LLM基准测试上保持竞争力:

除了构建金融领域的LLM外,本文的经验也为其他研究领域的专用模型提供了参考。我们的方法是在特定领域和一般数据源上训练LLM,以开发在特定领域和通用基准上表现优异的模型。

动态 | 日本金融厅提议给未注册交易所三年注册期限:日本金融厅第7次加密货币交易所研讨会员指出,现在还没有得到正式认可的未注册交易所没有将安全对策和确保经营体制作为优先事项,反而积极展开广告推广进行业务扩大,使问题更加扩大。会中提到不希望没有前途的未注册交易所长期维持此形态,因此有必要设置能够注册最后期限,比如有必要考虑3年之内失去注册资格的提案。[2018/10/19]

此外,我们的训练数据不同于传统的网络爬取数据,网络上的数据总有重复和错误,但我们的数据来源可靠。

2.BloombergGPT的训练数据集:

BloombergGPT的训练数据库名为FINPILE,由一系列英文金融信息组成,包括新闻、文件、新闻稿、网络爬取的金融文件以及提取到的社交媒体消息。

中国央行:要有效防控互联网金融领域风险:中国央行今日发文称,要紧紧围绕打好“三大攻坚战”和“服务实体经济、防控金融风险、深化金融改革”三大任务,准确把握金融业信息技术发展应用与防控金融风险、保障金融安全的辩证关系,统筹监管好金融业重要基础设施,做到关口前移,防患于未然,有效防控互联网金融领域风险。[2018/6/5]

为了提高数据质量,FINPILE数据集也使用了公共数据集,例如The Pile、C4和Wikipedia。FINPILE的训练数据集中大约一半是特定领域的文本,一半是通用文本。为了提高数据质量,每个数据集都进行了去重处理。

对金融领域的理解更准

报告指出,在金融领域中的自然语言处理在通用模型中也很常见,但是,针对金融领域,这些任务执行时将面临挑战:

以情感分析为例,一个题为“某公司将裁员1万人”,在一般意义上表达了负面情感,但在金融情感方面,它有时可能被认为是积极的,因为它可能导致公司的股价或投资者信心增加。

报告指出,从测试来看,BloombergGPT在五项任务中的四项(ConvFinQA,FiQA SA,FPB和Headline)表现最佳,在NER(Named Entity Recognition)中排名第二。因此,BloombergGPT有其优势性。

测试一:ConvFinQA数据集是一个针对金融领域的问答数据集,包括从新闻文章中提取出的问题和答案,旨在测试模型对金融领域相关问题的理解和推理能力。

测试二:FiQA SA,第二个情感分析任务,测试英语金融新闻和社交媒体标题中的情感走向。

测试三:标题,数据集包括关于黄金商品领域的英文新闻标题,标注了不同的子集。任务是判断新闻标题是否包含特定信息,例如价格上涨或价格下跌等。

测试四:FPB,金融短语库数据集包括来自金融新闻的句子情绪分类任务。

测试五:NER,命名实体识别任务,针对从提交给SEC的金融协议中收集金融数据,进行信用风险评估。

对于ConvFinQA来说,这个差距尤为显著,因为它需要使用对话式输入来对表格进行推理并生成答案,具有一定挑战性。

ChatGPT为彭博点赞

华尔街见闻就这个问题专门询问了ChatGPT,ChatGPT认为BloombergGPT是一项很有意义的技术进步:

它是专门为金融领域开发的一种语言模型,可以更好地处理金融领域的数据和任务,并且在金融领域的基准测试中表现出色。

这将有助于金融从业者更好地理解和应用自然语言处理技术,促进金融科技的发展。同时,BloombergGPT还可以为其他领域的语言模型的发展提供参考和借鉴。总的来说,BloombergGPT是一个有益的技术创新。

华尔街见闻

媒体专栏

阅读更多

金色财经 善欧巴

金色早8点

白话区块链

欧科云链

Odaily星球日报

Arcane Labs

MarsBit

深潮TechFlow

BTCStudy

链得得

标签:GPTBLOBERERGGPTG价格ekkoblockEMBER价格SERG价格

Filecoin热门资讯
NFT:金色Web3.0日报 | 1.41亿枚USDC转入Coinbase

DeFi数据1、DeFi代币总市值:498.38亿美元 DeFi总市值及前十代币 数据来源:coingecko2、过去24小时去中心化交易所的交易量23.

1900/1/1 0:00:00
GPT:GPT-4会让多少美国人失业?OpenAI:高收入工作会面临更大影响

上周二,OpenAI 官宣 GPT-4 引起轩然大波,比其广受欢迎的前身 GPT-3.5 更可靠、更具创意。GPT-4 是一个大型多模态模型,能接受图像和文本输入,再输出正确的文本回复.

1900/1/1 0:00:00
GAM:3月GameFi简报:赛道整体迎来复苏 传统大厂加速布局

本报告将从整体行情和市场情绪两个方面来回溯 3 月 GameFi 的市场走势。此外,报告还将对当月的热点事件进行简短的盘点.

1900/1/1 0:00:00
元宇宙:下个牛市的元宇宙赛道展望(上篇)

【导读】本篇文章探讨了 VR 元宇宙的现状和问题,重点分析了 Highstreet、MixVerse 和 Ceek 三个项目,分别比较了它们在实现难度、实现速度和技术难度上的差异.

1900/1/1 0:00:00
NFT:AIGC NFT 工具 GNT 上线公测 体验了一把还不错

NFT 市场平台  MOOAR 今日正式上线了 Web3 AIGC 工具 GNT V1  公测版,这是一款生成式 NFT 工具,目前只在 Solana 网络可用.

1900/1/1 0:00:00
QUO:探讨构建十亿用户的Web3 社交图谱两种方法:链上图和链式图

来源:W3.Hitchhiker原文标题:《The Billion User Social Graph》撰文:Jon Stokes编译:Dan.

1900/1/1 0:00:00