GPT:金融圈注意了 BloombergGPT来了

作者：

时间：1900/1/1 0:00:00

ChatGPT引爆的AI热潮也“烧到了”金融圈，彭博社重磅发布为金融界打造的大型语言模型（LLM）——BloombergGPT。

3月30日，根据彭博社最新发布的报告显示，其构建迄今为止最大的特定领域数据集，并训练了专门用于金融领域的LLM，开发了拥有500亿参数的语言模型——BloombergGPT。

报告显示，该模型依托彭博社的大量金融数据源，构建了一个3630亿个标签的数据集，支持金融行业内的各类任务。该模型在金融任务上的表现远超过现有模型，且在通用场景上的表现与现有模型也能一较高下。

一般来说，在NLP领域，参数数量和复杂程度之间具有正相关性，GPT-3.5模型的参数量为2000亿，GPT-3的参数量为1750亿。

剑桥新兴金融中心推出比特币挖矿地图，数据由中国三大矿池提供:剑桥新兴金融中心（CCAF）宣布推出交互式比特币挖矿地图，该地图显示了按国家或地区划分的比特币算力（全网矿工执行计算的速度）的平均每月份额，并提供了中国省级算力分布的可视化。该地图使用汇总的地理位置数据进行绘制，这些数据由三大矿池：BTC.com、币印和 ViaBTC 直接提供。[2020/5/6]

关于BloombergGPT

报告指出，研究人员利用彭博社现有的数据，对资源进行创建、收集和整理，通过构建迄今为止最大的特定领域数据集来完成BloomberGPT，并基于通用和金融业务的场景进行混合模型训练：

彭博社主要是一家金融数据公司，数据分析师在公司成立的四十年的时间里收集了大量的金融文件，拥有广泛的金融数据档案，涵盖了一系列的主题。

动态 | 北京市金融科技应用试点代表的最新成果包括区块链等前沿技术:此前，央行营管部副主任曾志诚透露，目前已批复46个金融科技试点项目，涉及参与机构和企业77家。记者注意到，本次北京市金融科技应用试点主要代表了大数据、云计算、人工智能、区块链等金融科技前沿技术的最新成果。应用试点单位主要涉及政府部门、事业单位、商业银行、互联网巨头等。（北京商报）[2019/12/9]

我们将这些数据添加到公共数据集中，以创建一个拥有超过7000亿个标签的大型训练语料库。

使用这个训练语料库的一部分，我们训练了一个具有彭博风格的，达500亿参数的模型，该模型是根据Hoffmann和Le Scao等人的指导方针设计，基于通用和金融业务的场景进行混合模型训练。

结果表明，我们的混合训练方法使我们的模型在金融任务上的表现大大超过了现有的模型，而在通用场景上的表现则与之相当甚至优于现有模型。

动态 | 英国金融行为监管局推出受监管的数字证券发行平台:据cryptoglobe报道，英国金融行为监管局（FCA）周一宣布推出受全面监管的数字证券和管理平台Globacap。Globacap将利用区块链技术为发行数字证券的金融科技公司筹集资金。[2019/7/1]

1.BloombergGPT优势：特定领域模型仍有其不可替代性且彭博数据来源可靠

在论文中，彭博社指出，现阶段，通用的自然语言处理模型可以涵盖许多领域，但针对特定领域模型仍有其不可替代性，因彭博社的大多数应用均为金融领域，着手构建了一个针对金融领域的模型尤其优势，同时可以在通用LLM基准测试上保持竞争力：

除了构建金融领域的LLM外，本文的经验也为其他研究领域的专用模型提供了参考。我们的方法是在特定领域和一般数据源上训练LLM，以开发在特定领域和通用基准上表现优异的模型。

动态 | 日本金融厅提议给未注册交易所三年注册期限:日本金融厅第7次加密货币交易所研讨会员指出，现在还没有得到正式认可的未注册交易所没有将安全对策和确保经营体制作为优先事项，反而积极展开广告推广进行业务扩大，使问题更加扩大。会中提到不希望没有前途的未注册交易所长期维持此形态，因此有必要设置能够注册最后期限，比如有必要考虑3年之内失去注册资格的提案。[2018/10/19]

此外，我们的训练数据不同于传统的网络爬取数据，网络上的数据总有重复和错误，但我们的数据来源可靠。

2.BloombergGPT的训练数据集：

BloombergGPT的训练数据库名为FINPILE，由一系列英文金融信息组成，包括新闻、文件、新闻稿、网络爬取的金融文件以及提取到的社交媒体消息。

中国央行：要有效防控互联网金融领域风险:中国央行今日发文称，要紧紧围绕打好“三大攻坚战”和“服务实体经济、防控金融风险、深化金融改革”三大任务，准确把握金融业信息技术发展应用与防控金融风险、保障金融安全的辩证关系，统筹监管好金融业重要基础设施，做到关口前移，防患于未然，有效防控互联网金融领域风险。[2018/6/5]

为了提高数据质量，FINPILE数据集也使用了公共数据集，例如The Pile、C4和Wikipedia。FINPILE的训练数据集中大约一半是特定领域的文本，一半是通用文本。为了提高数据质量，每个数据集都进行了去重处理。