木星链 木星链
Ctrl+D收藏木星链
首页 > Pol币 > 正文

CHI:一文了解 ChatGPT 等 LLMs 得到明显改进的 3 个变化

作者:

时间:1900/1/1 0:00:00

原文作者:Tanya Malhotra

来源:Marktechpost

近年来,大型语言模型(Large Language Models,LLMs)在全世界受到了广泛赞赏,并在自然语言处理领域备受欢迎。这使我们能够使用比以往任何时候都更好、更清晰的语言理解来描述智能系统(Intelligent Systems)。

诸如 GPT-3、T5、PaLM 等 LLMs 的性能有了显着提高,并且这些模型将继续存在,因为它们可以完成从通过学习阅读来模仿人类,到生成文本和总结长段落内容的所有工作。而根据一些深入的研究,如果 LLM 的规模很大,那么它的表现就会很好。通过在大量数据上训练这些模型,它们可以理解人类语言的语法、语义和语用学。 

FTX.US总裁Brett Harrison宣布辞职,将转做公司顾问:9月27日消息,FTX.US总裁Brett Harrison在其个人社交平台宣布将辞任FTX.US总裁一职,未来几个月其将工作重心转移至公司顾问角色。[2022/9/27 5:54:55]

由 OpenAI 开发的流行的大型语言模型 ChatGPT 之所以发展得如此之快,正是因为采用了人类反馈强化学习(RLHF)等先进技术。通过 RLHF,机器学习算法结合并使用人工输入提高了模型的性能。它针对预训练的 LLM 进行了微调,用于开发聊天机器人、虚拟助手等任务。

彭博社:Celsius已收到美国大陪审团传票:金色财经报道,破产的加密货币借贷服务提供商Celsius已收到美国大陪审团传票,这意味着美国检察官和几家联邦监管机构将从Celsius Network Ltd那里寻求更多证据信息,传票内容显示,SEC、CFTC 和 FTC 也向Celsiu公司发出了询问。

据悉,大陪审团可以使用法院的权力传唤证据,尽管他们也可以邀请(而不是指挥)证人作证。如果收到传票,但认为不应该出庭作证,或者认为传票的要求是“无理或压制”,那么可以提出一个动议来消除这种声音。Celsius表示,他们正在配合所有监管调查。[2022/10/17 17:28:14]

此外,ChatGPT 等 LLMs 所基于的预训练基础模型也得到了明显的改进。这主要是由于三个方面的变化:

知情人士:币安和FTX有意收购Voyager Digital资产:金色财经报道,知情人士透露,币安和FTX对收购Voyager Digital感兴趣。其中一位人士表示,Coinbase评估了交易,但退出了。Voyager资产的投标将于9月6日进行。 如果需要挑选获胜者,将于9月29日举行拍卖。根据该公司律师本月早些时候的介绍,至少有22名投资者完成了尽职调查,并表示有兴趣投标Voyager的资产,因此币安、FTX和Coinbase可能不是唯一的追求者。(CoinDesk)[2022/8/26 12:49:01]

1.实践证明,模型的扩展性(Scaling)对提高其性能很有帮助。以 Pathways 语言模型(Pathways Language Model,PaLM)为例,该模型通过扩展小样本学习(few-shot learning)大大影响了其性能,小样本学习可以减少根据具体应用调整模型所需的特定任务训练实例的数量。

金融服务公司 Antalpha 为加密矿工推出借贷产品:金色财经报道,金融服务公司 Antalpha 周二在比特大陆的世界数字矿业峰会(WDMS)上宣布,为加密矿工推出了几款借贷产品,包括与其他金融机构的联合贷款;融资以减轻电力成本,这是矿工最大的运营费用之一;交易以哈希率而不是行业中常用的代币或设备作为抵押品,以及以哈希率和开采的代币为抵押的融资;Antalpha还提供无追加保证金的贷款,这是一种结构性贷款。

Antalpha 是比特大陆的战略合作伙伴,该公司总部位于新加坡,约有 150 名员工分布在香港、美国和瑞士。Antalpha 业务发展董事总经理 Max Liao 表示,该公司的资产负债表上有大约 7 亿美元的客户资产,并且没有利用其内部资产,Antalpha 还正在香港申请第 9 类数字资产许可证。(Coindesk)[2022/7/27 2:40:09]

通过使用 Pathways 语言模型在 6144 TPU v4 芯片上扩展和训练 5400 亿个参数,PaLM 展示了重复扩展的好处,其表现超过了各种传统模型,并显示出很大的进步。因此,深度和宽度的扩展都是提高基础模型性能的一个重要因素。

2.另一个变化是在预训练时增加标记数量的过程。像 Chinchilla 这样的模型(开源语言模型)已经证明,通过增加预训练数据,大型语言模型的表现会更好。

Chinchilla 是一个计算最优模型。在相同的计算预算下,在 70B 参数和比 Gopher 模型多四倍的数据上进行训练,Chinchilla 的表现一致优于 Gopher,它甚至比 GPT-3、Jurassic-1 和 Megatron-Turing NLG 等 LLMs 效果更好。这清楚地描述了对于每一个计算最优的训练,标记的数量应该相应地缩放——即模型大小的两倍,因此训练标记的数量应该是两倍。 

3.第三个变化是使用干净和多样化的预训练数据。Galactica 的性能证明了这一点,它是一种存储、混合和推理科学知识的大型语言模型。经过几篇科学论文文本的训练,Galactica 的表现优于 GPT-3、Chinchilla 等模型。另一个大型语言模型 BioMedLM 是一种针对生物医学文本的特定领域 LLM,在针对特定领域数据进行训练时,它表现出了巨大的性能提升。它清楚地表明,在特定领域的数据上进行的预训练胜过在通用数据上的训练。

LLMs 的成功无疑归功于多种因素的混合,包括 RLHF 的使用和预训练基础模型的发展。这三个变化极大地影响了 LLMs 的性能。此外,GLaM(通用语言模型)通过使用稀疏激活的混合专家架构(Mixture-of-Experts architecture),以更少的训练成本扩展模型的容量,从而显着提高了性能。因此,这些变化为更高级的语言模型开辟了道路,而这些模型将继续让我们的生活变得轻松。  

DeFi之道

个人专栏

阅读更多

金色财经 善欧巴

金色早8点

Odaily星球日报

欧科云链

Arcane Labs

深潮TechFlow

MarsBit

BTCStudy

澎湃新闻

标签:CHITALFTXLMSKodachi TokenTALI币MINUTE Vault (NFTX)Crypto Realms War

Pol币热门资讯
亚马逊:亚马逊入局 NFT能复燃吗

来源:北京商报  自去年11月以来,加密货币的总市值下降了2/3,面临着持续挑战。但投资者对该行业的兴趣仍然远胜其他行业.

1900/1/1 0:00:00
SCI:深度思考:Token和DAO能为医学做什么?

原文作者:Rapolas编译:LlamaC「推荐寄语:在进入行业的第一天起,任何人都绝对无法预测到有天自己可能成为一名链上的医药资本家,而这一切正在悄然发生.

1900/1/1 0:00:00
BSP:这 8 个喜闻乐见的顶级协议 背后都有哪些“持币巨鲸”?

原文作者:Thor Hartvigsen谁秘密地持有你感兴趣的协议的大部分代币?他们以什么价格投资/买入?DeFi 研究员 Thor Hartvigsen 根据自创的数据库.

1900/1/1 0:00:00
虚拟资产:美国加密银行Silvergate深陷困境 香港与美国虚拟资产监管是否殊途同归?

作者:毕良寰引言近日,美国最大加密友好银行Silvergate Bank客户逃离叠加监管质疑,美国监管一面提醒流动性风险,一面忙于处罚.

1900/1/1 0:00:00
XRP:仔细扒一扒硅谷银行的问题究竟在哪

当地时间周四早晨,硅谷银行(SVB)宣布,出售其所有 210 亿美元的可销售证券,因此遭受了 18 亿美元的亏损,并寻求通过出售普通股和优先股募资 22.5 亿美元.

1900/1/1 0:00:00
加密货币:金色早报 | Mt.Gox最大债权人计划保留归还的比特币

▌Mt.Gox最大债权人计划保留归还的比特币金色财经报道,据知情人士透露,破产的加密货币交易所Mt.Gox的最大债权人Mt.Gox投资基金打算持有而不是出售将于今年支付给它的比特币.

1900/1/1 0:00:00