ChatGPT甩了百度一大嘴巴子(3)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
张俊林介绍,在现今科技公司的竞逐上,ChatGPT背后依托的大语言模型(LLM)一直都在持续升级。
据Analytics India Magazine整理的全球顶尖大厂的LLM,许多都迈入了千亿参数级。Open AI的GPT-3模型有1750亿个参数,谷歌的LaMDA模型有1370亿参数,LG的Exaone模型有3000亿参数。
2022年6月15日,谷歌研究院联合DeepMind和斯坦福大学发表了一篇论文:《大语言模型的突现能力》(Emergent Abilities of Large Language Models)。其中 研究了谷歌,DeepMind和OpenAI的5个语言模型系列的8个“突现能力”
上榜的两家中国公司在体积上也不示弱。百度的ERINE 3.0拥有2600亿参数,华为的盘古大模型有2000亿 参数 。
但“一直以来最大问题是,大语言模型的能力比较强,使用的时候却发挥不出它的能力,”张俊林说。
ChatGPT的一大突破体现在此。它创造了结合人类反馈信息训练语言模型(RLHF)的办法。
据Open AI披露,ChatGPT的训练分为三步。第一步常规步骤,即训练及微调GPT模型。
第二步是使用真实的用户评价标记生成内容的排序,训练出奖励模型(Reward Model)。
第三步,通过奖励模型为GPT生成内容打分,再用近端策略优化(PPO)进一步优化模型。
通过人类的真实评价来训练模型,张俊林说,这让ChatGPT在理解人的表达和语意上更进一步。“人们可以对着它畅所欲言,想说什么就说什么,和它反复对话,它都完全可以理解。这一点是最有突破性的。”
ChatGPT对文本的理解能力很强,甚至能够“读懂”笑点
Open AI同时要求人工标注员在评价机器生成结果时,遵循“有用”“真实”“无害”三大原则。这让ChatGPT给人一种礼貌、真诚、不冒犯人的体面感。
而在ChatGPT未出现之前,张俊林介绍,机器训练的效果通过测试集合来评估。“假设,测试集合里有100个任务,每个任务都有打分和指标。那么AI模型的优劣,最终通过完成任务的优劣程度来决定。”
99科技网:http://www.99it.com.cn
