ChatGPT发疯怎么办?小冰李笛:两个关键,我可破之(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
联网或本地知识库搜索。既可以追踪互联网查找最新热点、甚至网页跳转,也可以在特定知识库中索引答案。
调用特定模型做某件事。如调用效果很好的扩散模型完成作画、或调用语音模型合成声音等。
控制物理世界特定行为。如开灯、买机票、打车等,不一定是特定指令,而是模型推断后得出的结论。
模块三 负责自然语言生成,简单来说就是将思考行动的结果用人话描述一遍,再汇报给用户。 总结来看,小冰链可以说是把ChatGPT最火的“思考方式”拿出来单独做成模型,并不断降低模型大小。 李笛认为,即使小冰链的核心模型大小只有中等水平,却也能在一些问题的思考方式上展现出与大模型相近的效果。
△ 还能联网,抢在吃瓜第一线基于这样的观点,李笛在一众主流“要做中国的ChatGPT”呼声中反其道而行之,不仅不宣传自家类ChatGPT产品,甚至推出了个强调“这不是ChatGPT”的小冰链。 看起来似乎有点非主流 (手动狗头) 。 这么做,真有理论依据吗? 背后的技术依据CoT,确实在国外已有不少相关研究,包括前段时间爆火的“哄一哄让GPT-3准确率暴涨”论文也在此列: 团队在研究中发现,只要对GPT-3说一句“让我们一步一步地思考”,就能让它正确回答出以前不会的逻辑推理题,比如下面这个来自MutiArith数据集的例子:
16个球中有一半是高尔夫球,这些高尔夫球中有一半是蓝色的,一共有几个蓝色的高尔夫球? 这些例子专门考验语言模型做数学题的能力,尤其是逻辑推理能力。 GPT-3本来在零样本场景 (之前完全没见过类似体型) 下准确率仅有 17% ,但在要求它一步步思考后,准确率最高能暴涨到 78.7% 。 这种名为CoT的方法,最早在去年1月由谷歌大脑团队发现并提出。 其核心思路是基于提示 (prompting) 的方法,让大模型学习一步步思考的过程,有逻辑地解决实际问题: 但上述思维链 (CoT) 论文基本都还停留在对大模型的研究上。 李笛却认为,思维链所代表的逻辑能力不是专属于大模型的产物。 在国内,“AI”或许已经是一个人尽皆知的词语,也是进行得如火如荼的创新风潮。 如果李笛所述方法得以验证,那么AI产业化应用除了“堆参数”、“砸资金”这一条大模型路线以外,或许还有其他出路。
国内AI应用落地,势力三分ChatGPT的效果和热度,让走在大模型路线上的人们看到了一丝曙光,但并不意味着AI产业化路线只剩下大模型这一种可能。 或者说,ChatGPT的热度,反而能更鲜明地呈现出当下国内外AI应用落地的现状和趋势。 先提纲挈领地讲,主要路径可以分为三条。 第一种就是直接做底层大模型。 这是最直接、最容易理解,同时也是最难走的一条路。 一方面,大模型 需要的训练数据 是海量的,而现实情况是可用作训练的数据、尤其是中文数据较少。 以最近的热点举例说明,复旦邱锡鹏教授团队推出的中国首个类ChatGPT产品MOSS,最大短板是 中文水平 不够高,重要原因之一就是背后大模型训练时缺乏高质量的中文语料。 另一方面,大模型的 参数 是海量的。ChatGPT每一句看似简短的回答,都把1750亿参数调动了一次。 巨量参数首先给标注工程带来了 巨大的工作量 ,为了应对这个环节,OpenAI在肯尼亚以低于2美元的时薪雇佣大量工人,夜以继日地进行数据的筛选标注。放眼国内,能拿出如此多人力耗在标注工作的,大约只有字节跳动、百度等巨头公司。 上述两个方面,最后的箭头都直指同一个问题:成本,无法估量的成本。 OpenAI CEO奥特曼曾在推特上透露,ChatGPT每次对话的计算成本为5美分,“让人难以忍受”。5美分这个数字看似单薄,然而每个人每天与ChatGPT对话的数量、以及不断增长的使用人数,叠加起来将会达到一个非常恐怖的量级。 谷歌母公司Alphabet的董事长ohn Hennessy在本周表示,大型语言模型等AI对话成本,可能是传统搜索引擎的10倍以上。此前摩根士丹利估计,2022年谷歌的3.3万亿次搜索查询,每次成本为0.2美分,如果接入Bard这类产品,根据AI文本生成的长度,这个数字还会增加。
99科技网:http://www.99it.com.cn

如果听腻了ChatGPT,今天我们看一个围绕着IBM,人工智能和NASA的高能案例。
快资讯2023-02-27
