ChatGPT Prompt工程:设计、实践与思考(9)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
我们知道,强化学习一般是在一个发散的空间内探索,所以这里必须要有个东西把规则限制到特定区域内。怎么做呢?要么,我们已经搞清楚语言及背后的意识和思维的奥秘,直接编码规则;要么,直接给出结果,把过程当做黑盒,我就要这个结果,给我往这个方向靠,有点类似于早期控制论那一套人工智能的思路。这就是 Instruct + HF(Human Feedback)的作用了——也是 ChatGPT 之所以成功的一个非常重要的设计。Instruct 引导模型的 In-Context 能力,同时把结果限制在一个范围内,HF 则给出结果反馈,让这个结果往期望的方向上靠。刚刚我们提到强化学习是学习规则,但是这个规则可不是那么容易学的,而 Instruct + HF 就是一个不错的范式。训练完成后,Instruct + 语言模型就可以做到在「用户满意规则」下完成任务了。不能不说,这真的是一个极其精(鸡)巧(贼)的设计。
另外,Instruct 还有个非常重要的点,就是通过 Instruct 可以忽略各种不同的任务,因为什么任务都可以通过 Instruct 给它转成语言模型的生成过程。这点也在 GPT3 Paper 的 Introduction 里解释为什么要这种 In-Context 能力时有提到,简单总结就是 “预训练-微调范式每个任务需要新数据,而且两个阶段数据分布相差太大,可能导致泛化很差”,这非常不够 Human-like,人类往往将多个任务和技能无缝混合或自由切换。再想想 Instruct 对强化学习规则的作用,再想想 Instruct 同时还使得 ChatGPT 具备了一定的可解释性。无论是有意设计还是无意为之,不得不说,和 T5 以及我们之前认知范围内的 Prompt 真的是看似相似,其实完全在两个不同的维度。再次感慨一句:真牛逼——既为这样的设计,也为他们的坚持和执着。
关于设计就说这么多,不过还有一点我觉得也值得一提:和之前不一样的是,ChatGPT 并不是一个算法,更像是一套方案。也就是综合了多种方法的一个有机系统。这也是我个人一直以来的观点,也符合大部分写过复杂工程工程师的认知——没有银弹。我始终相信,没有一个算法是“一招鲜,吃遍天”,我不确定是否会产生真正的强 AI,但即便有,那也一定是一个整合而成的有机系统。这是人类几千万年进化史告诉我们的结论——一个有机整体的系统更加鲁棒、更加具有反脆弱性。一个系统可以犯错,甚至不断犯错,但只要他具备一定学习能力,就总是会不断变得强大。
最后,是关于 ChatGPT 的不足,关于这点本文《Prompt设计》最后部分其实已经涉及一些;GPT3 [21] 《局限和影响》部分也有部分提及。当然,简单来说,最突出的还是常识和推理方面。关于常识,我们可以依靠知识图谱(Knowledge Graph)、世界知识(Commonsense World Model),甚至是与环境交互(Embodied AI);而关于推理,也许 Model Cascades、CoT(Chain-of-Thought)等会发力,但我觉得也不能排除符号 AI 的再度兴起,说实话,自从几年前读了西蒙的《人工科学》 [22] 我就在期待这一天了。值得一提的是,在这两个点上,Google 非常有竞争力,真是期待呀。
99科技网:http://www.99it.com.cn
