ChatGPT Prompt工程：设计、实践与思考(9)

2023-02-08 22:13来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

我们知道，强化学习一般是在一个发散的空间内探索，所以这里必须要有个东西把规则限制到特定区域内。怎么做呢？要么，我们已经搞清楚语言及背后的意识和思维的奥秘，直接编码规则；要么，直接给出结果，把过程当做黑盒，我就要这个结果，给我往这个方向靠，有点类似于早期控制论那一套人工智能的思路。这就是 Instruct + HF（Human Feedback）的作用了——也是 ChatGPT 之所以成功的一个非常重要的设计。Instruct 引导模型的 In-Context 能力，同时把结果限制在一个范围内，HF 则给出结果反馈，让这个结果往期望的方向上靠。刚刚我们提到强化学习是学习规则，但是这个规则可不是那么容易学的，而 Instruct + HF 就是一个不错的范式。训练完成后，Instruct + 语言模型就可以做到在「用户满意规则」下完成任务了。不能不说，这真的是一个极其精（鸡）巧（贼）的设计。

另外，Instruct 还有个非常重要的点，就是通过 Instruct 可以忽略各种不同的任务，因为什么任务都可以通过 Instruct 给它转成语言模型的生成过程。这点也在 GPT3 Paper 的 Introduction 里解释为什么要这种 In-Context 能力时有提到，简单总结就是 “预训练-微调范式每个任务需要新数据，而且两个阶段数据分布相差太大，可能导致泛化很差”，这非常不够 Human-like，人类往往将多个任务和技能无缝混合或自由切换。再想想 Instruct 对强化学习规则的作用，再想想 Instruct 同时还使得 ChatGPT 具备了一定的可解释性。无论是有意设计还是无意为之，不得不说，和 T5 以及我们之前认知范围内的 Prompt 真的是看似相似，其实完全在两个不同的维度。再次感慨一句：真牛逼——既为这样的设计，也为他们的坚持和执着。

关于设计就说这么多，不过还有一点我觉得也值得一提：和之前不一样的是，ChatGPT 并不是一个算法，更像是一套方案。也就是综合了多种方法的一个有机系统。这也是我个人一直以来的观点，也符合大部分写过复杂工程工程师的认知——没有银弹。我始终相信，没有一个算法是“一招鲜，吃遍天”，我不确定是否会产生真正的强 AI，但即便有，那也一定是一个整合而成的有机系统。这是人类几千万年进化史告诉我们的结论——一个有机整体的系统更加鲁棒、更加具有反脆弱性。一个系统可以犯错，甚至不断犯错，但只要他具备一定学习能力，就总是会不断变得强大。

最后，是关于 ChatGPT 的不足，关于这点本文《Prompt设计》最后部分其实已经涉及一些；GPT3 [21] 《局限和影响》部分也有部分提及。当然，简单来说，最突出的还是常识和推理方面。关于常识，我们可以依靠知识图谱（Knowledge Graph）、世界知识（Commonsense World Model），甚至是与环境交互（Embodied AI）；而关于推理，也许 Model Cascades、CoT（Chain-of-Thought）等会发力，但我觉得也不能排除符号 AI 的再度兴起，说实话，自从几年前读了西蒙的《人工科学》 [22] 我就在期待这一天了。值得一提的是，在这两个点上，Google 非常有竞争力，真是期待呀。

99科技网：http://www.99it.com.cn

共14页: