ChatGPT Prompt工程:设计、实践与思考(8)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
对写作或 Prompt 感兴趣也可以加入他的邮件推送列表:Join 5,082+ creators, solopreneurs, and founders [9] 。
多想一点关于 ChatGPT 的 Prompt 我们已经有了一定程度的理解,这部分内容主要想务虚地探讨一下为什么效果好,以及为什么需要 Prompt,而且效果那么依赖 Prompt?
首先是大模型的超能力——这个的确是自己以前没意识到的,只知道 BERT 这么大的模型比 TextCNN 这类效果好,也知道更大会更好;但确实没有一个具体的概念——到底多好。从 T5 统一所有 NLP 的输入、GPT3 的 In-Context,到后面 Prompt 和 MTL 的大发展,好像都没有感受到那种大突破——直到现在,我们都知道了。
我记得之前看过一篇研究 BERT 究竟学到了什么的 Paper:A Primer in BERTology: What we know about how BERT works [10] ,这篇 Paper 的结果是在理解范围内的:能学到一些句法和语义知识,在推理和常识方面不太理想。其实,ChatGPT 依然如此,但没想到却出彩了。
另外,也是我一直以来对大模型不太感冒,感觉有点无脑,所以会对类似 R-Drop [11] 这类 Paper 比较感兴趣,还会在小模型上做一些实验 [12] 。
但大模型一直都比较关注其设计,比如 UniLM [13] 、T5 [14] 、DeBERTa [15] 等,尤其是 T5 以及后面的 ExT5 对任务的统一,UniLM 对模型架构的统一,这种 Unified 做法实在是太吸引人了,让人拍案叫绝。这期间其实对 GPT 系列关注不太多,GPT2 [16] 的 Paper 和代码精读过,但主要是当时有生成的业务需要。GPT3 [17] 就一直没仔细读,直到前几天才带着重新学习的心态读了一下,收获很大,有点后悔当时没有认真研读了。对于 In-Context 方面的关注源于 FaceBook 的 MetaICL [18] ,主要是看到了 Meta Learning 这个东西,这也是一种 Unify,而且更加抽象——个人很喜欢。
总的来说,在语言大模型方面,其实大家研究的都差不多,都在慢慢关注到 In-Context 能力(T5 不是也可以这么理解么)。不过 OpenAI 是一条路走到底,这个只能佩服了。如果说从一开始就有这种前瞻的认识和理解,那只能说太太太牛逼格拉斯了。这可不是写写文章自己随便研究研究,每年多少亿资金砸进去啊,真有魄力。
那么,为什么是 ChatGPT?这就不得不说接下来的强化学习了。关于强化学习在 AI 中的作用我在很久以前在 NLP与AI [19] 这篇文章中就提到过了,这些年也在关注这个领域的进展。在 ChatGPT 前关注到的最新的研究是 Allen AI 的那篇 Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization [20] ,额,这么长的标题。当时正好是某个工作日上午,当日常刷论文刷到这篇并快速浏览完后,激动的恨不得在工位上大吼几声。如果说深度学习是在学习表征的话,强化学习就是在学习规则。
99科技网:http://www.99it.com.cn
