没有这些,别妄谈做ChatGPT了
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
ChatGPT破圈爆火后,越来越多人开始问:
“啥时候出现中国版的ChatGPT?”
国内学术界和工业界,都纷纷躁动起来——百度、阿里、字节等大厂纷纷喊口号,一众创业公司也开始争做中国版OpenAI;学术界也在用行动来表明战斗力,比如前些天复旦大学推出的MOSS模型,一经开放试用,便冲上热搜。
一时间眼花缭乱,让人生疑。
有钱就能训出模型?以美团大佬带资入组为代表,很多创业者和投资人盯上了ChatGPT,作为一个NPLer,我乐见其成,相信不用几个月,在热钱的助推下,NLP算法工程师的薪资要和芯片看齐了。
但我还是要泼个冷水,创业公司想做ChatGPT,想训练模型,不是有钱招几个算法就能搞定的。
先不说ChatGPT,只说较为成熟、参数量“较小”的BERT模型,其 Large版本参数量“仅有”3.4亿,比现在的ChatGPT模型足足小了3个数量级。但如果一个从业者真正从0开始训练过BERT模型,那他一定不会认为训练BERT这个“小模型”是很容易的事情。
更何况,2018年BERT发布的时候,模型参数、训练代码是全面开源的,训练数据BookCorpus和Wikipedia也非常容易获取。在这种情况下,国内各大厂训练出内部版本的BERT模型,也经历了差不多半年的摸索时间。在此期间,算力就位、训练精度优化、训练性能优化、底层框架支持、训练策略优化、数据策略优化等都有不少的坑要趟。
如今ChatGPT既没有公开代码,也没有公开训练数据,更没有公开模型参数,甚至都没有公开前置模型的模型参数,模型的体量还比BERT大了3个数量级。
ChatGPT没有捷径相对创业团队,中国的互联网大厂在大模型方向有积累,有先发优势,但这绝不意味着高枕无忧。
在语言模型方面,国内各大厂大多沿着“以掩码语言模型MLM为核心的BERT路线”进行深耕,这种技术路线更加注重提升语言模型的文本理解能力,弱化文本生成能力。真正沿着ChatGPT这种生成式语言模型的路线深耕的研究团队,无论国内外,都不是太多。
这就注定了,ChatGPT的复现不是一朝一夕就能完成的,补功课很可能要从三年前OpenAI发布的GPT-3开始。如果没有GPT-3提供的世界知识和强大的长文本生成能力,训练ChatGPT就无异于建造空中楼阁了。
可惜,GPT-3至今也没有开源,未来也大概率不会开源了。要从头训这么一个1750亿参数的大型生成式语言模型,难度非常大。
99科技网:http://www.99it.com.cn

Geoffrey Hinton是十年前深度学习初创“革命”的开拓者之一。他看来,未来 AI 技
快资讯2022-09-21

这两天,DeepMind研究工程师小哥Aleksa Gordić的个人经验贴在Twitter上火了一把。
快资讯2022-08-30
