没有这些,别妄谈做ChatGPT了(4)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
给你一万张A100,就能把ChatGPT训出来吗?答案无疑是否定的。万卡集群对于网络、存储和通信有极高的要求,弄得不好直接宕机。
贴一组数据。
数据层面,飞天智算平台的单集群算力峰值高达12EFLOPS,千卡并行效率达90%。针对ChatGPT这类数据密集型场景,还对大规模集群进行了大量数据IO优化,通过自研KSpeed和RDMA高速网络架构,最高可将存储IO性能提升10倍,将时延显著降低了90%。
此外,阿里云自研的高性能集合通信库ACCL和自研的网络交换机等,对 万卡规模的AI集群 提供了无拥塞、高性能的集群通讯能力。
除了底层硬件的AI集群,大模型训练非常依赖于软件平台层。飞天智算平台的机器学习平台PAI,专门针对AI大模型推理和训练场景进行针对性优化,可将计算资源利用率提高3倍以上, AI训练效率提升11倍,推理效率提升6倍 ,覆盖了全链路的AI开发工具与大数据服务。
可以说,这种面向AI实现高度优化的云平台,是ChatGPT这类大模型快速迭代的底层设施保障。
总结千亿参数规模的大模型研发,需要底层庞大的算力、网络、存储、大数据、AI框架等智算基础设施的支持,也需要面向AI的针对性优化,这是一个囊括诸多技术领域的复杂系统工程。
ChatGPT之争已经超出了算法的范畴,它更是一个AI+云计算能力的全方位竞争,是技术生态层面的竞争。 既需要强大的云基础设施能力的保障,又需要深厚的大模型技术积淀,两者缺一不可。
多说一句作为NLPer,我能深刻的感受到,自从2020年GPT-3模型发布后,AI的研究生态正变得愈加封闭。虽然这对于已经取得竞争优势的商业化公司而言是利好,但对全人类实现AGI的终极梦想而言,却是一个不好的文化趋势。
客观上,我们需要承认与OpenAI的差距,正因如此,倘若有一个更加开放的大模型生态,使得能有更多的AI研究人员避免“重复造轮子”,那国内“ChatGPT复现”的进程无疑会大大加快。
一枝独放不是春。
99科技网:http://www.99it.com.cn

Geoffrey Hinton是十年前深度学习初创“革命”的开拓者之一。他看来,未来 AI 技
快资讯2022-09-21

这两天,DeepMind研究工程师小哥Aleksa Gordić的个人经验贴在Twitter上火了一把。
快资讯2022-08-30
