主页 > 快资讯 > 正文

深度学习加速技术会是AI“高度近视”的破解之法?(2)

2022-08-25 12:19来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

省:简化数据,提高内存容量和带宽的利用率,缓解内存压力;准:优化算法,模型量化使用较低的数值精度也能保证结果的准确性,特别是推理应用;快:强化算力,避免增加额外操作,保证性能与内存利用率同步提升。

推理与训练,硬件加速双管齐下如同一条道路上,通过车辆的体型变小(简化后的数据),通过的车辆数量自然就上来了。两种新的、针对 AI 应用的 AVX-512 指令集使道路(寄存器)上通过了更多的 车辆(数据量),新的指令集无疑能使计算效率获得大幅提升。点击此处回顾英特尔AVX指令集的前世今生《这项15年前的「超前」技术设计,让CPU在AI推理时代大放光彩》这两种不同指令集的优势也有所不同。从代号Cascade Lake的英特尔第二代至强可扩展处理器开始,AVX-512指令集就增加了VNNI,用一条FMA指令就可以完成8位乘法再累加到32位的操作。2020 年问世的第三代英特尔® 至强® 可扩展处理器已集成了英特尔® 深度学习加速技术这两种 AI 加速指令集,并被广泛运用于商业深度学习应用的训练和推理过程。在指令集的支持下,简化数据的同时避免了额外的开销,让性能可以获得与内存利用率一致的提升。AVX-512_VNNI 使用INT8做推理,对比使用FP32,理论上可以获得4倍的性能,而将内存要求降至 ¼。内存的减少和频率的提高加快了低数值精度运算的速度,最终加速 AI 和深度学习推理,适合图像分类、语音识别、语音翻译、对象检测等众多方面。而AVX-512_BF16 的优势是既可以用于推理,也可以用于训练,能帮助训练性能提升达 1.93 倍。代号Cooper Lake的英特尔第三代至强可扩展处理器就集成了bfloat16加速功能,在与FP32相似的精度下,提升性能和内存利用率。

软硬协同设立“AI改造车间”,CPU多场景应用优势尽显算力、算法、数据如今都有各自标准以及解决办法,当三者形成完整闭环时,如何让整个流程的效率更上一层?依然还有可以继续进步的地方,那就是:AI 应用原生的数据格式并不统一的情况下,如何高效的把大量采用传统FP32数据格式的AI模型转换成BF16或INT8格式使用。由英特尔推出的 OpenVINO™ 工具套件提供了模型量化功能,为上述问题提供了应对良方。它能让基于不同 AI 框架,如 TensorFlow、MXNet、PyTorch 等构建的 FP32 数据格式 AI 模型,在损失很少精度的情况下转化为 INT8 和 BF16 数据格式。除模型量化功能外,针对一系列 AI 应用场景,如视觉模拟、自动语音识别、自然语言处理及推荐系统等,OpenVINO™ 工具套件还提供了能提升它们开发和部署效率的组件,例如 OpenVINO™ Model Server 和 OpenVINO™ Model Zoo 等组件可对基于 TensorFlow、PyTorch、MxNet、Keras 等不同框架构建的训练模型实施更为高效的优化,并简化这些模型部署的流程及耗时。AI应用场景颇多,那何种场景更能突显AVX-512_BF16等深度学习加速技术的优势?例如在医疗影像此类重视准确性多过于实时性的场景中,汇医慧影在乳腺癌影像分析场景中引入了集成有英特尔® 深度学习加速技术的第二代英特尔® 至强® 可扩展处理器,配合 OpenVINO™ 工具套件,在对检测模型进行了 INT8 转换和优化后,推理速度较原始方案提升高达 8.24 倍,且精确度损失不到 0.17%。企业启动构建AI应用,改弦更张并非性价比之选,可以充分评估既有的数据存储、处理和分析平台,如此一来,基于又准又快又省的CPU,或借助它构建和部署符合自身需求的AI应用。更何况,CPU自身的AI能力也在不断进化中,即将发布的代号为Sapphire Rapids的英特尔第四代至强可扩展处理器,就加入了简称AMX的高级矩阵扩展(Advanced Matrix Extensions)技术。AMX是新的x86扩展,具有自己的存储和操作,主要针对AI领域非常重要的平铺矩阵乘法,比前两种DL Boost的实现更为复杂,那效果呢?我们(带上显微镜)拭目以待吧~

99科技网:http://www.99it.com.cn

相关推荐
比AlphaFold2快10倍!国产开源项目加速蛋白质预测,超长序列22分钟就搞定 比AlphaFold2快10倍!国产开源项目加速蛋白质预测,超长序列22分钟就搞定

22分钟推理出长达4K+的超长蛋白质序列,1分15秒搞定将近2K长的序列预测。

快资讯2022-08-24

比AlphaFold2快10倍!国产开源项目加速蛋白质预测,超长序列22分钟就搞定 比AlphaFold2快10倍!国产开源项目加速蛋白质预测,超长序列22分钟就搞定

22分钟推理出长达4K+的超长蛋白质序列,1分15秒搞定将近2K长的序列预测。

快资讯2022-08-24

Model Y失控冲入小区,特斯拉称车主“踩错加速踏板” Model Y失控冲入小区,特斯拉称车主“踩错加速踏板”

最近,一台特斯拉Model Y的失控加速又引起了人们的关注。车主表示发现加速时

快资讯2022-08-15

让联邦学习从可用到好用!阿里开源最新隐私保护计算框架FederatedScope 让联邦学习从可用到好用!阿里开源最新隐私保护计算框架FederatedScope

5月5日,阿里巴巴达摩院发布新型联邦学习框架FederatedScope,该框架支持大规模

快资讯2022-08-15

瞄准肿瘤治疗前沿,质子装置国产化加速 瞄准肿瘤治疗前沿,质子装置国产化加速

首台国产质子治疗示范装置质子加速器 受访者供图 近年来,质子治疗装置在我

快资讯2022-08-15

5G加速赋能千行百业 5G加速赋能千行百业

  安徽移动铜陵分公司党员先锋队在疫情防控方舱隔离点建设工地紧急开通5G基

快资讯2022-08-13

退网创业!罗永浩交个朋友加速谋求“曲线上市”? 退网创业!罗永浩交个朋友加速谋求“曲线上市”?

今年六月,50岁的罗永浩开启最后一次创业,市场对交个朋友是否能保持住抖音

快资讯2022-08-08

2022腾讯医学ME大会“深度剧透” 5位院士名医解码医学新进展 2022腾讯医学ME大会“深度剧透” 5位院士名医解码医学新进展

5月19日,2022腾讯医学ME大会(以下简称“ME大会”)即将正式亮相。大会邀请中

快资讯2022-08-08

花式足球技巧之三个花式穿裆技巧 花式足球技巧之三个花式穿裆技巧

今天我们学习三个通用的穿裆技巧,他们的难度几乎相同,也都可以用到足球实

快资讯2022-08-04

AI元学习首次进入神经科学 AI元学习首次进入神经科学

科技日报讯 (记者刘艳)新加坡国立大学、字节跳动等机构合作的技术成果近

快资讯2022-08-02