深度学习加速技术会是AI“高度近视”的破解之法？(2)

2022-08-25 12:19来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

省：简化数据，提高内存容量和带宽的利用率，缓解内存压力；准：优化算法，模型量化使用较低的数值精度也能保证结果的准确性，特别是推理应用；快：强化算力，避免增加额外操作，保证性能与内存利用率同步提升。

推理与训练，硬件加速双管齐下如同一条道路上，通过车辆的体型变小（简化后的数据），通过的车辆数量自然就上来了。两种新的、针对 AI 应用的 AVX-512 指令集使道路（寄存器）上通过了更多的车辆（数据量），新的指令集无疑能使计算效率获得大幅提升。点击此处回顾英特尔AVX指令集的前世今生《这项15年前的「超前」技术设计，让CPU在AI推理时代大放光彩》这两种不同指令集的优势也有所不同。从代号Cascade Lake的英特尔第二代至强可扩展处理器开始，AVX-512指令集就增加了VNNI，用一条FMA指令就可以完成8位乘法再累加到32位的操作。2020 年问世的第三代英特尔® 至强® 可扩展处理器已集成了英特尔® 深度学习加速技术这两种 AI 加速指令集，并被广泛运用于商业深度学习应用的训练和推理过程。在指令集的支持下，简化数据的同时避免了额外的开销，让性能可以获得与内存利用率一致的提升。AVX-512_VNNI 使用INT8做推理，对比使用FP32，理论上可以获得4倍的性能，而将内存要求降至 ¼。内存的减少和频率的提高加快了低数值精度运算的速度，最终加速 AI 和深度学习推理，适合图像分类、语音识别、语音翻译、对象检测等众多方面。而AVX-512_BF16 的优势是既可以用于推理，也可以用于训练，能帮助训练性能提升达 1.93 倍。代号Cooper Lake的英特尔第三代至强可扩展处理器就集成了bfloat16加速功能，在与FP32相似的精度下，提升性能和内存利用率。

软硬协同设立“AI改造车间”，CPU多场景应用优势尽显算力、算法、数据如今都有各自标准以及解决办法，当三者形成完整闭环时，如何让整个流程的效率更上一层？依然还有可以继续进步的地方，那就是：AI 应用原生的数据格式并不统一的情况下，如何高效的把大量采用传统FP32数据格式的AI模型转换成BF16或INT8格式使用。由英特尔推出的 OpenVINO™ 工具套件提供了模型量化功能，为上述问题提供了应对良方。它能让基于不同 AI 框架，如 TensorFlow、MXNet、PyTorch 等构建的 FP32 数据格式 AI 模型，在损失很少精度的情况下转化为 INT8 和 BF16 数据格式。除模型量化功能外，针对一系列 AI 应用场景，如视觉模拟、自动语音识别、自然语言处理及推荐系统等，OpenVINO™ 工具套件还提供了能提升它们开发和部署效率的组件，例如 OpenVINO™ Model Server 和 OpenVINO™ Model Zoo 等组件可对基于 TensorFlow、PyTorch、MxNet、Keras 等不同框架构建的训练模型实施更为高效的优化，并简化这些模型部署的流程及耗时。AI应用场景颇多，那何种场景更能突显AVX-512_BF16等深度学习加速技术的优势？例如在医疗影像此类重视准确性多过于实时性的场景中，汇医慧影在乳腺癌影像分析场景中引入了集成有英特尔® 深度学习加速技术的第二代英特尔® 至强® 可扩展处理器，配合 OpenVINO™ 工具套件，在对检测模型进行了 INT8 转换和优化后，推理速度较原始方案提升高达 8.24 倍，且精确度损失不到 0.17%。企业启动构建AI应用，改弦更张并非性价比之选，可以充分评估既有的数据存储、处理和分析平台，如此一来，基于又准又快又省的CPU，或借助它构建和部署符合自身需求的AI应用。更何况，CPU自身的AI能力也在不断进化中，即将发布的代号为Sapphire Rapids的英特尔第四代至强可扩展处理器，就加入了简称AMX的高级矩阵扩展（Advanced Matrix Extensions）技术。AMX是新的x86扩展，具有自己的存储和操作，主要针对AI领域非常重要的平铺矩阵乘法，比前两种DL Boost的实现更为复杂，那效果呢？我们（带上显微镜）拭目以待吧~

99科技网：http://www.99it.com.cn

共3页:

相关推荐