时间:2024-08-08 来源:网络搜集 关于我们 0
声明:本文是通过Google Translate直接翻译所得,仅供参考阅读;因机器翻译准备率及可阅读性欠佳,谢绝直接转载。欢迎加入本群参与FPGA技术讨论,QQ群号【123035845】。
本文转载自The Next Platform网站,请点击左下方【查看原文】来阅读英文原稿【OpenCL Opens Doors to Deep Learning Training on FPGA】。
原文中引述到的论文:
Deep Learning Accelerator (DLA) approach, written in OpenCL
https://arxiv.org/pdf/1701.03534.pdf
OpenCL在FPGA上开展深入学习培训
2017年1月31日 Nicole Hemsoth
硬件和设备制造商正在疯狂地创建或获得完美的芯片执行深度学习训练和推断。虽然我们还没有看到任何可以在单个芯片上处理这两个部分的工作负载并获得惊人的结果(Pascal通用GPU是最接近的,但是来自英特尔/ Nervana的威胁未来),FPGA有希望找到入侵。
到目前为止,我们关注的FPGA和深度学习的大部分工作集中在加速推理,提高培训时间和准确性数字。 例如,本周早些时候,我们指出二进制神经网络推理如何可以被后端的FPGA显着加速。英特尔最近的工作是使用去年获得的Altera资产,其重点是使用OpenCL框架支持深度学习训练(在这种情况下,卷积神经网络 - 用于计算机视觉和分类) - 比其他FPGA编程方法。
英特尔的研究团队背后的努力是知道FPGA历史上进入大型训练比赛的障碍。 “FPGA是众所周知的能够有效地执行卷积,然而,最近在FPGA上运行CNN的努力表现出相对于其他设备(例如GPU)有限的优点。 由于FPGA设备上的有限的外部存储器带宽,FPGA上的以前的方法通常是内存限制的。“然而,使用他们的深度学习加速器(DLA)方法,用OpenCL编写,他们能够在标准的AlexNet基准。
虽然他们没有以任何方式将GPU从水中驱逐出去,但这项工作突出显示了调整FPGA工作负载的努力能否继续得到回报,从而为培训中的GPU提供更多的竞争。 如果这是一个成功的努力,FPGA可能是另一个方法,高效地进行高精度的培训和推理在相同的硬件设备 - 一个目标,大规模深度学习工作负载的商店。 类似的工作致力于优化使用OpenCL的FPGA。 例如,亚利桑那州的一个团队对Altera Stratix V采用了与AlexNet 略有不同的方法 ,其他人采用了一个数据流方法,目的是降低 CNN 的存储器带宽要求 。 对于较小规模的神经网络,其他FPGA方法依赖于压缩 ,并且最终可能进入大规模实现。
使用自己的基于OpenCL的DLA方法,英特尔/ Altera团队能够在AlexNet上提取每秒1020幅图像(每秒23张图像/每瓦)的性能。 性能仍然有一个方法去,但在效率方面,每瓦每瓦23张图像与TitanX GPU大致相同。 当然,问题是,什么最重要的深度学习商店具有相对较高的节点数? 效率,准确性或速度是多少? 理想情况下,这三个,当然。 现在,FPGA硬件和工具的开发人员正在赶上GPU,特别是专为HPC和机器学习工作负载而设计的Pascal。 该团队描述的AlexNet结果基于Arria 10 FPGA。他们将结果与类似的竞争性FPGA(Xilinx的UltraScale架构)进行了比较,认为这是一个10倍的更好的吞吐量和8.4 FGLOP的性能提升。
在描述基准和OpenCL编程技术的完整论文中有更多的细节,但是从高层面上来说,团队创建了一个解决方案,通过使用片上流缓冲器将存储器带宽需求降低一个数量级。 这种相对简单的添加允许输入和输出特征图存储,减少I / O要求。 他们还利用向量化功能,允许60%的DSP效率,并使用其他技术来减少执行卷积层所需的DSP数量。
“我们的DLA的目标是高性能。 在大多数CNN拓扑中,浮点计算的总量由卷积层支配。 例如,在AlexNet中,卷积是总浮点运算的92%。 因此,DLA硬件被优化以通过利用计算中的并行性来最大化卷积层的吞吐量。
另外,该团队使用半精度(FP16)和单精度,以减少对DSP的要求。 Arria 10的DSP模块目前不支持FP16,但他们通过使用共享指数技术允许定点乘法,从而减少了半精度操作的开销,从而找到了一种解决方法。 DLA能够使用用于OpenCL的FPGA SDK实现AlexNet的所有层(一个成就)。 该团队表示,它希望将DLA方法应用于其他CNN方法。 “为不同的CNN拓扑改变我们的DLA不需要向量化不同的环路,但只需要根据拓扑的维度更改矢量化因子。
FPGA仍然有一个长的爬升到培训加速器堆栈的顶部,但这样的努力表明有明确的兴趣。 英特尔与其Altera资产的目标将是构建这个广受欢迎的集成设备,并使其在深度学习工作负载训练和推论的两侧嗡嗡声。