如今,电子行业发展速度令人瞠舌,5G、AI、工业4.0、智能汽车一波又一波的应用革新引领了“新浪潮”,但随之带来的就是巨量的计算、分析、处理量。数据显示,2019年数据总量将达40ZB总量,如此庞大的潜在计算量,FPGA的小尺寸、低功耗以及高灵活性等特点恰与新兴技术“不谋而合”。
FPGA巨大市场背后:难以逾越的瓶颈
据Semico统计,FPGA市场正在逐年增长,而复合年均增长率高达38.4%,至2023年将具有55亿-60亿美元的规模。Achronix Semiconductor 总裁兼首席执行官Robert Blake表示对于FPGA近年的市场增长非常兴奋,相信在庞大高速增长的市场中新产品将有出色的表现。
据统计,约有25%的企业选择入局AI/ML以保持企业自身的竞争力,未来两年内,将会有接近四分之三的企业会布局AI。而AI方面,算法仍在不断演进,数值精度选择越来越多样性,但仅依赖数据格式的转变降低能耗的方法已接近瓶颈,市场需要更具有高效计算力、高效大带宽的数据运送能力、丰富储缓存能力的最高能效比的广适应性平台。
5月22日,Achronix宣布推出全新的 “FPGA+”系列产品Speedster7t FPGA,该产品采用台积电(TSMC)7nm FinFET工艺打造。据介绍,该产品将FPGA与ASIC技术融合,兼顾了两者的优点。
除此之外,Speedster7t FPGA具有革命性的新型二维片上网络(2D NoC)和一系列针对高带宽和人工智能/机器学习(AI / ML)应用进行了优化的新型机器学习处理器(MLP)。另外,值得一提的是,Speedster7t FPGA还具有满足未来AI/ML需求所需的超高带宽接口,包括400G以太网端口、用于数据传输的PCI Express Gen5端口以及用于业界最灵活、低成本、高带宽存储的GDDR6控制器。
利用四个架构代系的硬件和软件开发基础上的创新和积淀,客户可以拥有更快的设计周期、更好的设计表现,另外,还可以降低设计中的风险、减少所需设计面积。
Blake表示:“我们正处于智能化、自学习计算的高增长阶段的早期,这种计算将广泛影响我们日的常生活。” Semico Research公司ASIC和SoC首席市场分析师Rich Wawrzyniak表示:“全新的系列产品是创新性芯片架构实现爆发的一个卓越案例,创造该架构的目的是直接面向AI应用处理大量的数据。”
那么,Speedster7t FPGA究竟解决了哪些瓶颈?
瓶颈一:1+1>2,如何兼顾FPGA与ASIC的双重优点
如今,为了适应当前应用的高速发展,大多公司的设计团队开始选择全新的方案。众所周知,ASIC具有高性能、低功耗的优势,但相对来说,其内核执行外的任何算法都是冻结的,所以FPGA的高灵活性、高适应性相比来说更具优势。那么,有没有一款产品即具有FPGA的适应性,也兼顾ASIC的超高表现力?
Speedster7t FPGA系列产品正是将二者相融合,利用台积电(TSMC)7nm技术,构建出全新的具有高性能、低功耗、高灵活性、高适应性的FPGA+。
瓶颈二:传统FPGA数据传输拥塞 vs 纵横交错的NOC路由结构
假若将400G内容传送到以太网比作在传送带上传送,影响传输的除了传送带速度,还有盒子的大小。传输速度需要足够快确保来得及装包,而越大的盒子也会降低效率。传统FPGA在传输400G内容时,无论如何调整传输大小和传输频率,也无法达到以太网的传输曲线。所以对于传统FPGA几乎无法满足超高速的传输条件。
来自Speedster7t高速I / O和存储器端口的数万兆比特数据很容易淹没传统FPGA面向比特位的可编程互连逻辑阵列的路由容量,而Speedster7t架构包含一个可横跨和垂直跨越FPGA逻辑阵列的创新性的、高带宽的二维片上网络(NOC),它们连接到所有FPGA的高速数据和存储器接口。
它们就像叠加在FPGA互连这个城市街道系统上的空中高速公路网络一样,Speedster7t的NoC支持片上处理引擎之间所需的高带宽通信。NoC中的每一行或每一列都可作为两个256位实现,单向的、行业标准的AXI通道,工作频率为2Ghz,同时可为每个方向提供512 Gbps的数据流量。
通过在Speedster中实现专用二维 NoC,极大地简化了高速数据移动,并确保数据流可以轻松地定向到整个FPGA结构中的任何自定义处理引擎。最重要的是,NOC消除了传统FPGA使用可编程路由和逻辑查找表资源在整个FPGA中移动数据流中出现的拥塞和性能瓶颈。这种高性能网络不仅可以提高Speedster7t FPGA的总带宽容量,还可以在降低功耗的同时提高有效LUT容量。
瓶颈三:传统DSP式FPGA受限的表现力 vs 计算、存储、程序三位一体的MLP
传统FPGA使用DSP模块有着相对有限的表现力,具体表现在不高效的数值精度支持、需要消耗额外逻辑和Memory资源、性能受限于FPGA布线。
Speedster7t FPGA搭载全新的机器学习处理器(MLP),将计算、存储和程序集于一身,使其支持阵列式乘累积计算架构、内嵌缓存、可配置以支持演进中算法、支持广泛各种不同整点和浮点格式。大规模的可编程计算单元平行阵列是其核心,可提供业界最高的、基于FPGA的计算密度,另外,也具有最高的能效比。
MLP是高度可配置的、计算密集型的单元模块,可支持4到24位的整点格式和高效的浮点模式,包括对TensorFlow的16位格式的支持,以及可使每个MLP的计算引擎加倍的增压块浮点格式的直接支持。
MLP与嵌入式存储器模块紧密相邻,通过消除传统设计中与FPGA布线相关的延迟,来确保以750 MHz的最高性能将数据传送到MLP。这种高密度计算和高性能数据传输的结合使得处理器逻辑阵列能够提供基于FPGA的最高可用计算能力以每秒万亿次运算数量为单位(TOPS,Tera-Operations Per Second)。
瓶颈四:表现较差的传统带宽存储 vs GDDR6高带宽存储
高性能计算和机器学习系统的关键之处是高片外存储器带宽,从而为多个数据流提供存储源和缓冲。 Speedster7t器件是唯一支持GDDR6存储器的FPGA,该类存储器是具有最高带宽的外部存储器件。每个GDDR6存储控制器都能够支持512 Gbps的带宽,Speedster7t器件中有多达8个GDDR6控制器,可以支持4 Tbps的GDDR6累加带宽,并且以很小的成本就可提供与基于HBM的FPGA等效存储带宽。
“美光(Micron)乐于携手Achronix去实现全球第一个面向高带宽存储需求而直接加载了GDDR6的FPGA产品,”美光计算与联网业务部营销副总裁Mal Humphrey。“像这样的创新的和可扩展的解决方案将推动人工智能领域内的差异化,其中异构计算可选方案与高性能的存储是加速获得数据内涵的必需部分。”
瓶颈五: “旗鼓不相当”的接口 vs 最高速度的接口
非凡的存储带宽需要好的“后卫”才能真正发挥出其性能。Speedster7t器件包括业界最高性能的接口端口,以支持极高带宽的数据流。
Speedster7t器件拥有多达72个业界最高性能的SerDes,可以达到1到112 Gbps的速度。还有带有前向纠错(FEC)的硬件400G以太网MAC,支持4x 100G和8x 50G的配置,以及每个控制器有8个或16个通道的硬件PCI Express Gen5控制器。
值得期待的FPGA+家族
Speedster7t FPGA器件的大小范围为从363K至2.6M 的6输入查找表(LUT),无论是低成本客户还是高端客户,均可满足。而FPGA+如此众多的优点也可“随意驰骋”在AI、图像处理、语言处理、Database加速、加密算法、网络处理方案上。
据Achronix表示,支持所有Achronix产品的ACE设计工具现已可提供,可支持包括Speedcore eFPGA和Speedchip™FPGA多晶粒封装芯片(Chiplet)。相关配套软件将于第三季度面世,更加高级的语言让设计开发更具表现力,第一批用于评估的器件和开发板也将于2019年第四季度提供。