使用DesignWare逻辑库和嵌入式存储器以获得16FFC SOC最佳PPA

作者:Synopsys,产品市场营销经理,Ken Brock

TSMC最近宣布其第四代主要16纳米工艺,即16FFC(16纳米FinFET紧凑版), 进入批量生产。该工艺提供了一种简单的从28纳米工艺进行转移的方式,它具有优异的性能、功耗和面积方面的优点。为了在该工艺上开发最具竞争力的片上系统(SOC),设计人员必须选择优化的基础IP构件(嵌入式存储器和标准单元库),以实现最高的SOC性能,以及最低的功耗和面积。通过将16FFC工艺和正确基础IP组合,设计人员能够为多种应用开发SOC,从高端绿色服务器和网络处理器到超低功耗移动装置、消费产品、可穿戴产品,以及介于中间的任何产品。

在本文中,介绍了设计人员可采取的七种方式,采用它们,设计人员能够利用这一新工艺的优点,以及最先进的逻辑库和存储器编译器技术,对其SOC的性能、功耗和面积进行优化。

  1. 与28纳米技术相比,利用16纳米技术的摩尔定律缩小比例,设计人员能够改善SOC的面积。
  2. FinFET提供了较高的每单位面积饱和电流,这意味着可以通过不同的电路拓扑来改善性能,从而使用较小的逻辑单元来收敛关键定时路径。
  3. 与28纳米相比,FinFET的漏电流更低,但是,由于fin的输入电容增加,消耗的动态功耗相对较高。
  4. 标准单元架构能够利用创新的工艺技术(continuous poly),借助于使用与逻辑库共同优化的物理设计工具,产生最密集的布图,以节省面积和功耗。
  5. 布线性好的高扇入标准单元,和具有多种延迟时间、多种建立时间和多位触发器(MBFF)的时序单元,使得设计人员能够优化其处理器核的性能和功耗。
  6. 具有多种位元、多种外围VT和创新的功耗管理特性的多种存储器编译器。
  7. 将创新的工艺技术、库设计能力、最新的EDA工具创新和流程结合在一起,SOC设计人员能够利用自己的设计技能,开发出具有最高性能、最低硅片成本和最低功耗的设计。

工艺缩放
作为摩尔定律和经典Dennard缩放的一部分,16FFC工艺提供了更小的晶体管间距(contacted poly pitch或CPP)和更小的互连金属间距(线到线,过孔到线,以及过孔到过孔)以利于布线,提供了更小的位单元以减少面积。优化的IP布图创新能利用这些更小设计规则,同时还能处理16纳米技术带来的挑战,包括因更细导线而致的较高线电阻,以及信号线和电网的电迁移。必须在IP架构和IP验证方面解决这些挑战。如图1所示,与28纳米技术相比,使用优化的基础IP时,16FFC能够提供两倍以上的面积收益和至少30%的性能改进。

面积-性能,28纳米-16纳米,CPU

图1:面积-性能,28纳米-16纳米,CPU

FinFET提供了较高的每单位面积饱和电流,这意味着可以通过不同的电路拓扑来改善性能,从而使用较小的逻辑单元来收敛关键定时路径。

Reduced Gate Leakage but Increased Dynamic Power 
16FFC提供了丰富的电压阈值(VT)和沟道长度,涵盖广泛的性能/漏电范围。在图2中,给出了逻辑门性能-漏电(对数尺度)图,其中显示了通过在多个VT/沟道长度上使用针脚相容的标准单元来实现设计权衡。

每种VT和沟道长度的相对性能-相对漏电,7.5轨(T)超高密度

图2:每种VT和沟道长度的相对性能-相对漏电,7.5轨(T)超高密度

许多移动和物联网(IOT)设备大多数时间处于待机或睡眠状态,这时唯一的功耗为漏电功耗。FinFET的一个主要优点在于,它们能在很低的电压下工作,当然相关的性能也会降低。漏电流大体上与供电电压成正比,漏电流节省在低电压下很可观。

总功耗由动态功耗和漏电功耗组成。与28纳米或其他节点相比,FinFET的漏电更低,但由于fin的输入电容和饱和电流增加,它会消耗较高的动态功耗。在28纳米SOC的设计范例下,这类在相对漏电-动态功耗方面的变化会产生较大差异。在图3中,显示了从180纳米到16纳米,漏电功耗占总SOC功耗的百分比。在16FFC,这会大大减少设计人员在减小漏电方面的压力,但会将更多注意力放在降低动态功耗方面。

从180纳米到16纳米漏电功耗占总SOC功耗的百分比

图3:从180纳米到16纳米漏电功耗占总SOC功耗的百分比

管理动态功耗= CFV2
由于应用规范对SOC性能具有强制要求,可由设计人员控制的动态功耗源包括,通过积极使用时钟门控来管理开关频率,将电容最小化,并将工作电压将至最低。使用密集的优化布图和较短的走线,可将布线电容将至最低(通过使用在给定频率给定功能下具有最佳单元高度的优化库,可将输入电容最小化)。标准单元可按照多种高度来构建(3fin、4fin和5fin),从而在性能和可靠性方面与设计模块的目标频率相匹配。在图4中,显示了三种不同轨道高度下(7.5T、9T、10.5T)1X驱动反相器的输入电容。其他单元具有类似趋势。 

各种标准单元架构下1X反相器的输入电容

图4:各种标准单元架构下1X反相器的输入电容

对于同一个模块,使用超高密度(UHD)7.5轨道库时,与高密度(HD)9轨道库相比,并不具有最高的性能,但由于降低了器件电容,功耗会降低25%左右,具体情况取决于模块的功能和频率。此外,当降低模块的电压时,动态功耗的降低因数为V2。在图5中,给出了不同额定电压下模块的漏电功耗(虚线)和动态功耗(实线)图。低压下降低的动态功耗归因于V2分量。 

多个额定电压下的性能-漏电和动态功耗

图5:多个额定电压下的性能-漏电和动态功耗

显著改善模块性能、功耗和面积的逻辑库设计
将新的TSMC 16FFC工艺与优化布图以及创新的逻辑库电路设计结合在一起,可为通过综合和布局布线从RTL创建数字逻辑模块的设计工程师提供数项优点。布线后的模块密度对于降低硅片面积和节省功耗十分关键。

针对最小SOC面积和最低总功耗的高效布图
标准单元设计是一个复杂的过程,其中,每一个电路元件、布图特性或折中均会对性能、功耗、面积(PPA)和可制造性产生重大影响。充分利用工艺特性如CPODE(continuous poly on diffusion edge),与使用PODE(poly on diffusion edge)的设计相比,能够使布线后模块小5%,从而得到最小的布线后模块面积和最小的总功耗。

组合单元
优化寄存器-寄存器路径需要丰富的标准单元库,包括合适的功能、驱动强度和实现种类。一套丰富的优化功能(NAND, NOR, AND, OR, inverter, buffers, XOR, XNOR, MUX, adders, compressors 等)对于综合出优化的电路而言十分必要。需使用优化布图技术以便最大程度利用最新的布线算法来消除阻塞。先进的综合和布局布线工具能够利用丰富的驱动强度集合,来对由设计拓扑和单元间物理距离产生的不同的扇出和负载进行优化处理。

时序单元
触发器的建立时间加上延迟时间有时被称为“死区”或“黑洞”时间。与时钟不确定性类似,该时间会消耗每一时钟周期内的时间,而这些时间本应用于执行有用的计算工作。需要用到多套高性能触发器,以便对这类死区时间进行优化管理。延迟时间优化触发器(多延迟时间触发器)快速将信号送入关键路径逻辑簇,建立时间优化触发器(多建立时间触发器)捕获寄存器,从而延长可用时钟周期。通过对综合和布线优化工具进行有效约束,我们能够使用这些多建立时间/多延迟时间触发器集合来实现最大速度,从而获得15-20%的性能提升。

显著改善PPA的存储器编译器设计
DesignWare®存储器编译器针对低功耗、高性能和高密度进行了优化,它提供了多种先进的功耗管理特性,如轻度睡眠、深度睡眠、关机、双供电轨道、写辅助等,使得设计人员能够满足当今SOC严格的低功耗要求。DesignWare存储器编译器与DesignWare STAR Memory System™紧密结合在一起,提供了集成的嵌入式存储器测试解决方案来检测并修复制造故障,从而达到最高可能的良率,同时将对芯片面积的影响将至最低。DesignWare存储器编译器在数以十亿计的量产芯片上得到了验证,这使得设计人员能够降低风险并缩短面市时间。

用于各种应用的多种DesignWare存储器编译器

图6:用于各种应用的多种DesignWare存储器编译器

总结
TSMC的16FFC工艺改进了工艺规则和变异性,以实现更小的设计、更高的性能和更低的功耗。如果拥有充分利用这些新工艺能力的逻辑库和嵌入式存储器,领先的综合和布局布线工具就能够最大程度地利用这些工艺改进来满足严格的设计规范。Synopsys 的DesignWare逻辑库和领先的EDA工具、存储器编译器以及齐全的接口IP采用了相应设计,使得SOC设计人员能够挑战性能、面积和功耗极限,并充分利用新工艺的能力来实现具有最小的面积和最高的兆赫/毫瓦的SOC。

关于更多信息,请访问: http://www.synopsys.com/dw/ipdir.php?ds=hpc-design-kit