Sysmoore时代,宇宙的中心是_______

Guanyi Wang

Jul 07, 2022 / 1 min read

高性能计算(HPC)是近两年比较火的概念。HPC的主要作用其实就是为数据中心的运行提供其所需的计算能力。

10年前的数据中心

数据中心是专门用于存储、处理和分发数据的物理设施,随着时间推移和科技发展,数据中心所处理的数据类型和数据量也在不断演进。

过去,数据中心处理的数据就是某个特定组织业务运营的输出,比如交易、客户档案、销售详情等等,其目标是从海量的数据中获取商业智能(BI),即通过对数据进行测量、推理和分析从而最终实现商业价值,创造更多利润。药物研发、油田分析、天气预报都是此类数据处理的典型示例。

此类数据中心有两大关键特点。第一,要处理的数据均由实际事件生成。销售、交易和用于研究的物理观察数据都是与人工交互同步生成的数据。第二,处理数据以创建信息的任务是使用程序软件系统完成的,由人工进行编写和调试的。

数据量增长超乎想象

在过去10年,数据处理的方式和数据量都发生了根本性转变。数据不再由人类事件所生成。

随着传感器的广泛部署,以及“万物互联”的发展环境,各种类型的设备所生成的数据量都在以指数级增长。比如智能手表可以捕捉有关运动健身和健康状况的详细数据,一辆自动驾驶汽车每行驶一小时可生成5TB数据…未来投入使用的自动驾驶汽车的数量仍会持续增长,由此而产生的庞大数据量可见一斑。

下图为2010年到2025年全球范围内创建、采集、复制、使用的数据量预测情况。以ZB为单位,1ZB大约为1,000EB,也就是10亿TB。我们可以看到,2010年的全球数据量为2ZB,而这一数据到2025年预计将增长至181ZB。

从数据中获取BI的方式也在发生转变。

人们开始使用人工智能(AI)来分析数据。AI不但能够分辨出语音和视频模式,强化学习技术还能够从大量的可能性中识别出最佳结果,从而为使用者提供最有价值的分析。这种处理方法与传统软件有所不同,它并非人工编写的代码。相反,它需要对大量被执行操作的事件进行处理,并从对大量信息和结果的检验中进行学习

数据中心将承载更大使命

在过去10年,信息的生成、处理和存储方式也发生了根本性转变。数据中心的架构也因此发生了重大变化,通过对存储、计算和通信等信息进行复制的策略已无法实现现有需求。

由于数据量的爆炸式增长,依托于分布式网络的新存储方式应运而生。计算不再由中央处理器(CPU)完成,而是由定制处理器来对特定工作负载进行优化。通信方面也发生了很大变化。从性能(延迟)来看,独立网卡(NIC)和服务器机架上的架顶式交换机等概念,对于在数据中心内部高效移动数据而言也不再适用。

对于某些数据中心的超大规模用户来说,大数据分析就是这些企业的核心业务之一。比如谷歌、亚马逊、Meta、微软、阿里巴巴、百度等,他们引领了数据中心的革新浪潮,重新定义着数据中心的架构。谷歌开发了张量处理器,亚马逊开发了AWS Trainium,他们都为运行AI算法提出了新架构,从而为他们的数据中心提供更强大的算力。

数据中心的配置方式也在改变。内存、存储、处理能力和网络带宽等关键要素目前已经集中共用。这些资源可以根据特定工作负载的需求进行组合及部署,而不是在一台服务器中配置这些资源的适当组合。数据中心的架构将随着工作负载的变化而变化。这种方法被称为可组合数据中心。

数据中心的商业模式同样在变化。虽然本地的私有数据中心仍然相当普遍,但构建和运行下一代数据中心的成本可能令人望而却步。因此,一些能够构建数据中心的企业开始将容量卖给那些无法构建数据中心的企业,云计算就是这么产生的。这个过程与芯片制造以往的历程十分相似。以前,很多公司都拥有自己的晶圆厂,但后来成本不断攀升,技术也变得越发复杂。因此晶圆厂开始崛起,专门为需要制造芯片的企业提供晶圆制造能力。

如何应对SysMoore时代的挑战

数据中心要想要实现上述计算能力,将会面临一系列挑战。摩尔定律正在放缓。开发者在向下一个工艺节点进军的过程中未必能够实现他们所期望的性能、功耗以及成本目标。除了摩尔定律的规模复杂性外,还有一系列策略会增加系统复杂性。比如:

  • 用专用的定制芯片执行特定AI算法是挑战之一,谷歌的TPU和亚马逊的Trainium是很好的例子
  • 创建multi-die设计,将芯片或高密度内存或者小芯片集成到单个系统中是挑战之二
  • 让高度复杂的大型软件堆栈和通过3D堆叠方式所增加的大量内存在新架构上运行是挑战之三

此外,数据中心还需要通过硬件和软件系统来保护公有云数据的安全性。在公有云数据中心产生的数据和数据分析具有很高价值。

在这个全新的创新时代,除了摩尔定律的规模复杂性之外,新的方法也会提高系统复杂性。我们将这个时代称为SysMoore时代,它正在改变我们的生活。

在SysMoore时代,克服大型芯片的设计复杂性和芯片系统复杂性是关键。如何将这些技术集成到单个统一系统中是另一个关键。此外,还需要稳健的验证、强大的安全性和可靠性,低功耗,以及经验证的IP。

新思科技一直专注于高性能计算和数据中心开发,能够为整个流程提供端到端解决方案。
新思科技拥有丰富的经验证的 IP 产品组合可以满足开发者的所有要求。利用我们在设计、实现、验证、方法论以及将复杂IP集成到先进工艺节点中的丰富经验和出众资源,新思科技可以帮助开发者出色地构建下一代产品。

新思科技还能为开发者在流片后阶段部署监控和优化性能,并帮助开发者将最新的光子功能集成到设计中。

数据中心经历了漫长的发展。现在,它们不再只是一种基础设施,先进的数据中心可以产生有价值的数据分析,从健康、安全、环保、生活等多方面,帮助改善我们生活的世界。现在,它们已经真正成为了宇宙中心。

Continue Reading