数据中心&开放计算项目(OCP)
在日常生活、商业和社会活动中,需要利用数据中心进行处理的信息正在急速多样化。而且,随着应用范围的扩大,数据中心执行的任务(信息处理作业)种类也比以前更多了。
数据中心中处理的任务都有其自身的特征。虽然数据中心的信息处理往往被说成一类,但事实上,处理对象——数据在数量和质量、处理步骤、处理精度和速度方面存在多种差异(图1)。
迄今为止,在数据中心设置的信息处理系统的设计前提是:能够高速且有效地处理不特定多数用户所执行的多种任务。因此,数据中心采用了能够实现高度通用性和灵活性的系统规格。例如,数据中心的头脑——服务器中的处理使用了很多通用性很高的处理器——CPU(Central Processing Unit),同一芯片被应用于处理多种任务。
然而,近年来数据中心的情况发生了大幅变化。现在构建的系统可以根据任务的不同特征使用不同的处理器来处理不同的任务。本文对在应用领域不断扩大、用户和使用场景不断增多的背景下,数据中心的基本设计思想的变化进行相关解说。
在当今的数据中心,在执行演算处理时扮演大脑角色的处理器分别使用5大类半导体芯片。以下对哪些任务由哪些芯片处理进行相关介绍(图2)。
首先,作为数据中心的利用形态,让我们来看看迄今为止很常见的信息处理——商业日常业务处理(客户管理和产品订单处理等)。这些处理要执行大量的日常任务。需要在所执行的任务中对每个客户进行灵活的应对,并含有复杂的条件分支和顺序处理。然而,每项任务的负荷并不是很高。在位于云中的系统中进行此类处理时,利用配备大量CPU内核、擅长灵活进行顺序处理的多核构成处理器进行并发处理。在这种系统中,可以迅速有效地处理每个任务之间的关联性很小、大量独立的任务。
另一方面,近年来对人工智能(AI)和机器学习的需求急速增加,与其有关的处理过程需要进行异构信息处理。在这些任务中,会将很大的数据集输入预先准备好的神经网络,这些网络会重复执行相同的演算处理,因此负荷很高。演算处理本身相对简单,但其特征是每个任务本身的规模很大。在云端执行此类处理时,通常会使用配备了数千个内核、适合用于在AI相关处理中用得很多的矩阵运算等的GPU(Graphics Processing Unit)。
近年来,负责AI相关处理的处理器进一步走向细分化。在AI相关处理中,特别是在以已学习模型为对象的推理处理中,演算规格可以明确定义,现在已经出现了使用TPU(Tensor Processing Unit)等针对特定任务进行优化过的专用芯片的事例。这是因为通过这种方式可以追求更高的速度、更低的耗电量和更具成本效益的处理。但是,在更前沿的AI研发阶段,需要对多种模型、算法和AI框架进行尝试。因此,在提高AI模型本身性能的学习处理中,仍然像以前一样使用兼具高通用性和并行处理能力的GPU。
此外,与传统任务相比,在AI相关处理中,GPU等与内存和存储器之间会发生更高速、更大量的数据交换。因此,还需要引入更高带宽的网络。一般来说,很少有将专用于AI相关处理的服务器与通用服务器混合使用的例子,而是作为AI数据中心与通用数据中心分开设置。
在数据中心内处理的任务中,某些任务在全部应用中都是共通执行的。典型的例子有用于对互联网上流动的大量通信数据进行控制的网络和数据包处理等演算、存储器写入和读取等处理。除此之外,数据加密和压缩/解压缩等与安保相关的任务现在也会在数据中心执行。特别是在SNS和视频发布等的处理当中,需要大量、迅速地执行这样的任务。
过去,这些处理全部是在企业执行客户管理等处理的CPU上进行的。但近年来,越来越多的企业开始使用被称为DPU(Data Processing Unit)、专门用于网络处理等的处理器。这样一来,昂贵的CPU就可以专注于没有CPU就无法执行的处理。结果,数据中心整体的性能得到了提高。
在DPU处理的任务中,网络处理对实时性的要求特别高。另一方面,由于它以定型格式的数据为对象执行某些处理的情况很多,因此也很容易锁定演算内容。由于任务的这些特征,通过写入程序就能实现专用硬件的FPGA(Field Programmable Gate Array)现在已经得到了普遍应用。利用FPGA后,每次处理完成后都不需要将成为处理对象的数据返回到外部存储器,因此FPGA可以实现非常有效的处理。
在最近的云服务中,不仅分别使用不同类型的处理器,还提供多种不同的CPU架构等,可供选择的硬件呈现越来越细分化的倾向。而且,未来的数据中心有望使用量子门方式和量子退火方式等多种量子计算机等,变得更加多样化。
另外,数据中心还开始从一个略微不同的角度实现多样化。作为数据中心的一种新形态,开发和设置被称为“微型数据中心(MDC)”的小型数据中心的动向正吸引着越来越多的关注(图3)。
MDC指的是大小与冰箱差不多的小型数据中心。其特征是:数据中心所需的全部功能,除了服务器、网络和安保系统之外,还有包括不间断电源(UPS)在内的电源和冷却系统等,都包含在一个标准机架内。一般来说,它们很少单独使用,而是作为云端大型数据中心的卫星运行并与云端配合使用,并进行远程监控和管理。此外,MDC的另一个特征是:基本上是在靠近数据收集和使用地点(边缘)的地方设置和使用,因此需要设计成壁挂式、坚固型和隔音型等能适应多种环境的形式。
MDC预想的主要用途是边缘计算。构想的用途包括:通过设置在工厂、工业厂房、大型商业设施等处设置的IoT设备和本地网络附近,实现实时性较高的数据处理,或通过设置在医疗设施和教育机构等处提供对高度机密信息进行安全保管和迅速访问。此外,还出现了让其与5G基站融合,用于实现低延迟服务并提高网络效率的动向。
数据中心每年都在发展,发挥着越来越多的作用。所引进系统的构成和规格估计也将变得更加多样化。