半导体、网络、冷却等构成数据中心的多种关键技术的主要图片

半导体、网络、冷却等构成数据中心的多种关键技术

在数字化日益深入的现代社会中,数据中心已成为基础设施,其庞大的数据存储能力和信息处理能力,可被视为一个巨型计算机系统。

然而,虽同为计算机,个人电脑、智能手机等日常信息设备与数据中心之间却存在诸多差异。若关注其内部规格、功能及结构,便会发现许多需要数据中心专有技术的部分。

数据中心采用了与个人电脑不同的专有技术图片
数据中心采用了与个人电脑不同的专有技术

本文介绍了普通用户很少看到的数据中心,重点介绍了数据中心的硬件构成要素和应用的技术。

追求高度的通用性和灵活性,近年来也出现了专注于AI相关处理的实例

虽然统称为数据中心,但其规模却各不相同从单个公司或远程办公室使用的约100台服务器的微型数据中心,到拥有5000多台服务器的大型规模很大的数据中心等,其设施的规模多种多样。其中,有些设施内单是某一处就部署了多达百万台服务器。

无论规模大小,这些数据中心都配备了执行信息处理的大量服务器和存储数据的存储器,并通过复杂的网络相互连接在一起。并且,根据情况的不同,有时会单独执行多样且庞大的处理任务,有时则多台设备协同工作,灵活有效地处理众多用户发起的多样化任务(信息处理作业)。以这种数据中心专有的运行模式为背景,普通个人电脑与数据中心在系统架构、构成要素及设计理念上产生了差异(图1)。

个人用户电脑与数据中心在设计理念上存在显著差异图片
图1 个人用户电脑与数据中心在设计理念上存在显著差异

我们日常使用的电脑原本就是以个人使用为前提设计的。因此,它具有易于识别使用目的和处理任务的特点,同时也便于定制所需电脑的配置规格。例如,经常外出办公的用户会选择便携性出众的笔记本电脑,而热衷3D游戏的玩家则会购买图形处理功能强劲的游戏电脑。

相比之下,数据中心需要迅速有效地处理来自众多用户的多种多样的任务。在多数情况下,业务内容迥异的多家企业会共用同一数据中心的服务器。因此,需要并行设置大量搭载了高通用性CPU(Central Processing Unit)的服务器,通过无缝连接多个服务器来应对待处理任务的变化。这种由多台高通用性服务器组成的系统架构,还具有能够根据需求的增长而灵活扩展服务器的可扩展性优势。

此外,由于待处理数据量庞大,引入能够实现高速、大容量数据传输的网络技术显得至关重要。通常,会采用100Gbps以上的高速互联网线路。此外,下一代数据中心正朝着引入光通信技术的方向发展,以满足高速、大容量、低延迟、能源节省和高安全性的需求。

为了迅速处理数据中心的大量任务,还需要一种能够在CPU和存储器之间更高速读写数据的机制。因此,近年来出现了在CPU邻近的DRAM与存储器之间使用新式内存的趋势,这类被称为SCM(Storage Class Memory)的技术兼具高速数据访问与大容量存储功能,旨在提升系统的性能和效率。

近年来,人工智能(AI)相关任务急剧增加,搭载了GPU(Graphics Processing Unit)和TPU(Tensor Processing Unit)等虽需略微牺牲通用性却能有效执行AI相关处理的芯片的服务器应用案例也日益增多。在AI相关处理中,GPU等与内存之间或内存与存储器之间的数据传输,相比传统任务需要更高速且更大容量的数据交换。因此,引入了更高带宽的网络。通常来说,专门用于此类AI相关处理的服务器与通用服务器混合部署的情况较为少见,它们往往作为AI数据中心被单独设置。

数据中心的可靠性与冗余化技术

个人电脑并不需要24小时365天持续使用。此外,即便发生故障,虽然会给用户带来困扰,但不会演变成导致整个社会陷入严重混乱的重大事态。

相比之下,数据中心需要持续稳定地处理支撑人们生活和社会活动的各项任务。因此,服务器内用于处理信息的CPU、内存,以及存储数据的存储器等,都需要具备能够持续运行的高可靠性。特别是内存方面,会使用具备保护数据完整性、检测并纠正比特误码功能的ECC(Error-Correcting Code)DRAM。用于存储器的闪存也需选择能够承受频繁数据访问的类型。

数据中心发生严重缺陷或故障,可能会给整个社会带来严重混乱图片
数据中心发生严重缺陷或故障,可能会给整个社会带来严重混乱

在系统方面,也引入了预防缺陷和故障发生的机制。首先,数据中心所使用的服务器配备了高性能的冷却系统。特别是在AI数据中心,高负荷连续运行已成为常态,除了常规的风冷系统外,还会采用液冷或将服务器直接浸入高导热液体中进行散热的浸没式冷却等精良技术。

此外,数据中心采用了冗余系统结构,可在发生故障时迅速切换至备用设备。具体而言,该系统采用了虚拟化技术,可在服务器发生缺陷时,将正在执行的任务迅速切换至另一台服务器。此外,若用于运行服务器等的电源系统发生故障,根据情况不同,可能会造成无法挽回的损失。因此,数据中心还引入了冗余电源系统,并且为了确保在停电时数据中心仍能持续运行一段时间,在系统的电力接入端还设置了UPS(不间断电源装置)。

该数据中心已引入多项专有技术,但可以预见,未来还需开发更多面向多方面课题解决的技术。特别是在近年来,以减少电力消耗为首的环境负荷降低技术的重要性日益凸显。预计将逐步引入新技术,例如搭载能源节省设计芯片的服务器,以及采用直流供电以减少电源系统中电力转换次数等措施。

相关产品

相关文章