データセンタ&オープンコンピュート
デジタル化が進む現代社会のインフラとなったデータセンタは、莫大なデータ蓄積能力と情報処理能力を持つ、ひとつの巨大なコンピュータシステムとみなすことができます。
しかし、同じコンピュータではありますが、PCやスマートフォンなどの身近な情報機器とデータセンタの間には異なる点がたくさんあります。その内部の仕様や機能、構造に注目すると、データセンタ固有の技術が求められる部分が多く存在します。
一般的ユーザーが目にする機会がほとんどないデータセンタについて解説するこの記事では、データセンタの構成要素と投入されている技術についてハードウェア部分を中心に紹介します。
一言でデータセンタと言っても、その規模はさまざまです。マイクロデータセンタと呼ばれる、サーバ約100台規模で単一の企業やリモート・オフィスで利用されるものから、5000台以上のサーバを設置する大規模なハイパースケール・データセンタまで多様な規模の施設が存在します。中には、1カ所に100万台ものサーバが設置されている施設もあります。
規模の大小を問わず、これらのデータセンタには、情報処理を実行する多数のサーバやデータを蓄積するストレージが設置され、複雑なネットワークを介して相互接続されています。そして、状況に応じてある時は個別に多様で膨大な処理を実行し、ある時は複数台が連携して多くのユーザーによる多様なタスク(情報処理の作業)を柔軟かつ効率的に処理しています。このようなデータセンタ固有の運用形態が背景となり、一般的PCとデータセンタの間にはシステム上の構造、構成要素、設計思想の違いが生じています(図1)。
そもそも私たちが普段使用しているPCは個人使用を前提としています。このため、利用目的や処理するタスクが特定しやすく、用意するPCの仕様もカスタマイズしやすいという特徴があります。例えば、出先での仕事に利用したいユーザーは携帯性に優れたモバイルPCを選び、3Dゲームを楽しみたいユーザーはグラフィックス処理機能が強化されたゲーミングPCを購入します。
これに対し、データセンタでは不特定多数のユーザーによる多種多様なタスクを高速かつ効率的にこなす必要があります。多くの場合、業務内容が大きく異なる多数の企業が、同じデータセンタのサーバを共用することになります。そのため、汎用性の高いCPU(Central Processing Unit)を搭載したサーバを大量に並列設置し、処理するタスクの変化には複数サーバのシームレスな連携で対応するシステム構成を取ります。こうした汎用性の高いサーバを数多く並べたシステム構成には、需要増に応じてサーバを増設できるスケーラビリティが実現できるメリットもあります。
また、処理対象となるデータの量が多いため、ネットワークには高速・大容量なデータ転送を可能にする技術を導入することが極めて重要になります。一般的には、100Gbps以上の高速インターネット回線が導入されています。さらに次世代データセンタには、高速性と大容量、低遅延、省エネルギー、高セキュリティを求めて光通信技術が導入される方向へと向かっています。
データセンタでの大量のタスクを迅速に処理するためには、CPUとストレージの間で、データをより高速に読み書きできる仕組みも必要になってきます。このため、近年ではCPUに隣接するメモリーであるDRAMとストレージの間に、SCM(Storage Class Memory)と呼ばれる高速なデータアクセスと大容量ストレージの機能を兼ね備えた新型メモリーを採用し、性能と効率性の向上を図る取り組み例も見られるようになりました。
近年では人工知能(AI)関連のタスクが急激に増大しており、GPU(Graphics Processing Unit)やTPU(Tensor Processing Unit)など、汎用性を多少犠牲にしてでもAI関連処理を効率的に実行できるチップを搭載したサーバの利用例も増えてきました。AI関連処理では、GPUなどとメモリーの間もしくはメモリーとストレージの間で従来のタスク以上に高速・大容量のデータのやり取りが発生します。そのため、より高帯域のネットワークが導入されています。一般的には、このようなAI関連処理に特化したサーバと汎用的に利用するサーバを混在させる例は少なく、AIデータセンタとして別途設置される傾向があります。
PCは、24時間365日利用し続けるようなことはありません。また、故障した際にはユーザーは困りますが、社会全体が大混乱に陥るような重大な事態には発展しません。
これに対し、データセンタは、人々の生活や社会活動を支えるタスクを常時安定的に処理し続ける必要があります。このため、情報を処理するサーバ内のCPUやメモリー、さらにデータを蓄積するストレージなどには連続稼働が可能な高い信頼性が求められます。とくにメモリーには、データの整合性を保護し、ビットエラーを検出・修正する機能を持つECC(Error-Correcting Code)DRAMが利用されます。ストレージなどに使用されるフラッシュメモリーも頻繁なデータアクセスに耐えられるものが選ばれています。
システム面でも、不具合や故障の発生を防ぐ仕組みが導入されています。まず、データセンタで使用されるサーバには、高性能な冷却システムが備えられています。とくに、高負荷での連続稼働が常態化するAIデータセンタでは、一般的な空冷システムだけではなく、液体冷却やサーバ自体を熱伝導率の高い液体に浸して放熱する浸漬冷却といった先進的な技術が使用されることもあります。
また、データセンタでは、故障時に速やかにスペアへ切り替えられる冗長なシステム構成が採用されています。具体的には、サーバに不具合が発生した際に、仮想化技術を利用して、実行していたタスクを別のサーバへ迅速に切り替える仕組みが導入されています。また、サーバなどを動かすための電力を供給する電源システムが故障してしまうと、場合によっては取り返しのつかない損害を被る可能性があります。このためデータセンタでは、冗長化した電源システムも導入されており、さらには停電時でもデータセンタを一定時間稼働できるように、系統からの電力の取り入れ口にはUPS(無停電電源装置)が設置されています。
さまざまな固有技術が導入されているデータセンタですが、今後は、さらに多面的な課題解決へ向けた技術開発が求められると考えられます。とくに近年では、消費電力の削減をはじめとする環境負荷を低減するための技術の重要性が高まっています。省エネルギー設計のチップを搭載したサーバの導入や、電源システムでの電力変換の回数を削減する直流給電の採用など、新たな技術の導入が進んでいくことでしょう。