光通信、映像伝送ビジネスの実務者向け専門情報サイト

光通信ビジネスの実務者向け専門誌 - オプトコム

有料会員様向けコンテンツ

Marvellが、AIおよびクラウドデータセンタ インフラストラクチャ向けに業界初のアプローチの102.4Tbpsスイッチシリコンの提供開始を発表

期間限定無料公開 有料

期間限定無料公開中

 Marvell Technology(以下、Marvell)は6月1日、AI時代向け102.4Tbpsスイッチシリコン「Marvell Teralynx T100」を発表した。

 Marvellは「従来のエンタープライズおよびクラウド データセンタ向けに設計された従来のスイッチング プラットフォームとは異なり、Teralynx T100はAI向けにゼロから設計されたもので、この帯域幅レベルにおいて業界で最も消費電力が低く、遅延も最小であり、今日の大規模AIクラスタにおける重要なボトルネックを解消する。T100は今四半期より顧客へのサンプル出荷を開始する」と説明している。

AIの電力の壁を打ち破る
 今日のAIデータセンタは、ネットワークの非効率性がGPUの利用率低下やトレーニングコストの増加につながるため、深刻な電力問題に直面している。Marvellは「GPUおよびXPUベースのシステムはラックあたり120kWに迫る消費電力となっており、空冷の限界に近づき、複雑で高価な液冷ソリューションの必要性が高まっている。スイッチングおよびネットワークコンポーネントはラック全体の電力の約15~25%を消費するため、低消費電力のスイッチシリコンは戦略的に不可欠な要件となっている」と指摘する。

 T100は標準消費電力1000W未満で、競合製品と比較して最大25%の低消費電力を実現している。これにより、データセンタ事業者は既存の電力容量内でより多くのアクセラレータを導入でき、追加の電力インフラを必要とせずにAIインフラストラクチャの構築を加速できる。

AI専用設計
 Teralynx T100は、先進の3nmプロセス技術を用いたモノリシックな102.4Tbpsデバイスにより、競合製品で消費電力とダイ面積を増加させる不要なレガシー要素を排除している。このアプローチにより、AIネットワーク階層と光リンクの数を削減することで、要求の厳しいAIワークロードに最適化された、よりフラットで高基数なファブリックを実現できる。高基数、高帯域幅、低遅延のスイッチは、GPU利用率の向上、テール レイテンシーの低減、トレーニング アルゴリズムの収束時間の短縮に不可欠だ。T100は、ラック全体の消費電力を削減し、クラスタ効率を向上させながら、卓越した帯域幅効率を実現する。

 Marvellのデータセンタースイッチ事業部門担当ヴァイスプレジデント 兼 ゼネラルマネージャーであるRishi Chugh氏は「AIワークロードが進化し、指数関数的に拡大するにつれ、ハイパースケーラーは、レイテンシー、電力、スケーラビリティを同時に最適化するネットワークアーキテクチャを必要としている」とし、「Teralynx T100はAI専用に設計されており、電力消費を増大させる従来の制約を排除し、次世代データセンタ インフラストラクチャの拡張に必要な決定論的なパフォーマンスと効率性を実現するように設計されている」とコメントを出している。

スケールアウトおよびスケールアップAIファブリック向けに設計
 Teralynx T100は、スケールアウトとスケールアップの両方の導入に最適化されている。スケールアウト展開において、T100は最大512ポートのラディックスをサポートし、オペレータはネットワーク階層の統合、アーキテクチャのシンプル化、そして数万台のアクセラレータを擁する大規模AIトレーニングクラスタ全体のレイテンシー削減を実現できる。スケールアップ展開においては、本製品の柔軟性とプログラマビリティに優れたパイプラインアーキテクチャが、ESUN(Ethernet Scale-Up Networking)プロトコルをはじめとする様々な相互接続規格や、最新のUEC(Ultra Ethernet Consortium)要件、そして進化を続けるAI Ethernetファブリックをサポートする。

 650 Groupの共同創業者 兼 テクノロジーアナリストであるAlan Weckel氏は「ハイパースケーラーがAIクラスタを数万台のアクセラレータ規模にまで拡張するにつれ、データセンタ インフラストラクチャはネットワーク効率とパフォーマンスを左右する決定的な要素となる」とし、「Teralynx T100アーキテクチャは、レイテンシー、電力効率、ラディックスのスケーラビリティ、そして総所有コスト(TCO)において大きなメリットをもたらす。これらのメリットは、AI専用設計アプローチから直接得られるものであり、データセンタ インフラストラクチャの継続的な拡張に不可欠だ」とコメントを出している。

柔軟な導入オプションと高度なトラフィック管理
 低消費電力の先進的なSerDesアーキテクチャを採用したTeralynx T100は、Ball Grid Array(BGA)、Co-Packaged Copper(CPC)、Co-Packaged Optics(CPO)など、複数のパッケージ構成で提供され、ハイパースケーラーやクラウド事業者は、多様なフォームファクタと幅広い接続オプションでT100を柔軟に導入できる。T100は、高度なデータセンタ アーキテクチャに必要な、レイテンシー最適化トポロジー、統合テレメトリ、AIネイティブ輻輳制御、独自のトラフィック管理ロジックも提供する。

高性能・低レイテンシーのポートフォリオの伝統
 T100は、業界をリードするTeralynx製品ファミリーの高性能・低レイテンシーの伝統を基盤としている。12.8Tbpsから102.4Tbpsまで、Teralynxポートフォリオはデータセンタのあらゆる階層に対応する包括的なスイッチングソリューションを提供する。また、SDKを含むソフトウェア ツールキット、Open Compute Project(OCP)のSwitch Abstraction Interface(SAI)のサポート、およびSoftware for Open Networking in the Cloud(SONiC)オペレーティングシステムも含まれており、インフラストラクチャの迅速な展開を可能にする広範でオープンなエコシステムを実現する。

編集部備考

■今回Marvellが発表した102.4Tbpsスイッチシリコンは、同一帯域世代における“設計思想の転換”を実現しており、顧客に新たな選択肢を示している。
 従来、このクラスのスイッチシリコンは、エンタープライズや汎用クラウドデータセンタで利用されることを前提に設計されてきた。そのため、各種レイヤのプロトコル処理や多様な機能を維持しつつ、帯域を拡張するアプローチが採られている。これは技術的な延長というよりも、既存インフラとの相互運用性や、長年蓄積された運用ソフトウェア資産の継続利用という観点から、極めて合理的な設計思想である。実際、データセンタ内にはWebサービス、データベース、ストレージ、管理系システムなどが混在しており、単一のネットワーク基盤でこれらを統合的に運用するニーズは依然として強い。
 これに対し、Teralynx T100は明確に異なる立ち位置を取る。同製品は、AIワークロードに特有の通信パターンに最適化することを前提に、データパスや機能構成をゼロベースで再設計している。ここで重要なのは、「機能を排除した」というよりも、「AIファブリックに必要な要素へと再構成した」という点だ。このような“ワークロード特化型アーキテクチャ”を102.4Tbps世代で徹底したことこそが、本製品の“業界初”たる所以と言える。

 この違いは、ネットワークの構築思想そのものにも影響を及ぼす。従来型は、汎用性を維持した単一インフラの中でAI通信を処理する方向性であるのに対し、Teralynx T100はAIクラスタ向けに専用のファブリックを構築することを前提とする。トポロジー設計においても、Clos型などの一般的な構成に加え、よりAI通信に適した構造を取りやすくなる点は見逃せない。すなわち、両者の差は単なる機能の違いにとどまらず、運用、構成、設計思想といった複数のレイヤにまたがっている。

 こうしたアプローチの差異が最も顕著に表れるのが電力効率だ。Marvellは競合比で最大25%の低消費電力を謳うが、これは単体のチップ比較に留まらない重要な意味を持つ。AIデータセンタにおいては、スイッチはスパイン/リーフ構成で大規模に展開されるため、1台あたりの消費電力差が数千台規模で積み上がる。結果として、ネットワーク機器の消費電力削減は、そのままGPUリソースの追加余地に直結する。
 近年、GPUラックの消費電力は100kWを超える水準に達し、データセンタの制約条件は「性能」から「電力供給能力」へと移行しつつある。この環境下では、ネットワーク機器が消費する数十ワットの差異であっても無視できない。むしろ、「その電力でGPUを1台でも多く動かす」という判断が優先される局面が現実のものとなっている。Teralynx T100の設計思想は、こうした制約条件の変化に対する極めて合理的な回答と位置付けられる。

 以上を踏まえると、102.4Tbps世代の競争は、半導体性能の優劣だけではなく、「汎用性と互換性を維持する単一インフラ」と「ワークロードごとに最適化された専用インフラ」という二つの方向性の対比として理解すべきだ。どちらが優れているかという問題ではなく、データセンタ事業者が自らの運用方針や制約条件に応じて選択すべきトレードオフが明確化されたと言えるだろう。今回の発表は、その選択肢を初めて同一帯域世代で具体化した点において、今後のインフラ設計に示唆を与えるものとなっている。

(OPTCOM編集部)