Broadcomが、Metaのテストにおいて、400Gポートデバイス換算で累計100万時間のフラップ フリーCPO動作を達成
期間限定無料公開 有料期間限定無料公開中
Broadcomは10月1日(カリフォルニア州パロアルト)、Co-Packaged Optics(CPO)技術の導入において重要なマイルストーンを達成したことを発表した。
Broadcomは「Metaにおいて、400Gポートデバイス換算で累計100万時間のフラップフリーCPO動作を達成した。この成果は、ハイパースケールAIアプリケーション向けBroadcom CPOプラットフォームの成熟度、堅牢性、そして量産体制の容易さを改めて示すものだ。データによると、プラガブル モジュール ソリューションと比較して、CPOは光電力を65%削減し、リンクの信頼性も向上することが示されている」と説明している。
CPO技術は、次世代データセンタ アーキテクチャを実現する重要な要素であり、光エンジンとスイッチシリコンを緊密に統合することで、かつてない帯域幅密度と電力効率を実現する。この革新的な統合の信頼性確保は、Broadcomとそのパートナーにとって重要な課題だった。
Broadcomは「MetaにおけるBroadcom CPOソリューションのテストでは、リンクフラップが100万時間発生せず、1回もリンクが途切れないという結果が示された。これは、Broadcomの卓越したエンジニアリングと厳格な認定プロセスの真価を実証するものだ。リンクフラップは、高性能データセンタ ネットワークにおいて重要な信頼性指標だ。Metaの高温ラボ特性評価環境においてリンクフラップが発生しなかったことは、BroadcomのCPO実装が産業グレードの安定性と信頼性を備えていることを示している」と説明している。
Broadcomのオプティカルシステム部門担当ヴァイスプレジデント 兼 ゼネラルマネージャーであるNear Margalit氏は、「リンクフラップ フリーの100万時間を達成したことは、Broadcomの品質とイノベーションへのコミットメントを強く証明するものだ。このマイルストーンは、CPOが単なる研究段階のコンセプトではなく、実稼働環境で実証済みであり、拡張可能な状態にあることを示している」とコメントを出している。
BroadcomのCPOプラットフォームは、システムレベルの信頼性を念頭にゼロから設計されており、以下の特長を備えている。
・高度な熱管理・制御システム
・統合型モニタリング機能を備えた実績のある光エンジンパッケージ
・堅牢なファームウェアとリンク診断機能
・電気、光、機械の各領域にわたるエンド・ツー・エンドの検証
ハイパースケールデータセンタのスイッチ帯域幅が51.2Tbpsを超える中、CPOは従来のプラガブル光モジュールの電力制約と物理的限界に対処することで、持続可能な未来への道筋を提供する。Broadcomは「業界全体でCPOの採用と相互運用性を推進するために、エコシステムパートナーと協力を続けている」と説明している。
Margalit氏は「このマイルストーンは、次世代AIおよびクラウドインフラストラクチャの基盤として、共パッケージ型光モジュールを採用するという長期的なビジョンを裏付けるものです」とし、「Broadcomは、成長を続けるパートナーエコシステムと共に、この変革をリードできることを誇りに思っている」とのコメントも出している。
編集部備考
■リンクフラップ(link flap)は、通信リンクが短時間で頻繁に接続/切断を繰り返す状態を指す。これが発生すると、ネットワーク経路の再学習や再ネゴシエーションが頻発し、遅延・パケットロス・スループット低下が起こるため、運用側にとっては「静的に動いているようで、微小な不安定を生む厄介な現象」だ。ここでは、その重要性の急速な高まりについて考察したい。
従来(AI以前)のデータセンタにおいては、リンクフラップは運用上避けたい不具合ではあるものの、通信の平均稼働率の方が重視され、個々のリンクレベルでのフラップ検知は、SNMPやsyslogなどによる統計的・事後的監視が中心で、リアルタイム制御の対象ではなかった。つまり「無いに越したことはない」が、本ニュースリリースのようなリンクフラップ フリー(リンクフラップ ゼロを目標とした設計)までは求められていなかった。
対して、AIデータセンタにおいては、AIクラスターでは「リンクフラップ=数万台規模の学習ジョブが停止」につながりかねないため、リンクフラップは従来の「可用性の一要素」から「極めて重要なエラー源」に格上げされた。これにより、物理層での「リンクフラップ フリー」は、AIデータセンタ設計における信頼性ベンチマークとして再注目されている。そうした背景を踏まえて今回のニュースリリースを読むと、「一千万時間にわたり物理層のリンクフラップ(瞬時の通信断を含む)が確認されなかった」という結果は、商用データセンタ運用に求められる安定性と継続稼働性の観点から極めて有用な成果といえる。
CPOは次世代デバイスであり、ユーザによって重視する指標や目標スペックは異なる。例えば、あくまでも傾向だが、ハイパースケーラが求めるのはスループット密度や電力効率、通信事業者が注目するのは信頼性や保守性など、ユースケースによって評価の軸が変わる。CPO技術と一言で表しても、その中身は演算と通信の高度なハイブリッドであり、演算起源からのアプローチ、通信起源からのアプローチ、演算と通信のバランスの調整など、研究開発・実用化において多様性を持った新技術でもある。そうした中で、様々なパラメータをどこまで高度化すれば良いのかは悩ましいところだが、今回、Meta環境での実証が安定動作を裏付けたことは、今後の商用CPO設計における安定性評価の基準点となる成果となる。
CPOとプラガブルの比較検討は、ここ数年の通信分野において重要な研究・開発領域となり、関連技術の進化を後押ししてきた。今回の「リンクフラップ フリー」の成果を含め、各要素が一歩ずつ前進することで、AI時代のデータセンタはさらに高度化していくだろう。今後も、各社および研究機関の取り組みが、より高効率で柔軟なCPO実装の実現へとつながることに期待したい。