AMDがGPUのアーキテクチャをゲーミング重視の「RDNA」とサーバ/データセンター向けの「CDNA」に分化させて久しい。そんな中、同社は6月12日(米国太平洋夏時間)に自社イベント「ADVANCING AI 2025」の基調講演でCDNA系列の最新GPU「InstinctMI 350シリーズ」を発表した。
InstinctMI 350シリーズでは、GPUアーキテクチャも「CDNA 4(第4世代CDNA)」に刷新されている。この記事では、CDNAアーキテクチャのあらましと、Instinct MI350シリーズの基本設計について解説する。
【訂正:7月12日9時35分】初出時、SIMT/SIMDのデータ構造の説明に一部誤りがありました。おわびして訂正いたします
●そもそも「CDNA」ってどういうアーキテクチャ?
|
|
筆者はGPUの解説記事を執筆することが多い一方で、AMDのCDNA系統のGPUを説明する機会が少なかった。そこで、今回は冒頭でCDNA系統のGPUアーキテクチャの基礎的な話をしようと思う。不要であれば、この節は飛ばしてもらって構わない。
CDNAのルーツは、据え置き型ゲーム機「PlayStation 4」のAPU(GPU統合型CPU)、あるいは「Radeon RX 500シリーズ」までのRadeon RXシリーズや「Radeon Vega」で使われていた「GCN(Graphics Core Next)アーキテクチャ」にある。
AMDはGCNを「CDNA」と改名し、GPUコンピューティング(GPGPU)やサーバ向けGPUの基盤技術として“流用”した。その後、CDNAは第3世代の「CDNA3」まで進化し、今回CDNA4が発表されたという経緯になる。
一方で、AMDは“複雑怪奇”になっていく近代3Dゲームグラフィックスに対して、高い親和性を発揮できる新アーキテクチャとして「RDNA」を開発した。これ以降、RDNAアーキテクチャは、ゲーミングに最適化する方向性で進化しており、2025年初頭に登場した「RDNA4」が最新となる。ちなみに、据え置き型ゲーム機「PlayStation 5」のGPUは、「RDNA2アーキテクチャ」ベースである。
いってみれば、GCNの系譜の延長線上にあるCDNAは3Dグラフィックス視点から見ると“旧世代”となる。そうなると「わざわざ旧世代を“継続”採用したのはどうして?」という疑問が湧いてくる。気になる人も多いだろう。
|
|
しかし、この辺りを詳細に解説すると記事としては長くなりすぎるので、簡潔にまとめていきたい。
CDNA系とRDNA系では「並列処理の実践方法」が異なる
CDNA系のアーキテクチャは「SIMD(Single Instruction Multiple Data)」に寄せたアーキテクチャであるのに対して、RDNA系のアーキテクチャは、どちらかというと「SIMT(Single Instruction Multiple Thread)」に寄せたアーキテクチャとなっている。こここそが、CDNA系とRDNA系のGPUにおける大きな相違点だ。
SIMTという考え方は、競合のNVIDIAが「CUDAアーキテクチャ」初導入したGPU「GeForce 8800GTX」(2006年リリース)で初めて採用した。一方で、AMDはというと一環してSIMDを採用し続けてきた経緯がある。
しかし、近代3Dゲームグラフィックスを効率良く処理するには、SIMDに固執すると限界がある――そう考えたAMDは、2019年にリリースした「Radeon RX 5000シリーズ」において、SIMTを採用したRDNAアーキテクチャにシフトすることになった。
|
|
NVIDIAのCUDAコアやAMDのRDNAアーキテクチャが採用するSIMTでは、複数のスレッド(例えば32スレッド)が同一命令を実行する際に、スカラ命令に“分解”して実行する。そのため、演算器の駆動効率が良いことに加え条件分岐が発生した場合に実行効率が(SIMDと比較して)下がりにくいというメリットがある。
SIMTが向いているデータ構造は「SOA(Structure of Arrays)」と呼ばれ、具体的には以下のような構造となる。
[x0, x1, x2, ...], [y0, y1, y2, ...],[z0, z1, z2, ...],[v0, v1, v2, ...]
一方、GCN/CDNA系のアーキテクチャが採用するSIMDでは、単一命令が複数のデータに対して、固定的に同時処理を適用する。処理対象のデータ構造とSIMD命令の「Way数(SIMD幅)がピッタリ一致する場合は、SIMTよりも高密度を維持して演算を実行できるのがメリットだ。
しかし、条件分岐などを伴う処理系では「条件成立時」「不成立時」双方の命令を実行する必要があり、実行効率はSIMTよりも低下するデメリットがある。
SIMDが向いているデータ構造は「AOS(Array of Structrures)」と呼ばれ、具体的には以下のような構造となる。
[x0, y0, z0, v0][x1, y1, z1, v1][x2, y2, z2, v2]..
再現するマテリアルごとに読み出したテクスチャの利用の仕方を変えたり、演算の手法を変えたり……といった“複雑怪奇”になった近代3Dゲームグラフィックス処理系では、SIMTの方が向いている――これは、今となっては業界の統一見解となっていると言っても過言ではない。
一方で、高密度なベクトル演算が多用される古典的な数値計算や、シミュレーション関連の分野ではSIMDの方が向いているとされる。
最適な並列処理方法はケースバイケース ゆえにアーキテクチャを分割
では、最近盛り上がっているAI(人工知能)に関する処理系では、SIMTとSIMDのどちらが向いているのだろうか?
ざっくりとした傾向でいえば、学習のフェーズではSIMT、推論のフェーズはSIMDが向いていることが多い(ただし、あくまで一般論)。どちらがいいかは、取り扱うデータの形式や、GPUコンピューティングでどんなテーマを取り扱うかによって変わってくる。
ゆえに、AMDは「SIMDならCDNA、SIMTならRDNA」というように2つのアーキテクチャを用意して、顧客側にどちらかを選んでもらうという方針を採っているわけだ。
余談だが、IntelのGPU「Intel Arc Graphics」シリーズでは、SIMDベースのアーキテクチャを採用しつつも、SIMT的な命令発行とSIMD的な命令実行を組み合わせられる“ハイブリッド型”を採用している。
なお、CDNA系のGPUはかつて「Radeon」を冠に付けて展開されていたものの、この系統では3Dグラフィックスパイプラインを基本的に利用できない。CDNAがGPGPU的な用途のGPUサーバ向けに訴求されてきたのは、そのためだ。
「3Dグラフィックス用途にも使えるGPUがいい」という場合は、RDNA系のアーキテクチャを採用する「Radeon Proシリーズ」を選択することになる。
●新製品「Instinct MI350シリーズ」の概要
最新のCDNA 4アーキテクチャを採用したGPUは「Instinct MI350シリーズ」として展開される。製品は空冷タイプの「Instinct MI350X」と、水冷タイプの「Instinct MI355X」の2種類だ。
詳細は後述するが、2モデル共にハードウェア的な大きな違いは無い。しかし、水冷タイプのMI355Xの方がより高い動作クロックで動作し、性能も10〜15%ほど高くなる。その代わり、1枚当たりの最大消費電力(TBP)はMI350Xが1000W、MI355Xが1400Wとなっている。当然、導入価格や運用コストはMI355Xの方が高い。
実際にラックマウントされた運用状態では以下のような見た目になる。
両モデル共に、1ノード当たり最大で8基の搭載に対応する。ラック数は「MI355X DLCソリューション」では最大16ノード、「MI350X ACソリューション」では最大8ノードとなるので、MI355X DLCソリューションでは最大128GPU構成(8基×16ノード)、MI350X ACソリューションでは最大64GPU構成(8基×8ノード)を構築/運用できる。
CPUはAMDの第5世代EPYCの「EPYC 9005シリーズ」を、ノード間通信にはAMDのUltra Ethernet規格準拠の高速ネットワークカード「Pollara」を組み合わせるのが標準構成だ。
Instinct MI350シリーズのパッケージング
ここからは、Instinct MI350シリーズを“シリコン”視点で深く解説したい。
まずは、パッケージ的な見どころをチェックしていこう。ここには民生向けGPUであるRadeon RXシリーズには見られないような、先進のチップレットアーキテクチャの適用と、高度なパッケージング技術が見て取れる。
Instinct MI350シリーズを構成する主要ダイ(チップ)は2つある。1つは、TSMCのプロセスノード「N3P」で製造される演算コアダイ「Accelerator Compex Die(XCD)」で、もう1つはTSMCのプロセスノード「N6」で製造された「I/O Base Die(IOD)」だ。IODは後述する計8基のHBM3Eメモリとの入出力インタフェースと、PCI Expressバスなどの各種バスインターフェースを内包した入出力プロセッサにあたる。
8基のXCDと2基のIODを合わせると、トランジスタ数は1850億個で、ちょうど「GeForce RTX 5090」の920億個の2倍となる(メモリ部のトランジスタ数はカウントしていない)。
XCDとIODとの接続とパッケージングには、TSMCの「CoWoS-S(Chip on Wafer on Substrate with Silicon interposer)」が用いられており、4つのXCDはIODの上に載せるような形で、TSV(Through-Silicon Via)による3D接続がなされている。
下のパッケージング図解では、このIODが2基描かれているのが見えると思う。事実、Instinct MI350シリーズではIODを隣接する辺で連結させている。接続方式は「2.5D式」「AMD Infinty Fabric Advanced Package」という説明があるのみで、具体的な方式に言及はないものの、CoWoS-Sが活用されている以上、「シリコンブリッジ」か「シリコンインターポーザー(TSV)」が用いられていると見られる。
後述するHBM3Eメモリも、同じ「2.5D式」を使って接続されている。
Instinct MI350シリーズが採用しているHBM3Eメモリは、1スタック(1カ所のフットプリント)当たり12層(12Hi)構成となっており、8GHz(8Gbps)で駆動する。量産されているHBM3Eチップは1枚当たり3GB(24Gbit)となっているので、12層重ねると1スタック当たり36GBとなる。
上の図解を見ても分かるように、MI350シリーズは左右4スタックずつ、計8スタックを備えるので「36GB×8スタック=288GB」の容量があることが分かる。
メモリ帯域についても計算してみよう。HBM3系のメモリは1024bitバスを備えるので、メモリ帯域は「1024bit×8Gbps×8スタック÷8bit=毎秒8TB」となる。ちなみにHBM系メモリでは積層数の大小でメモリバス幅に変化はない。そのため、メモリ帯域は積層(Hi)数と無関係である。
まとめると、Instinct MI350シリーズのスタイルは以下の通りとなる。
・IOD上には4基のXCDが3D実装され、IODは4基のHBM3Eと2.5D接続されている
・このセットを2つ、パッケージ基板上に実装した上で、2つのIODも2.5D接続している
最先端の3nm“級”プロセスノード採用に加え、高度な3D×2.5Dパッケージングまでも併用していることもあり、製造コストは相当に高いことが推察される。
将来のことは分からないが、直近でこの技術をコンシューマー向けのRadeon RXシリーズに採用するのは難しいだろう。
CDNA 4アーキテクチャの詳細な説明と、Instinct MI350シリーズのパフォーマンスに関する考察は別の記事に譲る。楽しみにしていてほしい。
|
|
|
|
Copyright(C) 2025 ITmedia Inc. All rights reserved. 記事・写真の無断転載を禁じます。
掲載情報の著作権は提供元企業に帰属します。