Core Ultraプロセッサ(シリーズ3)の「Xe3 GPU」の全体像を解説 完全な新世代ではないものの用途に合わせた最適化がポイント

0

2025年11月14日 12:11  ITmedia PC USER

  • チェックする
  • つぶやく
  • 日記を書く

ITmedia PC USER

GPUコアに関するセッションの説明を担当した、Intelのトーマス・ピーターセン氏(アーキテクチャ/グラフィックス/ソフトウェア担当フェロー)。NVIDIAでGPUのテクニカルマーケティングを担当していた経歴を持つ(写真提供:Intel)

 Intelが2025年末に一部製品をリリースする予定の「Core Ultraプロセッサ(シリーズ3)」(開発コード名:Panther Lake)について、米アリゾナ州フェニックスで開催された報道関係者向けイベント「Intel Tech Tour 2025」で技術的概要を解説した。ITmedia PC USERでは、これまでにPanther Lakeの全体概要とCPUコアについて解説してきた。


【その他の画像】


 今度は、Panther LakeのGPUコアについて2回に分けて“深掘り”していく。今回はGPUアーキテクチャの概要をチェックしよう。


●Xe3アーキテクチャは「Battlemage」の拡張版……?


 Panther LakeのCPUコア(Computeタイル)は、Core Ultraプロセッサ(シリーズ2)から基本的アーキテクチャをあまり変えず、物理設計をIntel 18Aプロセスでやり直し、省電力性能に振ったチューニングを施した。ある意味で「低電力×高性能」のバランスを重視した設計といえる。


 一方、GPUコア(GPUタイル)はどうなのだろうか?


 まず、Panther LakeのGPUコアは新しい「Xe3アーキテクチャ」を採用しており、プロモーション上はこのGPUを「Xe3 GPU」と呼称している。全体概要やCPUコア解説でも触れた通り、Panther Lakeは大きく「8コアCPU+4コアGPU」「16コアCPU+4コアGPU」「16コアCPU+12コアGPU」と3種類のパッケージを用意しているが、4コアのGPUタイルは自社の3nm相当プロセス「Intel 3」で、12コアのGPUタイルはTSMCの3nm相当プロセス「N3E」で生産されている。


 コアの数によって製造プロセスが異なることが特徴の1つだ。


 近年のIntelのGPUアーキテクチャは開発コード名がファンタジーRPGのクラス(職業)名にちなんだものになっている。最初の「Alchemist」(錬金術師)は2022年に登場し、「Intel Arc Aシリーズ」という独立GPUとしてリリースされた。Core Ultraプロセッサ(シリーズ1)(開発コード名:Meteor Lake)やCore Ultraプロセッサ 200U/200H/200HX/200Sプロセッサ(開発コード名:Arrow Lake)に内蔵されたGPUもAlchemistの系譜の延長線上にある。


 続いて登場したのが、2024年リリースの「Battlemage」(魔闘士?)こと「Xe2アーキテクチャ」だ。こちらは「Intel Arc Bシリーズ」として独立GPUがリリースされた後、Lunar Lakeの内蔵GPUとしても採用された。ここまでが、現時点で製品化されたものになる。


 では、今回のXe3 GPUは、次世代の「Celestial」(天上導師)の系譜の上に置かれたものなのだろうか……?


 ピーターセン氏によると、Intelでは「単体(独立)GPUのブランド名と、CPU統合型GPU(内蔵GPU)の名称は意識して連動させていない」という。独立GPUと内蔵GPUに求められる機能や性能特性が異なるからだ。ここまでうまく連動していたのは「たまたま」だという。「ややこしくて申し訳ない」とも述べた。


 ピーターセン氏がアーキテクチャ名(プロモーション名)と開発コード名の“連動性”にわざわざ言及したのには理由がある。Xe3 GPUは、次世代のCelestialを採用していないからだ。 


 Intelが提示したスライドを見る限り、Xe3アーキテクチャはIntel Arc Bシリーズ(Battlemage)の系譜にあるように見える。しかし、説明されたのはあくまでも「Xe3≠Celestial」ということだけだ。「Celestialから一部要素を省いたもの(Celestial Light)」である可能性も、完全には否定できない。


 競合であるAMDは、最新のAPU(GPU統合型CPU)である「Ryzen AI 300シリーズ」において、独立GPUにも使われる「RDNA 3アーキテクチャ」をベースとしつつ、部分的な拡張を行った「RDNA 3.5アーキテクチャ」のGPUコアを統合している。元のアーキテクチャに「0.5」をプラスしている。


 Panther LakeにおけるXe3アーキテクチャがRDNA 3.5アーキテクチャと似た発想に立ったと仮定すると、筆者としてはXe3アーキテクチャはCelestial Lightではないかと考える(根拠は後述する)。


●Xe3で構造が変わった「レンダースライス」 一体なぜ?


 近年のIntel GPUは、一番大きな塊として「レンダースライス(Render Slice)」があり、この中に演算器などを内包する「Xeコア」を複数基搭載するという階層構造になっている。Xeコアの中には、単位ベクトル演算器として「Xe Vector Engine(XVE)」が複数配列されている。


 これらの用語を、NVIDIAのGPUに置き換えて説明すると以下の通りとなる。


・レンダースライス≒GPC(Graphics Processing Cluster)


・Xeコア≒SM(Streaming Mulitiprocessor)


・XVE≒CUDA(Compute Unified Device Architecture)コア


 ここで、Meteor LakeにおけるXe GPU(Alchemistベース)と、Lunar LakeのXe2 GPU(Battlemageベース)、そしてPanther LakeのXe3 GPUのレンダースライスを比較してみようと思う。ここではXe3 GPUについては12コア仕様で説明するが、4コア仕様では少し話が異なるポイントがあるので、後ほどフォローする。


 レンダースライスは、ミニGPUを複数内包した「GPUクラスター」ともいえる塊だ。NVIDIAのGPUならGPC、AMDのGPUでは「シェーダーエンジン(Shader Engine)」または「シェーダーアレイ(Shader Array)」に相当する。


 Intelにおいて、このような「ミニGPUのクラスター」的な考え方を採用したのはXeアーキテクチャが初めてだ。それ以前にも「サブスライス(Subslice)」という概念はあったものの、Xeコアに相当するものだ。強いて説明するなら、サブスライスは「レンダースライス1基」ということになる。


 XeとXe 2のレンダースライスを比較すると、1基当たり4基のXeコアを内蔵していることに注目すると、変化が少ないように思える。しかし、変化が全くないわけではない。搭載するXVEの数が16基から8基に削減されている……のだが、これは能力の劣化を意味しない。


 実は、XVEにおけるSIMD(Single Instruction/Multiple Data:並列処理を行う手法の1つ)の実行レーン数が、Xe GPUの8レーン(SIMD8)から16レーン(SIMD16)に倍増しているのだ。そのため、以下の通り論理的な演算能力は変わりない。


・Xe GPUのXeコア1基当たりの演算器:SIMD8×16XVE=128基


・Xe2 GPUのXeコア1基当たりの演算器:SIMD16×8XVE=128基


 筆者は、この方針転換を「処理できるスレッド数を半分にする代わりに、一度にこなせる演算密度を増やした」と解釈している。


 もう少し具体的に、実際の3Dグラフィックス描画における違いで説明すると、Xe GPUは「たくさんのシェーダープログラムを動かす」ことに重きを置いたのに対して、Xe2 GPUは「複雑なシェーダープログラムを短時間で終える」ことを重視したともいえる。あるいは、「4K(3840×2160ピクセル)といった高解像度ゲーミングは最初から想定せずに割り切った」と捉えることもできる。


 ここでXe3 GPU(12コア仕様)のブロックダイアグラムを見てみると、Xe/Xe2 GPUと比べて分かりやすい違いがある。それはレンダースライス1基当たりのXeコアの数が4基から6基に増えたことだ。


 これを踏まえて下に掲載したXe3 GPU(12コア仕様)の全体図を見てみよう。レンダースライスは2基あるので、Xeコアは6基×2=12基構成となる。


 しかし、ここで疑問が湧く人もいるはずだ。Xeコアを12基にするなら、レンダースライスのXeコアを4基に据え置いて「Xeコア4基×レンダースライス3基=Xeコア12基」という構成にしても良かったのではないだろうか。


 確かに、レンダースライスは2基構成よりも3基構成にした方が、処理の並列度は上がる。しかし、独立GPUと比べると内蔵GPUはメモリ帯域が狭いため、並列度を高めて複数のレンダースライスでピクセル色を演算できても、それをメモリへ書き出す部分、いわゆる「ROP(Rendering Output Pipeline)」がボトルネックになって効率的に出力できない(IntelではROPを「PiXel Backends」と呼んでいる)。


 では逆に、なぜXe3 GPU(12コア仕様)ではレンダースライスを2基構成にしたのだろうか。答えはシンプルで、16MBのL2キャッシュでボトルネックを解消(というか低減)できるからだ。


 となると、今度は「L2キャッシュをもう少し大きくすれば、レンダースライスを3基構成にもできたのではないか?」という疑問も浮上する。それは確かにその通りなのだが、「できるけどあえてそうしなかった」のだと推測している。


 SRAMによる大容量キャッシュは、どうしてもチップ上で大きな面積を専用する(SRAMはプロセス微細化の恩恵を受けづらい)上に、電力消費と発熱も大きくなりがちだ(アイドル時にもリーク電流が大きいため)。要するに、現状の「レンダースライス×2基+L2キャッシュ16MB」という仕様がベストバランスだと判断したのだろう。


 実は、AMDもAPUに内蔵するGPUにおいてIntelと似た判断をしており、せいぜい毎秒100GBクラスのメモリ帯域を想定して多くのモデルでGPUクラスタを1〜2基にとどめている。最大パフォーマンスを引き出すため、内蔵GPUの設計者は「メモリ帯域」と「キャッシュ容量」のバランスに頭を悩ませているのだ。


 余談はさておき、この「1基のレンダースライスにXeコアが6基」という仕様は、過去のAlchemistはもちろん、Battlemageでも見られなかった。筆者は、この構成が次期アーキテクチャであるCelestialで採用されるのではないかと見ている。ゆえに、Xe3 GPUはCelestial Lightなのではないかと考えた次第である。


●ピーク性能は12コア仕様で「Xbox One X」超


 ここで、Xe3 GPUの理論性能値を求めてみよう。下の資料にもあるように、Xe3 GPU(12コア仕様)の8bit整数(INT8)時のピーク性能は120TOPS(毎秒120兆回)と公開されている。


 これはXe系GPUに内蔵されている推論アクセラレーター「Xe Matrix Extensions(XMX)」の値で、XMXは「1クロック当たり4096OPS」という性能値も公開されているので、ここから最大動作クロックを以下の式で逆算できる。


 12(Xeコアの数)×4096(OPS)×F(GHz)=120TOPS F=120TOPS÷12÷4096=2.44GHz


 最大動作クロックが分かれば、プログラマブルシェーダー全体の理論性能も以下の通り計算可能だ。


 12(Xeコアの数)×8(XVEの数)×16(SIMD16演算)×2FLOPS(積和算)×2.44(GHz)≒7.5TFLOPS


 これまで、Intelの内蔵GPUの理論性能値は、Meteor Lakeの約4.61TFLOPSが最大だった。計算上、Panther Lakeはそれを約1.6倍上回る性能を備えることになる。


 据え置きゲーム機の内蔵GPUと比較すると、「Xbox One Series X」の6TFLOPSを超えている。なかなかの高性能ぶりだ。MSIがこれを使ったポータブルゲーミングPCを出してくるかもしれない(あくまで予想だが)。


4コア構成でも案外強い ピーク性能は「プレイステーション4」を超える


 さて、ここで後回しにしてきた4コア仕様のXe3 GPUについても見てみよう。


 4コア仕様の場合、1基のレンダースライスに2基のXeコアを備えており、これを2基搭載している。なのでXeコアは2基×2=4基構成となる。動作クロックを2.44GHzとして理論性能値を求めると、以下の通りだ。


  4(Xeコアの数)×8(XVEの数)×16(SIMD16演算)×2FLOPS(積和算)×2.44(GHz)≒2.5TFLOPS


 動作クロックが高いこともあって、想像よりもだいぶ高い性能だ。なにしろ、PlayStation 4の内蔵GPUのピーク性能(1.84TFLOPS)を上回っているのだから。


 最新の大作3Dグラフィックスゲームは無理だとしても、シンプルなビジュアルのゲームは普通にプレイできるだろう。


 次回は演算器であるXVEやXMX、レイトレーシング処理を担う「レイトレーシングエンジン」をもっと深掘りしつつ、Xe3 GPUの全般的な改良ポイントをさらに深掘りしていく。



    ランキングIT・インターネット

    アクセス数ランキング

    一覧へ

    前日のランキングへ

    ニュース設定