Core Ultra(シリーズ2)にデスクトップ/ハイエンドモバイル向けモデルが登場! これまでのIntel製CPUとの決定的な違い

0

2024年10月11日 06:11  ITmedia PC USER

  • チェックする
  • つぶやく
  • 日記を書く

ITmedia PC USER

Arrow Lakeは、どんなCPUに?(画像はデスクトップ向けの「Core Ultra 200Sプロセッサ」)

 IntelがNPUを統合した「Core Ultraプロセッサ」を立ち上げてから、あと2カ月ほどで1年が経過する。第1弾となる「シリーズ1(開発コード名:Meteor Lake)」はモバイルに特化したCPUとなり、デスクトップ向け製品の投入は見送られた。


【その他の画像】


 そしてこの2024年シーズンに登場する「シリーズ2」は、まず9月に薄型/軽量向けの「Core Ultra 200Vプロセッサ」(開発コード名:Lunar Lake)が登場した。こちらは設計に大幅な刷新が行われ、同社としては事実上初めてメモリモジュールまで統合したことに注目が集まった。


 そして10月9日(米国太平洋夏時間)、シリーズ2のラインアップにデスクトップ/ハイエンドモバイル向けモデルが加わることが正式に発表され、そのアーキテクチャ面における概要が明らかとなった。いよいよ、Core Ultraプロセッサに性能重視型が登場することになる。


 「Arrow Lake」の開発コード名で知られる性能重視型Core Ultraプロセッサ(シリーズ2)は、どのようなCPUとなっているのだろうか。本稿では、デスクトップ向けの「Core Ultra 200Sプロセッサ」を中心に、その素性を見ていきたい。


●Arrow Lakeは「3種類」ある


 今回発表された性能重視型Core Ultraプロセッサ(シリーズ2)は、ざっくり見ると2系統、細かく見ると3系統に分類できる。


 1つ目が「Core Ultra 200Sプロセッサ」(Arrow Lake-S)だ。これはゲーミング向けを含む高性能デスクトップPCに搭載することを想定した製品で、デスクトップ向けの「Coreプロセッサ(第14世代)」の後継モデルとなる。


 2つ目は「Core Ultra 200HXプロセッサ」(Arrow Lake-HX)だ。これはゲーミング向けを含む超ハイエンドノートPCに搭載することを想定した製品で、超ハイエンドモバイル向けのCoreプロセッサ(第14世代)の後継製品となる。


 そして3つ目が「Core Ultra 200Hプロセッサ」(Arrow Lake-H)だ。そして3つ目が「Core Ultra 200Hプロセッサ」(Arrow Lake-H)だ。こちらは、どちらかというとややパフォーマンス寄りのノートPCを対象とした製品で、Core Ultraプロセッサ(シリーズ1)のHシリーズの後継となる。本製品はCore Ultra 200S/200HXプロセッサよりも内蔵GPUの性能が高く、外部GPUに頼ることなくフルHD(1080p/1920×1080ピクセル)解像度程度であれば多くのゲームを動かせる。


 設計面でいうと、Core Ultra 200SとCore Ultra 200HXは基本的なパッケージが共通しており、駆動時の電圧やクロックを搭載するマシンに合わせてアレンジしたものと考えればいい。なので、ざっくりとした分け方だと「Core Ultra 200SとCore Ultra 200HX」と「Core Ultra 200H」に分かれる。


 そのため、まずCore Ultra 200S/200HXプロセッサがどんなCPUなのかを解説していく。なお、記事中で「Arrow Lake」と記載している部分については、Core Ultra 200Hプロセッサも含めた3種類のCPUで共通する事項について述べていると理解してほしい。


●複数のタイル(ダイ)をForveros 3D技術でパッケージング


 Arrow Lakeの基本開発コンセプトは「エンスージアストレベルの高性能を低消費電力で」だったそうだ。結果として、Arrow LakeはCoreプロセッサ(第14世代)比で同性能時の消費電力を最大30%削減したという。


 デスクトップの最上位モデル同士で比較すると、先代の「Core i9-14900K」が24コア32スレッド、「Core Ultra 9 285K」が24コア24スレッドという構成と8スレッドも少ない。にも関わらず、マルチコア(マルチスレッド)動作時の実効性能はCore Ultra 9 285Kの方が最大10%高いそうだ。内蔵GPUもより新世代のものを搭載したので、グラフィックス性能も従来よりも改善したとのことだ。


 Core Ultra 200S/200HXプロセッサにおける各タイル(ダイ)の製造プロセスは以下の通りだ。


・Computeタイル:TSMC N3B(3nm)


・GPUタイル:TSMC N5P(5nm)


・SoCタイル:TSMC N6(6nm)


・I/Oタイル:TSMC N6


・ベースタイル:Intel 1227.1(22nm)


 Intelは異なるプロセスで作られた複数個のタイルを1パッケージに収める3D積層技術「Foveros 3D」を適用して、これらをつなぎ合わせている。


 Arrow Lakeに搭載されているタイルは、CPUコアをまとめた「Computeタイル」、追加のPCI Expressバス(レーン)やThunderbolt 4といった入出力インタフェースをまとめた「I/O(入出力)タイル」、グラフィックス機能をつかさどるGPUコアそのものを備える「GPUタイル」、そして各種タイルをつなぎ合わせるハブとなる「SoCタイル」の4つだ。これらは、互いをつなぎ合わせるための配線を備える「ベースタイル」の上に実装されるが、そのつなぎ合わせに使われるのが、Foveros 3Dとなる。


 それぞれのタイルは、個別の動作クロック/電圧で動作している。また、Computeタイルに関してはパフォーマンスコア(Pコア)と高効率コア(Eコア)で基本クロック“も”異なるというのが興味深い。


 先述の通り、Core Ultra 200SプロセッサとCore Ultra 200HXプロセッサは基本パッケージは共通だ。搭載先に合わせて動作電圧/クロックの他、外観にも違いがあるものの、チップとしての“素性”は同じだということになる。


 そうなると「では、Core Ultra 200Hは何が違うのか?」と疑問に思うところだが、Intelは「詳細の明言は避けたい」としつつも、I/OタイルとGPUタイルに違いがあるとしている。


 Core Ultra 200HプロセッサのGPUタイルは、Core Ultra 200S/200HXプロセッサの2倍となる8基のXeコアを搭載している上、Core Ultraプロセッサ(シリーズ1)では省かれていた「Xe Matrix Engine」(XMX:推論プロセッサ)も“復活”を遂げている。


 XMXがあるということからも察することができる通り、Core Ultra 200HプロセッサのGPUタイルは、設計的にはモバイル向け独立GPU向けGPUコア「ACM-G11」(※1)に極めて近い設計になっていると思われる。このあたりの詳細は後述する。


(※1)Intel Arc A350M/A370M Graphicsで使われた


●「ハイパースレッディング非対応」になったPコア/Eコアも性能アップ


 ここからは、Arrow LakeのComputeタイル(CPUコア)の特徴を見ていこう。


 Core Ultra 200Sプロセッサの場合、Computeタイルはパフォーマンスコア(Pコア)が最大8基、高効率コア(Eコア)が最大16基という構成となる。


 Pコアは、Core Ultra 200Vプロセッサで初搭載された「Lion Cove」(開発コード名)だ。つまり、ハイパースレッディング(同時マルチスレッド)機構は非搭載となる。


 過去の拙著でも触れた通り、Lion Coveの平均IPC(クロックあたりの処理命令数)は非常に高い。ゆえに、ハイパースレッディングに対応したとしても、その投資(トランジスタ数や消費電力)に見合った性能を引き出すことは厳しい。


 ハイパースレッディングは元々、CPUの余剰演算器を有効活用する目的で搭載されてきた。現在実行しているスレッドとは無関係なスレッドの処理に対応させることで、アイドル(非活用)状態になっている演算器や他の実行ユニットを稼働できることが、動作効率面で何よりも意義深かった。しかし、IPCが良好になったこもあり、昨今のPコアではハイパースレッディングに対応する意義が薄れている。


 前も言ったが、最近のIntelは「これなら、ハイパースレッディングに対応させるコストをEコアの増量に回した方が全体性能が改善するんじゃね?」という設計信条を持っているようだ。


 結局のところ、ハイパースレッディングでは「CPUコアが完全に“分身”する」わけではない。IntelがLion Coveに対して「ハイパースレッディングは載せない」と判断したのは、パフォーマンス向上という面では理にはかなっている。ただし、競合CPUに対してスレッド数が減った(≒パフォーマンスを発揮しづらい)ように見えるのは確かなので、既存ユーザーに対して丁寧な説明が必要になってくるだろう。


 Eコアも、Core Ultra 200Vプロセッサと同じ「Skymont」(開発コード名)を搭載している。元々、Eコアにはハイパースレッディング機構は搭載されていないので、そのあたりの仕様変更はない。


 しかし、Core Ultraプロセッサ(シリーズ1)のEコア「Cresmont」(開発コード名)と比べると、「浮動小数点演算/AVX系SIMD演算のパフォーマンス改善」「アウトオブオーダー実行の範囲拡大」など、CPUコアとしての基礎性能を高める措置が施されている。


 この効果はてきめんなようだ。Intelによると、第13世代CoreプロセッサとCoreプロセッサ(14世代)のEコア「Gracemont」(開発コード名)と比較した場合、整数演算のパフォーマンスはシングルスレッド/マルチスレッドの双方で最大32%向上し、浮動小数点演算のパフォーマンスはシングルスレッドで最大72%、マルチスレッドで最大55%向上したという。筆者としては「『Eコア』という呼び方で損をしている」という印象を持った。


 このLion CoveとSkymontについての深い解説は、いずれ回を改めて行いたいと考えている。


●タスク振り分けが一層洗練された「Intel Thread Director」


 Arrow Lakeでは、CPUのキャッシュメモリの階層構造に大きな変革はない。ただ、着実かつ順当な強化はなされている。


 全てのCPUコアで共有するL3キャッシュの容量は最大36MBとなる。これは第13世代CoreプロセッサとCoreプロセッサ(14世代)から変わりない。


 L2キャッシュについては、Pコアでは1コアあたり3MBに増強された。これは第13世代CoreプロセッサとCoreプロセッサ(14世代)におけるPコアの1.5倍の容量だ。Eコアは4基あたり4MBのL2キャッシュを共有する設計で、第13世代CoreプロセッサとCoreプロセッサ(14世代)と同じだ。


 PコアのL2キャッシュを増量した理由はシンプルで、比較的長いループを回るスレッドの実行を担当する機会が多いからだ。L2キャッシュの強化(増量)は、メモリへのアクセスを低減させ、シングルスレッドの性能向上に直結する。


 スレッド(ワークロード)をPコアとEコアに振り分ける「Intel Thread Director」は、第13世代CoreプロセッサとCoreプロセッサ(14世代)はもちろん、Core Ultraプロセッサ(シリーズ1)やCore Ultra 200Vプロセッサとも少し異なるアルゴリズムで動作するという。


 まずEコアだが、従来の第13世代CoreプロセッサとCoreプロセッサ(14世代)の場合は「平均IPCがどのくらい出ているか?」ということだけを基準とするシンプルなアルゴリズムでスレッドの割り振りを行っていた。


 それに対して、Arrow Lakeでは従来のPコアに近い精度のテレメトリーベースの割り当てが適用される。つまり、例えば「どのアドレス範囲のスレッドを、どのくらいの稼働率で、どのくらいの時間動かしたか」「どんな種別の命令が実行されたのか」「CPUキャッシュのヒット率はいかほどか」といった情報を蓄積し、Eコアに継続して従事させるのか、あるいはスレッドを別コアに割り当て直すのか、といった判断を行う。ここで言う「別コア」には、Pコアだけでなく、別クラスタにあるEコアも含まれる。


 Pコアにおけるスレッド割り振りは、従来通りテレメトリーベースのアルゴリズムで行われる。ただし、高いシングルスレッド性能が要求される場合は、なるべくPコアに集中してスレッドを割り当てるように振る舞うという。


 これらのスレッド割り当ては、ニューラルネットワークベースの予測メカニズムを採用しているとのことで、「このスレッドはどのコアに割り当てるべきか?」の予測精度が劇的に向上したとIntelは説明している。


 Arrow Lakeには、ハイパースレッディング機構がない。とはいえ、マルチコアCPUであることには変わりなく、マルチスレッド処理には対応している。当然、OSレベルが行うコンテキストスイッチングも普通に対応している。


 Core Ultra 200S/200HXプロセッサは、ゲーミングPCでの採用が多くなると思われる。その際に、ゲームのメインスレッドを動作させているPコアを、不用意かつ高頻度にプリエンプションさせて別スレッドを割り当ててしまっては、ユーザーのためにならない。


 Intelは、Arrow LakeのThread Directorを「適材適所」ならぬ、よりレベルの高い「適スレッド/適コア」となるように予測モデルをさらに賢いものに仕立てた――そう考えると、今回の機能拡張がイメージしやすいだろう。


●内蔵GPUは「Xe-LPG」ベース 「おまけ」にしては高性能?


 Core Ultra 200S/200HXプロセッサのGPUタイル(内蔵GPU)は、Core Ultraプロセッサ(シリーズ1)と同様に「Xe-LPGアーキテクチャ」ベースだ。Xe-LPGは外付けGPU向けの「Xe-HPGアーキテクチャ」を元に開発されているが、推論プロセッサたるXMXを省いている。そのため、後述するCore Ultra 200HXプロセッサのGPUタイルとは“別物”と言ってよい。


 Core Ultraプロセッサ(シリーズ1)の場合、Xeコアはモデルによって4〜8基だったが、Core Ultra 200Sプロセッサでは全モデルが4基構成となる。基本設計が共通するCore Ultra 200HXプロセッサも同様だ。Xe-LPGではXeコア1基にレイトレーシング(RT)ユニットが1基搭載されているので、RTユニットも合計4基しか搭載していない。


 こうして見ると、Core Ultra 200S/200HXプロセッサのGPUタイルは高性能とは言いがたい。しかし、これらのCPUはゲーミングPCやハイエンドPCへの搭載を想定しており、ほとんどが外部GPUと併載されるものと思われる。要するに「おまけGPU」といったところだ。


 ただ、このGPUタイルは単なる「おまけGPU」なのかと言われると、ちょっと違う面もある。


 競合となるAMDのデスクトップ向けCPU「Ryzen 9000Xシリーズ」もGPUコアを内蔵しているが2コア構成で、ピーク時の演算性能は0.56TFLOPS程度しかない。本当の意味で「おまけGPU」だ。


 しかし、Core Ultra 200S/200HXプロセッサのGPUタイルの性能は、規模的にCore Ultra(シリーズ1)における8コアGPUタイルの半分だと考えると「約4.8FLOPS÷2≒2.4TFLOPS」くらいはある。ゲーム機でいえば「プレイステーション4」のGPU(約1.8TFLOPS)を超える性能は確保している。おまけとしては“高性能”だ。


 プロ級の動画編集やAAAクラスのゲームプレイは無理だとしても、趣味レベルのビデオ編集やカジュアルなPCゲームのプレイであれば、不満なくこなせそうではある。


Core Ultra 200Hプロセッサはより強力な内蔵GPUを搭載


 ちなみに、Core Ultra 200HプロセッサのGPUタイルは、Xeコアが8基構成で、RTユニットも8基備えている。Core Ultraプロセッサ(シリーズ1)の上位モデルの内蔵GPUに近い構成だが、先述した通りXMXも搭載されている。そのため、理論的にはIntel Arc A370M Graphicsに近い性能は確保できるはずだ。ピーク性能も4.8TFLOPS程度はあると思われる。


 「独立GPUは要らないが、それなりに高いグラフィックス性能は必要」というユーザーには響きそうである。


●NPUは「第3世代」 メディアエンジンは「エンコード重視」?


 Arrow LakeのSoCタイルの設計思想は、Core Ultraプロセッサ(シリーズ1)とよく似ている。NPUと、ディスプレイ出力を担う「ディスプレイエンジン」や動画のハードウェアデコード/エンコードを担う「メディアエンジン」は、このタイルに統合されている。


NPUは最大13TOPSの「NPU3」


 Core Ultra 200Vプロセッサは新しい「NPU4(第4世代NPU)」を搭載していたが、Arrow LakeはCore Ultraプロセッサ(シリーズ1)と同じ「NPU3(第3世代NPU)」を搭載している。


 NPU3はIntel傘下のMovidiusが開発した「VPU(Vision Processing Unit)」をベースとしており、2基のNCE(Neural Compute Engine:ニューラル演算エンジン)から構成される。NCEの1基当たりのピーク演算能力は、FP16(16bit浮動小数点演算)で1クロックあたり1024回、INT8(8bit整数演算)で1クロックあたり2048回だ。


 NCEにはMovidiusが開発した「SHAVE(Streaming Hybrid Architecture Vector Engine)」という128bit SIMD-VLIWプロセッサ(DSP)が1基あたり2つ搭載されている。このSHAVE DSPは「128bitベクトル演算器」「32bit整数演算器」「32bit整数8要素SIMDスカラ演算器」といった高度な演算器を備えており、「比較命令」「分岐予測」「ループ制御」など高度な演算を高速にこなせる。


 NPU3の公称ピーク性能は、Core Ultraプロセッサ(シリーズ1)では11.5TOPS程度とされていた。しかし、Arrow Lakeでは13TOPSに引き上げられている。これはシンプルに動作クロックが13%向上したからだ。


 それでも、最大48TOPSの性能値を持つNPU4と比べると、ピーク性能はだいぶ見劣りする。NPU4はNPU3の3倍(6基)のNCEを搭載しているので、当たり前といえば当たり前だ。Microsoftが定める「新しいAI PC(Copilot+ PC)」の要件も満たせない。


 「どうせ『新しいAI PC』になれないなら、いっそのことNPUを省いてもよかったのでは?」と思う人もいるかもしれないが、IntelとしてはAI処理をする際にCPUやGPUに負荷を掛けたくない(オフロードしたい)場合に役立つと、活用のしがいがあると考えて搭載したようだ。


 同社が開催した発表会では、ゲーム実況配信などで用いられる定番配信アプリ「OBS Studio」において、グリーンバック無しで映るユーザーの顔面を、きれいに背景から切り出す処理をArrow LakeのNPUで実践する様子が実演された。


 最近のPCでは、推論アクセラレーターがCPUにもGPUにも搭載されているケースが増えている。今後はこうした「推論アクセラレーターの使い分け」がPCを使いこなす上でのトレンドとなっていくのかもしれない。


メディアエンジンはエンコード時の方がハイスペック?


 ディスプレイエンジンは、4K(3840×2160ピクセル)/60HzのHDR映像を最大4ストリームの出力できる能力を持つ。ストリーム数は限定されるが、8K(7680×4320ピクセル)/60HzのHDR映像出力も可能だ。出力規格はHDMI 2.1、DisplayPort 2.1、eDP1.4に対応している。


 メディアエンジンは、動画のデコード/エンコード共にH.265(HEVC)/VP9/AV1の各形式に対応し、デコードではH.264(MP4)もサポートする。最大解像度は、デコード時は8K/60Hz(HDR)、エンコード時は8K/120Hz(HDR)となる。エンコード時の方がより高いフレームレートに対応しているのが、ちょっと面白い。


●チップセットは「Intel 800」、CPUソケットは「LGA 1851」に


 第12〜13世代CoreプロセッサおよびCoreプロセッサ(14世代)は3世代に渡り物理的/電気的に互換性を有していたが、今回のArrow Lakeではモデルチェンジされる。Core Ultra 200S/200HXプロセッサはチップセットが「Intel 800シリーズ」となり、Core Ultra 200SプロセッサのCPUソケットは「LGA 1851」となる。


 Core Ultra 200S/200HXプロセッサでは、CPU直結のPCI Express 5.0バスが20レーン用意されている。20レーンのうち、16レーンは外部GPUで、4レーンはNVMe SSDで使う想定だ。第12〜13世代CoreプロセッサおよびCoreプロセッサ(14世代)と比べると4レーン増しで、より高速なNVMe SSDも使いやすくなる。


 これとは別に、CPU直結のPCI Express 4.0バスも12レーン用意されている。12レーンのうち、8レーンはチップセットとのインターコネクト(DMI 4.0)として使われ、残りの4レーンはNVMe SSDやThunerbolt 5ポート(最大5基)などの接続に利用できる。4レーンをどう使うかは、マザーボード/PCメーカー次第となりそうだ。


 加えて、Core Ultra 200S/200HXプロセッサではCPU側にThunderbolt 4(USB4)ポート(最大2基)も搭載している。


 Intel 800シリーズチップセットは、マザーボード/PCメーカーの考え方次第でいろいろな入出力インタフェースを設置できるように設計されている。ただし、DMI 4.0の帯域の上限は超えられない。


 チップセットのラインアップの詳細は公表されていないが、最上位モデルを基準とすると以下のポートを設置できるとのことだ。


・PCI Express 4.0バス:最大24レーン


・eSPIポート:最大4基


・USB 3.2ポート:最大10基


・USB 3.2 Gen 2x2で使う場合は最大5基


USB 2.0ポート:最大14基


Serial ATA 3.0ポート:最大8基


 また、チップセットにはWi-Fi 6E(IEEE 802.11ax)規格の無線LANとBluetooth 5.3、1000BASE-T規格の有線LANも統合されている。最新のWi-Fi 7(IEEE 802.11be)規格の無線LANやBluetooth 5.4、2.5GBASE-T規格の有線LANには、モジュールを追加することで対応可能だ。


●デスクトップ向けではCUDIMM/CSODIMMメモリも利用可能に


 Core Ultra 200Sプロセッサは、DDR5規格のメモリをサポートする。動作クロックは定格で最大6400MHz(DDR5-6400)となり、デュアルチャンネル対応だ。容量は最大192GBで、システム構成によってはECC(エラー誤り訂正)対応モジュールも利用できる。


 メモリモジュールについては、従来のDIMM(UDIMM/SODIMM)に加えて新規格の「CUDIMM(Clocked UDIMM)」や「CSODIMM(Clocked SODIMM)」もサポートする。


 CUDIMMとCSODIMMは、高クロックのDIMMを安定的に動作させるために生まれたもので、6月に行われた「COMPUTEX TAIPEI 2024」では、数社のマザーボードメーカーが対応マザーボードやメモリモジュールを参考出展していた。もしかすると、Core Ultra 200Sプロセッサ対応マザーボードの上位モデルは、CUDIMMやCSODIMMをサポートすることになるかもしれない。


●かなり魅力的なArrow Lake 成否の鍵は「マーケティング」?


 Core Ultraプロセッサ(シリーズ)のトップエンドを担うことになるArrow Lakeは、性能重視のPCユーザー(エンスージアスト)や、最高のゲーム体験を追求するPCゲーマーにとっては待望の製品だ。


 Intelの説明を聞く限り、Arrow Lakeはアーキテクチャ面においてかなり先進的で、Core Ultra 200Sプロセッサは競合のAMDのRyzen 9000シリーズと互角かそれ以上に渡り合えるCPUだと感じた。「実際の性能はどうなんだ?」という点は、今後出てくるであろう各メディアのベンチマークテストの結果待ちというところだ。


 ただ、不安要素があるとすると、ユーザーが見かけ上のスペックだけで判断してしまう可能性を否定できないという点だ。ハイパースレッディングを廃止したことでスレッド数は削減されているので、「スレッド数が少ないから性能が低下した」と勘違いされるかもしれない。


 競合のAMDは、今のところ同時マルチスレッド機構(ハイパースレッディング機構)を廃止していない。もしもユーザーに「同じコア数なら、スレッド数が多い方がパフォーマンスがよい」という観念が固定されているとなると、素の良さを知ってもらう前に敬遠されないか――そこが気に掛かる。恐らく、Intelもこの点は心配しているだろう。


 Intelは、以下の要点をユーザーに強く“理解”してもらう必要があるだろう。


・平均IPCが劇的に高められた近代CPUでは、ハイパースレッディング機構を使っても「見かけのスペック」ほどの性能向上を期待できない


・高いシングルスレッド(逐次実行性能)性能を持つPコアは、ハイパースレッディング動作(≒実行スレッドの切り替え)による遅延を排除した方が高い性能を得やすい


・ハイパースレッディング機構を搭載するコストをEコアの増量に回して、スレッドの「適材適所」的実行を推進した方が全体のパフォーマンスは高まる


 筆者自身も、上記のIntelの主張には強い関心を抱いている。Arrow Lakeのパフォーマンスを早く体験したい。



    ランキングIT・インターネット

    前日のランキングへ

    ニュース設定