次世代CPU「Lunar Lake」でIntelが目指す“AI PC”とは? 驚くべき進化点と見える弱点、その克服法

0

2024年06月04日 12:41  ITmedia PC USER

  • チェックする
  • つぶやく
  • 日記を書く

ITmedia PC USER

ホルタウス氏が手にしているチップが、Lunar Lakeそのものである

 Intelは6月4日、COMPUTEX TAIPEI 2024の基調講演において、次世代のモバイル向けCPU「Lunar Lake」(開発コード名)の技術な概要を明らかにした。


【その他の画像】


 本製品はCPUコアやGPUコアの設計を刷新しており、今後のIntel製CPUの主流アーキテクチャになると推測され、大きな注目を集めている。ただし、本製品は現行の「Core Ultraプロセッサ(シリーズ1)」(開発コード名:Meteor Lake)の純粋な後継製品というよりも、より薄型の“リアルモバイルPC”向けのCPUになるのだという。


 Lunar Lakeの製品名、仕様や詳細なラインアップは2024年秋以降に明らかとなる見通しだが、いわゆる「AI PC」としての性能を強調していることもあり、順当に行けば現行製品と同様に「Core Ultraプロセッサ」として登場することになる。


 本発表に先立って、同社は報道関係者向けの説明イベント「Intel Technology Tour 2024(ITT 2024)」を開催した。この記事では、イベントの基調講演で明らかとなったLunar Lakeの基本情報と概要、そして重要なポイントについて詳細な情報をお届けする。


 なお、内部の各機能やアーキテクチャの詳細については、追って別の記事としてお届けする予定だ。


●Intelの2025年までのCPUロードマップ


 Intelは2006年から、「Core」ブランドをメインに据えてCPU製品を展開している。2008年に「Core i3/i5/i7」のグレードを導入して以来、途中に最上位グレードとして「Core i9」を追加したことを除いて14世代(≒14年間)に渡って、いわゆる「Core iプロセッサ」を展開してきた。


 しかし2023年、同社はCoreプロセッサの“リブランド”を発表。従来のCoreブランドからは“i”が取り除かれ、上位モデル向けブランドとして「Core Ultraプロセッサ」が登場することになった。


 今回の話題の中心となるLunar Lakeは、(まだ)新しいブランドであるCore Ultraプロセッサの新製品として登場する見通しだ。ただし、先述の通り現行のシリーズ1と比べると、より高い省電力性を求められる、リアルモバイルPC向けの製品として訴求される。


 なお、2024年内にはデスクトップ向けとして初のCore Ultraプロセッサとなる予定の「Arrow Lake」(開発コード名)の登場も控えており、こちらは「最高性能のCore Ultraプロセッサ」として、期待が高まる。


 Lunar Lake/Arrow Lakeの次のCPUは、2025年に登場予定の「Panther Lake」(開発コード名)となる。Panther Lakeは名前こそ出てきているものの、その詳細は明らかとなっていない。今回のイベントで使われた図版を見る限り、現行のCore Ultraプロセッサ(シリーズ1)と同様に性能重視のモバイル向けCPUとして登場するものと思われる。


●Lunar Lakeは既に量産開始済み


 5月に掲載された記事にもある通り、Lunar Lakeの量産は既に始まっている。Intelのミッシェル・ジョンストン・ホルタウス氏(クライアントコンピューティンググループ エクゼクティブバイスプレジデント兼ジェネラルマネージャー)によると、20以上のPCメーカーが、80種類以上の製品の開発を進めているという。


 また、ソフトウェア開発者向けに「Lunar Lake開発者キット」という小型デスクトップPCを提供し、アプリにおけるAIの利用を促進していくという。


●Foveros技術による「タイルアーキテクチャ」を引き続き採用


 Lunar Lakeでは、Meteor Lakeと同様に異なる種類のタイル(ダイ)を“連結”する「タイルアーキテクチャ」(チップレット技術)を採用している。タイルの連結にIntel独自の「Foveros技術」を適用していることも同様だ。


 本CPUの場合、メインとなる「Computeタイル」と、周辺I/Oをつかさどるチップセット的な役割を果たす「Platform Controllerタイル」を「Baseタイル」を介して連結する構造となっている。


 ComputeタイルはTSMCの「N3Bプロセス(3nm)」、Platform Controllerタイルは同じくTSMCの「N6プロセス(6nm)」を採用している。後者が数世代枯れたプロセスを採用しているのは、コスト的な理由とComputeタイルよりも高い電圧を取り扱うダイとなるため、配線幅が太い方が電気的に安定するためだ。


 一方、BaseタイルはIntel内製で、事実上「配線しかないダイ」(トランジスタのないダイ)となる。「配線の微細度が高い基板」だと考えればいいだろう。製造プロセスには「1227.1」という記号名称が与えられているが、実態としては22nmプロセスだそうだ。


オンメモリパッケージであることにも注目


 Lunar Lakeのパッケージ上には、LPDDR5X-8500規格のメモリチップが直接スタックされている。総容量は最大32GBで、半分の16GBモデルも設定される見込みだ。


 メモリインターフェースは16bit×4チャンネルとのことで、64bitバス接続ということになる。メモリー帯域は毎秒68GB。Meteor Lakeでは毎秒120GB(LPDDR5X-7500メモリ利用時)だったので、速度的には約半分程度となる。


●Pコアでハイパースレッディング廃止 今後のCPUにも影響するか?


 Lunar LakeのComputeタイル(CPUコア)は、高性能コア(Pコア)が4基、高効率コアが4基の計8コア構成となる。第12世代以降のIntel CPUのノリで考えると、「ということは合計8コア12スレッドなのかな?」と思ってしまう。


 しかし、このLunar LakeではPコアがマルチスレッド動作(SMT)、Intel風にいうと「ハイパースレッディング」に対応していない。つまり8コア8スレッドのCPUということになる。


 「なぜハイパースレッディングを廃止してしまったの?」という疑問に対する詳細は、別の記事で解説したいと思っている。しかし、読者の皆さん的には関心が高いと思うので、本稿でも簡単に説明したいと思う。


 結論からいうと、「Pコアにおけるハイパースレッディング廃止」という方策は、「機能面での妥協」ではなく、「現状では引き出せる性能と消費電力のバランスを最適化しやすい」という理由から導き出された。


 つまり、微細化が進んだ現状までのプロセスノードにおいて、ハイパースレッディング機能を実装するために必要なトランジスタ数と、これらを動かすための消費電力、そしてハイパースレッディングによって得られるパフォーマンス向上率のバランスが割に合わなくなりつつあるのだ。


 CPUを始めとする各種プロセッサに「ある機能」を実装するためには、プロセッサダイにおいて、一定の面積を専有して、機能を実現するための「トランジスタロジック」を形成しなくてはならない。通常、その面積占有率はトランジスタの数と比例するため、消費電力の増大に直結する。


 特にハイパースレッディングの実装に当たっては、演算器のセットはCPU1基分でも、「レジスタファイル群」、命令実行用の「キューイングバッファ」や「スケジューリング機構」は2基分必要となる。これらがあるがゆえに、SRAMロジックの占有面積はどうしても大きくなってしまう。


 最近のCPUでは、パフォーマンスの向上率を「IPC(1クロックあたりの命令実行数)」で算出することが多いが、ハイパースレッディングはまさにIPCを向上するために生まれた技術だ。


 Intelが「Pentium 4」で初めてハイパースレッディングを実装したのは2002年。当時は「シングルスレッドにおけるIPCを向上させる」よりも、「互いに独立した無関係な2スレッドを並列実行させる」ハイパースレッディングの方が、全体としてのIPCを向上しやすかった。しかし、時代が流れて技術が進歩すると、シングルスレッド処理のために盛り込まれたIPC向上の仕組み(順不同のスーパースカラ実行/条件分岐予測精度の向上)が、ハイパースレッディングで得られるIPC向上効果と大差ない状況となった。


 要するに、昨今はハイパースレッディング機構の搭載によって、トランジスタや消費電力が増える代わりに得られるメリットが薄くなったのである。


 むしろ、ハイパースレッディング処理に伴い生じるオーバーヘッド(レジスタファイルの総入れ替えなど)が、シングルスレッドのパフォーマンスを阻害するケースも出てきている。特にゲームアプリのコアプログラムは、逐次処理の塊であるためシングルスレッド性能がパフォーマンスを左右することが多いので、Pコアのマルチスレッド非対応化はむしろ歓迎されるだろう。


 もっと極端にいえば、「ハイパースレッディングに対応させるくらいなら、Eコアを増やした方がマシなんじゃね?」という状況なのである。


 ハイパースレッディングの実装によって増えるトランジスタの数だが、先に触れたPentium 4の場合が「1コアあたりプラス5%」程度だった。しかし、近年のCPUではこれが「1コアあたりプラス10〜20%」程度にまで達している。


 EコアのサイズがPコアの4分の1程度にとどまることを考えると、「面積を考えてもEコア増やした方がいいよな、そうだよな!」的な状況になっているのだ。


 今回のイベントの質疑応答において、Intelは「サーバ向けCPUにはなら、面積と電力のバジェット(予算)をある程度多く取ることをためらわない設計ができるので、ハイパースレッディングを引き続き搭載するかもしれない」と語った。


 少し遠回りな表現にも思えるが、この言い方から察するに、優れた省電力性能と絶対的なシングルスレッド性能を追求する観点から、クライアント向けCPUではハイパースレッディング機構を順次なくしていく可能性は高い。


●新GPUコアは「Xe2」(開発コード名:Battle Mage)


 Lunar Lakeでは、内蔵GPUコアが「Xe2」(開発コード名:Battlemage)に刷新される。先のAlchemist(開発コード名)世代では、独立GPUである「Intel Arc A-Series Graphics」(Xe-HPG)と、Core Ultraプロセッサ(シリーズ1)に統合された「Intel Arc Graphics」(Xe-LPG)の2種類が存在していたが、Intelによると、Battlemageでは単に「Xe2」と呼称するという。


 GPUコアに関する詳報も別の記事で取り上げる予定だが、「そんなこと言わないで……」という声もあると思うので、この記事でも概要を紹介する。


 Lunar Lakeに内蔵されたXe2は、簡単にいうと「細かいチューニングを施した、Xe-HPGの改良版」となる。Xeコア(グラフィックスエンジン)は、Xe-LPGと同じく最大8基だ。


 一番の改良ポイントは、ベクトル演算を担う「XVE(Xe Vector Engine)」のSIMD(Single Instruction/Multiple Data:並列処理を行う際の手法の1つ)の実行レーン数が8レーン(SIMD8)から16レーン(SIMD16)に倍増した点にある。


 ただし、Xeコア1基当たりのXVEの数は、先代から半減している(16基→8基)。そのため、演算器の総数は以下の通り変わらない。


・先代(Alchemist)のXVE:SIMD8×16=128基


・BattlemageのXVE:SIMD16×8=128基


 この変更は、XVEに関する設計方針を変えたことを意味する。簡単にいうと処理できるスレッド数を半分に下げる代わりに、一度にこなせる演算の密度を増やしたということだ。具体的なグラフィックス処理系で例えると、「たくさんのシェーダープログラムを動かす」ことよりも、「複雑なシェーダープログラムを短時間で終える」ことを優先するようになったともいえる。


 読者の皆さんの中には「SIMD8からSIMD16の変更って、意味あるの?」と疑問に思う向きもあるだろうが、実際はアプリ側の“流行”に合わせて演算処理のトレンドが変わることも珍しくない。


 例えばAMDのRadeonシリーズは、「GCN(Graphics Core Next)アーキテクチャ」の時代はネイティブSIMD16演算を行っていた。しかし「RDNAアーキテクチャ」以降では、ネイティブSIMD32演算に切り替わっている。NVIDIAのGeForceシリーズはSIMDを拡張した「SIMT(Single Instructon/Multiple Threads)」を32スレッドで演算している(SIMT32)。


 SIMDであれSIMTであれ、昨今のGPUコアは並行演算のレーン数を増強する方向で設計するトレンドとなっている。これはGPUを高速演算器として利用する「GPGPU」との相性も良いので、Xe2も流れに乗っかったということだろう。


 また、Lunar LakeのGPUコアではさり気なく推論アクセラレータ「XMX(Xe Matrix Engine)」が復活している。ただし、そのまま復活したのではなく、XVEと同様に演算レーンの数を2倍に増やした上で、演算器の数を半減している。レーン数の増と演算器の減が“相殺”しているため、ピーク時の性能は同じと見てよいだろう。対応する演算精度については、FP16(16bit浮動小数点)、BF16、INT8(8bit整数)、INT4(4bit整数)、INT2(2bit整数)と変わっていない。


 今回のイベントでの説明によると、INT8演算時におけるXe2の理論性能値は、XVEによるDP4a演算と、XMXによる演算の合算で67TOPS(1秒当たり67兆回)とされている。ここからGPUコアの動作クロックを逆算してみよう。


 繰り返しだが、Xeコアには1基あたり8基のXVEが備わっている。そのINT8(DP4a)の1クロックあたりの演算性能は「1024OPS(1秒当たり1024回)」となる。同様にXeコアには1基あたり8基のXMXがあり、そのクロックあたりのINT8演算性能は「4096OPS(1秒当たり4096回)」となる。ここから稼働クロックを計算すると、結果は以下の通りだ。


67TOPS÷(1024×8+4096×8基)≒1.636GHz


 Lunar LakeのGPUコアは、ピーク時で約1.636GHzで駆動していると推察される。


 この結果を逆算して、グラフィックス処理能力の理論性能値を計算してみると、以下の通りとなる。


8 (Xeコアの数)×8(XVEの数)×16(SIMD16演算)×2FLOPS(積和算)×動作クロック(MHz換算)=3.35TFLOPS


 計算上、プレイステーション4のGPUコアのピーク性能(1.84TFLOPS)の約1.8倍だ。定格消費電力が15WクラスのCPUに内蔵されたGPUとして見れば、かなり立派な性能値ではある。


 Core Ultraプロセッサ(シリーズ1)のUシリーズに搭載されているIntel Graphicsでは、ピーク時でも2TFLOPS程度だった。そのことを考えると、大した性能向上率だ。


 一方、メディアエンジンやディスプレイ出力回りは、時代に合わせて順当に進化している。


 メディアエンジンはAV1のエンコード/デコードに加え、新世代コーデック「H.266(VCC)」のデコードにも対応する。これは業界最速だという。


 最近のIntelのメディアエンジンは、AMDやNVIDIAよりも最新技術への対応が早い。振り返ると、今では当たり前となったAV1コーデックのハードウェアデコードも、最初はAlchemistアーキテクチャのGPUだった。


●NPUコアはCore Ultraプロセッサ(シリーズ1)比で3倍に増量


 Lunar Lakeには、Core Ultraプロセッサ(シリーズ1)で搭載されていた「NPU 3」の進化版となる「NPU 4」が搭載されている。


 NPU 4は、NPUコア「Neural Compute Engine(NCE)」の基数をNPU 3の3倍に当たる6基に増量している。NCE1基当たりの演算能力は、FP16(16bit浮動小数点演算)で1クロック当たり1024回、INT8(8bit整数演算)で1クロック当たり2048回で変更はない。


 また、NPU 4には推論プロセッサの他、128bitのSIMD-VLIWプロセッサである「SHAVE(Streaming Hybrid Architecture Vector Engine) DSP」も引き続き搭載されている。SHAVE DSPはNCE1基当たり2つ、合計で12基が搭載されている。


 余談だが、SHAVE DSPはIntelが2016年に買収したMovidiusが設計したDSPである。


 Intelが公称するNPU 4の公称スペックは、INT8演算時で48TOPSだという。ここからINTの理論性能値を計算すると、以下の通りとなる。


2048OPS×2 NCE×2 OPS(積和算)×1.4GHz=11.47TOPS


 このことを踏まえて、48TOPSから逆算すると、こんな計算式ができる。


48TOPS=2048OPS×6 NCE×2 OPS(積和算)×X GHz


 上の計算式における「X」は、NPU 4の動作クロックだ。この式をXについて求めると、「X≒1.953GHz」という値が出てくる。概算ではあるが、Lunar LakeのNPU 4は1.953GHzくらいで動作しているものと思われる。CPUコアのクロックも、同じだろう。


●Lunar Lake唯一の弱点は「メモリ」 それを克服する新機能とは?


 Lunar Lakeは、15Wクラスの低消費電力CPUであり、リアルモバイル系の薄型ノートPC向けのCPUとなる。ゆえに“単体で”完成されたPCシステムを実現しなければならない(いわゆる「SoC(System On a Chip)」の類となる)。


 セキュリティ面への多角的なハードウェア対応はもちろんのこと、接続性や拡張性に関しても、最新世代の技術への対応がなされている。


 無線LANはWi-Fi 7(IEEE 802.11be)に対応し、Bluetoothも最新の5.4を利用できる。外部機器との接続にはPCI Express 5.0バスとPCI Express 4.0バスをそれぞれ4レーンずつ用意し、IntelプラットフォームらしくThunerbolt 4ポートも統合している。


 なお、Lunar LakeのThunderbolt 4ポートはPCI Express 4.0/5.0バスとのレーンとは“別枠”で用意されている。


 ここまで見ると「Lunar Lakeは完成度が高い」と思ってしまうのだが、すごく細かい所まで見ると、気になる点がないわけではない。


 ハイパースレッディング機構の廃止は一定の合理性があるので理解できる。「AI PC」を訴求する関係で、GPUでXMXが復活し、NPUも一気に3倍の性能に引き上げているのも、開発コンセプトと合致する。


 問題は、メモリ回りだ。


容量:「AI PC」に最大32GBは心もとない


 第一に最大メモリ容量が32GB止まりという点が気にかかる。チップ上にメモリを置く設計もあってか、DIMMスロットなどを活用しての増設は想定されていないし、当然ながらチップ上に実装されているメモリを換装することもできない。


 AI PCというコンセプトが「小規模な推論モデルを実践(実行)する」程度なら32GBのメモリでも十分だとは思う。しかしIntelは「本機単体で大規模な生成AIをローカル動作させられる」と強調していた。そうなると「32GBでは心もとなくない?」とどうしても思ってしまう。


 ちなみに、Core Ultraプロセッサ(シリーズ1)では、Lunar Lakeと同じ15Wクラスの製品(Uプロセッサ)でも最大96GBのメモリをサポートしている。


メモリバス:狭いがゆえに速度が出ない


 第二にメモリバスの狭さとメモリー帯域の狭さも気になる。この部分も、残念ながらCore Ultraプロセッサ(シリーズ1)のUプロセッサに対して見劣りする。


 Core Ultraプロセッサ(シリーズ1)のUプロセッサでは、LPDDR5X-7500規格のメモリモジュールを使うと毎秒120GBのアクセススピードを確保できた。しかし、これがLunar Lakeの場合、メモリモジュールこそ、より高速なアクセスに対応できるLPDDR5X-8500規格なものの、メモリバス幅が半分の64bitしかないため、アクセス速度は毎秒68GBにとどまる。


対策:ラストレベルキャッシュを搭載


 Intelも、この問題に対して無策なわけではない。メモリアクセス性能を補うべく、「Memory Side Cache」と呼ばれる、8MBのラストレベルキャッシュメモリを搭載した――ということである。


 AI系の学習/推論処理、各種グラフィックスレンダリングやレイトレーシング処理において、このキャッシュメモリがどの程度パフォーマンスを向上する効果を持つのか、興味が集まる所だ。


    ランキングIT・インターネット

    前日のランキングへ

    ニュース設定