ArmアーキテクチャのPC/モバイル向けプロセッサとしては、最速となる5GHz駆動をアピールして登場したのが「Snapdragon X2 Elite」シリーズの最上位モデル「Snapdragon X2 Elite Extreme」だ。
搭載製品の登場が2026年と予告されており、実際に市場で製品を入手できるまで数カ月から半年先の話となるが、「省電力だがx86プロセッサの上位モデルにはパフォーマンスでやや見劣りする」と言われていたSnapdragon搭載Windows PCが、パフォーマンス面でもそのメリットをアピールしつつある。
パフォーマンス向上を目指す一方で、Armをベースとしたアーキテクチャを生かして引き続き省電力面での優位性も保持しており、両者のバランスを取った結果生まれたのがSnapdragon X2 Eliteといえる。
近年ではPCに求められるワークロードも幅が広がっており、生産性アプリケーションのみならず、クリエイティブからゲーム用途、さらには来るべき時代に求められる“Agentic AI”な世界に向けたハードウェア/ソフトウェア両面からの“地ならし”まで求められる。これらをSoCという限られたスペース内で要件がせめぎ合い、バランスを取ることで1つの製品として完成した。
|
|
今回は、2026年以降のPCの世相を占うとも言えるSnapdragon X2 Eliteの内部的なチャレンジについて、先日開催されたSnapdragon Summit 2025での情報を整理したい。
●AMDとIntelのハイエンドPC市場に切り込む製品
Snapdragon X2 Eliteは、現在発表されている範囲で3つの製品ラインアップが存在する。1つはシリーズ名にもなっているSnapdragon X2 Eliteで、従来の「Snapdragon X Elite」シリーズの後継にあたる「1000ドル台」のPCをターゲットにした製品だ。
第3世代のOryon CPUコアを搭載し、12のPrime Coreと6のPerformance Coreを備える。以前のSnapdragon X Eliteでは12の同一のOryon CPUコアによる“ホモジニアス”な構成を採っていた。
しかしSnapdragon X2 Eliteでは、より高速なPrime Coreと省電力性でメリットがあるPerfomace Coreの2種類を使い分ける“ヘテロジニアス”な構成に変更されており、以前までの同社製PC向けプロセッサでみられた省電力性を、より重視する構成に回帰している。
|
|
この派生モデルとしてPrime Coreを6つに削り、ブースト動作時(コアの性能を短時間だけ引き上げる仕組み)の最大動作クロック周波数や、内蔵キャッシュ容量を抑えた廉価版のSnapdragon X2 Eliteも用意される。
3つ目として今回用意されるのが、Snapdragon X2 Elite Extremeだ。CPUのコア構成は通常版のSnapdragon X2 Eliteと同等の12+6だが、動作クロックがPrime Coreは最大4.0GHzから4.4GHz、Performace Coreも3.4GHzから3.6GHzへと引き上げられている。
GPUコアのAdrenoも動作クロックが1.7GHzから1.8GHzへ高速化しており、LPDDR5xメモリのアクセス速度も毎秒152GBから毎秒228GBへと向上している。
前述のように、Snapdragon X2 Eliteが従来のSnapdragon X Eliteの製品ラインアップ並びに価格帯をそのまま置き換えることを意図して投入されるのに対し、Snapdragon X2 Elite Extremeは明確にそれと差別化を図ることで、さらなる上位モデルとして位置付けられている。
つまり、IntelやAMDといったWindows PC界のライバルらが市場でしのぎを削っているゲーミングPCやクリエイター向けPCなど、ハイエンドPC領域への参入を強く意識した構成と言えるだろう。
|
|
●薄型軽量PCに採用されるコアを目指す
PC市場は、ボリュームゾーンが普及価格帯とされるミドルレンジ中心とされるのに対し、利益率も高く製品ラインアップでも注目されやすいのがハイエンドだといえる。
近年では、特にゲーミングやクリエイター向けPCの活用に注目が集まったことで、必然的にこの分野へと積極的にPCを投入するメーカーが増加した。「Snapdragon X2 Elite Extremeも当然、この市場をターゲットに……」と思われるが、必ずしもライバルのプロセッサ企業らと同じ道をたどらないのもまたQualcommらしいところだ。
基本的に、製品群は薄型ノートPCや小型デスクトップPCなど、軽量なフォームファクターを志向している。米Qualcomm TechnologiesのCompute部門担当製品管理シニアディレクターのマンダ・デシュパンデ(Mandar Deshpande)氏は、インタビューの中でSnapdragon X2 Eliteのパッケージ構成について次のようにコメントしている。
「今回、SoCのパッケージに192bitのバス幅を持つメモリを封入するMoP(Memory on Package)を採用しているが、このアーキテクチャを選んだ理由の1つはシステムコストだ。
メモリそのものは外部ベンダーから購入することになるため、192bitの選択はそのバランスを取った結果となる。そしてメモリを統合するアーキテクチャを採用した一番の理由は、あらゆるフォームファクターで採用可能なパッケージを開発するためだ。
われわれは薄型軽量PC向けの製品を確実に開発するためのビジョンを掲げており、それをコンパクトにすべく最善の方法がフットプリントの小さいDDRメモリをパッケージに搭載することだった。もちろん外部にメモリを搭載する選択肢もあるが、それでは比較的大きなPCしか選択肢がなく、PCB(Printed Circuit Board)も大型のものになる」(デシュパンデ氏)
なお、Qualcommで公開されている製品スペックシートによれば、Snapdragon X2 EliteのMoPで搭載可能なメモリの最大容量は128GBで、Snapdragon X2 Elite Extremeのみ「128+GB」と128GB以上の容量が示唆されている。
これについてデシュパンデ氏に確認したところ、「顧客の要望があれば128GB以上の容量も選択可能だ。ただし当初は48GBで製品が投入される」という。
この他、ExtremeではないバージョンでMoPではないオンボードDDRをサポートするSnapdragon X2 Eliteのバージョンが存在するという。メモリのバス幅は128bitとなるため、より高性能を求めるのであれば選択肢としては通常のMoP版の方がベターなようだ。
●パフォーマンスと省電力のバランスをいかに採るか
一般にプロセッサのパフォーマンスを向上させようとすると、(トランジスタ数が増加するため)半導体の“ダイ”サイズが大きくなり、それに伴って消費電力も上昇する。コスト上昇や発熱の原因となるが、これを抑えつつ性能向上を実現するのが製造プロセスの微細化と改良であり、その進化サイクルは「ムーアの法則」などと呼ばれたりする。
Snapdragon X Eliteも前世代ではTSMCの4nm製造プロセスを用いていたが、今回のSnapdragon X2 Eliteでは同じくTSMCのN3Pのプロセスを用いており、特に重要な部分のみN3Xを用いることで微細化の世代が3nmまで上昇している。
結果として、CPUコアでは50%の速度向上が実現し、GPUでは最大2.3倍、NPU性能でも8割近く上昇して80TOPSを実現している。前述のデシュパンデ氏によれば、製造プロセスの変更ももちろん大きいが、ハードウェアからソフトウェアまで、アーキテクチャ全般にわたるチューンアップで効率化を実現できたのが大きいという。
ただ、ダイサイズはコストに直結するため、これら全体の性能向上を図った場合、どの機能にどれだけチップ上の面積を与えるかが大きな鍵となり、このバランスが重要となる。
加えて、Qualcommの講演やインタビューでは毎回のように「省電力」が最重要ポイントとしてキーワードとして頻出しており、これがいかに設計に影響を与えたのかが分かる。
例えば興味深いのが、今回のAdreno GPUで採用されたHPM(High Performance Memory)という仕組みだ。GPUコアが内蔵する18MBのSRAMキャッシュだが、これはもともとSnapdragonが持っていたGPUキャッシュの仕組みを外部からAPIなどを通して利用できるようになったもので、高速メモリアクセスを実現する。
米Qualcomm TechnologiesバイスプレジデントでAI/生成AI担当製品マネジメントのヴィネッシュ・スクマール(Vinesh Sukumar)氏によれば、「歴史的にみて、消費電力の40%はメモリと計算モジュールの間のデータ転送にかかっており、SRAMユニットを計算ブロックの近くに配置することで速度向上と省電力化を実現している」(同氏)という。
つまり、データ転送のオーバーヘッドを軽減させるだけで速度向上と省電力が両立できるという考えだ。
この消費電力の話題はAI処理にもからむ。例えばSnapdragon X2 EliteではNPUの推論処理にFP8をサポートした。浮動小数点演算の型だが、一般的なAIアプリケーションの推論処理ではそれほど演算精度を求められないため、浮動小数点でもFP16(単精度)やFP32(倍精度)より軽量動作が可能なFP8のような型が好まれる。
これにより、データの転送量やメモリ占有量が半分または4分の1程度まで減少するので、いわゆる“エッジAI”のようなローカルデバイスでのAI動作における恩恵が大きい。
一方で、同じデータ転送量やメモリ占有量となるINT8のような整数型をAIの推論処理に用いた場合、消費電力はFP8よりも大幅に削減できる。理由は小数点演算よりも整数演算の方が負荷が軽いからだ。
動作させるLLM(大規模言語モデル)の種類にもよるが、学習データを工夫することでエッジデバイスでのAI動作が消費電力の面で大幅に軽くなることを意味しており、開発者らは演算精度と消費電力のバランスをみてどちらを選択するのかを選ぶことになる。
●80TOPSが意味するものと「1秒未満のレスポンス」
初代Snapdragon X Eliteがリリースされたとき、AIの処理性能が「45TOPS」と言い立てられ、Microsoftもまた同社の新しいプラットフォームである「Copilot+PC」のスペック認定基準を「40TOPS」に定めた。
TOPSは「Tera Operations Per Second」の略称で、つまり1秒間に何兆命令を実行できるかのAI性能を測る数値だが、実際にこの数字を分解してみると別の側面が見えてくる。
昨今のAIは現在の学習モデルの主流であるTransformerを中心に、大量の行列演算を繰り返すことで実現されている。行列演算とは「行列」を掛け合わせる処理のことで、内部的にはひたすら数字同士の掛け算と足し算を行うMAC(積和)演算を繰り返すことを意味する。
Hexagon NPUでは行列(テンソル)処理のためにTensor(行列/テンソル)/Scalar/Vectorの3種類の演算ユニットを持っており、これらの演算ユニットの組み合わせでAI推論処理性能が変化する。
前出のスクマール氏によれば、現在のLLMでは出力結果に影響するコンテキスト長が日に日に長くなってきており、結果としてソフトマックス(Softmax)関数の処理がその増大にともなってボトルネック、つまりレスポンスの低下となって表れる。
これを改善するのはベクトル処理ブロックの高速化、つまりVectorユニット数の増大で、より長大なコンテキストをスムーズに処理できるようになる。
一方のScalarユニットは、例えばLLMのコンテンツ作成で画像を取り扱う場合、その解像度は要求によって毎回大きく変化するので、不規則なデータをスムーズに処理するにあたってScalarユニットの強化は大きな効果を得られるという。
そのため、ScalarとVectorについてはユニット数が増加しているものの、Tensorについては性能自体の強化は行っているが、コアそのものは1つで変化がない。これについて同氏は「将来的に増やすことは可能だが、現在のユースケースではモジュール数こそ増えているもののあくまでユニットとしては1つ」と述べる。
またNPUの高速化について同氏は「前世代に比べてソフトウェアの最適化だけでレイテンシーを15〜20%ほど改善できることが分かった。演算ユニットの強化による高速化もさることながら、以前(40TOPS)の2倍の実現を目標値として、それら全てを組み合わせることで実現できた」とも述べている。
FP8サポートと並んで今回のトピックとなっているNPUでのINT2サポートだが、INT2とは2bitの整数型、つまり実質的に4つの数字(正負)のデータのみを扱うような形となる。
前出のように、INT2を採用する最大のメリットは処理にあたっての必要メモリ量の低下だ。スクマール氏は例として「70億パラメータ(7B)のモデルを16bitで実行すると約13GBのメモリが必要になるが、4bitであればその4分の1、これを2bitにするとさらにその半分で約1.75GBになる。つまり2GBのメモリで70億パラメータのモデルがサポートできる」と説明する。
単純にメモリのみならず、ビット深度が低下した分だけデータ転送容量も減少することになり、より軽量動作が可能になる。クラウドで学習を行い、エッジAIで動作させるのに最適な仕組みといえる。
これによって生じるデメリットは精度の低下で、計算が高速/軽量化された一方で、本来ビット深度のより高い浮動小数点演算や整数演算で実現されていたAI推論の精度は落ちることになるというのは、2024年に同氏がインタビューで述べていた通りだ。
向き不向きもあり、例えば画像処理をINT2やINT4などで行おうとするとディテールが処理の過程で失われていくため、より重い浮動小数点演算が求められるようになる。逆に日々の軽微な判断などはINT2などでも問題ないケースも多く、使い分けが重要となる。
INT1のような、より軽量な動作が可能な仕組みも検討されているが、これについてスクマール氏は「精度を落とさないためのモデル学習により時間が必要になる」と述べており、やはりバランスが重要というスタンスだ。
現状で80TOPSの性能をフルに活用するAIアプリケーションのケースがあるのかと考えると、一般的な用途ではなかなか思い付かなかったりする、とはいえ、Qualcommを含む推論AI向けNPUの開発を行う各社がより一層の性能強化に向かうのは将来に向けての布石であり、その鍵となるとなるのは「1秒のレスポンスにある」とスクマール氏は言う。
「理由の1つはAIエージェントによる減衰にある。AIエージェントは単一のモデルはなく、例えば音声対話の場合は音声のテキスト変換がまず行われ、次に送られてきたテキストに応じて分類モデルを呼び出し、次にタスクに応じてナビゲーションやエンターテインメントなど必要なタスクを呼び出す。
これらタスクをドメインと呼んだとき、例えば生産性ドメイン内ではメール作成やメール要約などの機能があり、ドメイン内にも複数のタスクが存在する。これらがそれぞれ1つの別のタスクであり、これらが連鎖することで処理が実行される。
利用者にとっての最終目標はエージェントを呼び出して応答が返って来ることで、優れたヒューマン・マシン・インタフェースを実現するには応答が1秒未満である必要がある。
このように何個ものモデルが連携してシリアル(連続)で実行されると計算負荷が増え、レイテンシーを1秒未満に抑えることが難しくなる。解決方法としては先の説明のように(精度を落として)モデルを小さくしたり、例えば英語のみをサポートしたりして日本語をサポートしないといったりした妥協が必要になる。だからこそ投資を増やし、人々はエンド・ツー・エンドでの遅延を低減するために工夫が必要になる。
|
|
|
|
Copyright(C) 2025 ITmedia Inc. All rights reserved. 記事・写真の無断転載を禁じます。
掲載情報の著作権は提供元企業に帰属します。