4月1日、ついに「Apple Intelligence」の日本語利用が可能になった。日本時間の未明にOSのアップデートが一斉に公開され、最新版の「iOS 18.4」にアップデートしたiPhone、「iPadOS 18.4」にしたiPad、そして「macOS Sequoia 15.4」にしたMacでは、すぐに日本語で待望のApple Intelligence機能が使える。
一体、これはどのようなAI技術で、他社のAIサービスとどう違うのだろうか。
●今のAIの使い方で最も堅実な部分だけを抽出
日本でも提供が始まったApple Intelligenceは、これから始まるApple製OSの新時代の幕開けだ。ただ、現時点で提供が始まっているApple Intelligenceの機能は、ほんの第一歩でしかなく、まだ未熟な部分も多い。これまでAppleのOSは、メジャーアップデートの度に新しい機能を追加して進化をしてきたが、これからはこれらのOSの進化は、機能の追加というよりも「Apple Intelligenceがより賢くなる」と言う形の進化に徐々にシフトしていくだろうと思っている。
|
|
では、このApple Intelligence、どこがすごいのだろうか。
今日、多くの人がAIとして慣れ親しんでいるのはOpenAIの「ChatGPT」のような対話型のAIサービスだろう。まるですごく昔のコンピュータがそうだったように、文字で何かをタイプすると、それに対して反応が返ってくるという形のサービスだ。
最近のこういった対話型AIの中には、声やカメラで指示ができるサービスも追加され始めてきているが、基本は対話型での利用にとどまる。結果は驚くほど質が高いことも多いが、とんでもないデタラメなこともまだまだ多い。
どのような文で指示をするかで、結果の品質が変わることも多く、本来はどんな指示であれAIが人間の意思をくみ取って良い結果を出すべきなのに、わざわざ人間の側がAIに合わせてプロンプトを書く術を磨く「プロンプトエンジニアリング」なる言葉まで生まれている。
そんな時代に、遅れてAIサービスを開発したAppleは、どのような技術を出してきたのか?
|
|
Appleといえば、デジタルライフスタイルのブランド企業だ。ファッションやインテリアの有名ブランドがそうであるように、ブランドの看板を背負った企業は、基本的に顧客に対しての責任意識が強く、それだけに顧客に不快な思いをさせたり、ましてやウソの情報を提供したりといったことはなかなかできない。
そこでAppleが行ったのは、現在のAI技術のうち、ある程度以上の品質が確実に期待できる使い方だけを抽出。そうした堅実な使い道だけをいくつか厳選して、OS機能として組み込んだのだ。
今回のアップデートで提供されたのはテキスト整形の「作文ツール」、iPhoneのカメラが捉えた被写体についての情報を提供する「ビジュアルインテリジェンス」、画像を生成する「ジェン文字」(Genmoji)と「Image Playground」、他に通知に優先順位をつけて重要なものから表示する通知の要約機能、そしてより高度なやり取りができるAIアシスタント機能「Siri」の進化の4つが中心となっている。
これに加えて、写真に写り込んでいる余計な被写体を削除するクリーンアップなどは既に先行して提供されている。他の機能については表にまとめた。
ChatGPTやClaude、Geminiといった対話型AIを使いこなしている人の中には、「今時、AIではもっといろいろなことができる」という人もいるだろう。
|
|
しかし、冷静に、そのうちどれだけの使い方が実用的かを考えてもらうと、実際にはこの程度になるのではないだろうか。
●抽出したAIの使い道をOS機能にブレンド
Apple Intelligenceの2つ目の特徴は、AIをOSの基本機能に融合していることだ。
厳選したAI機能は、ChatGPTのような対話型インタフェースで提供するのではなく、どんな場面でどんな風に役立つ機能かを吟味した上で、その作業手順の中に自然にブレンドしている。
例えば今、ChatGPTなどで文章を清書する場合は、一度、ワープロアプリなどで書いた文章をコピーして、ChatGPTに「以下の文章を清書してフォーマルな文章にして」といったプロンプトの後にペーストし、結果を見て問題がなければ、それを再びコピーしてワープロにペーストし直している人が多いのではないだろうか。
これがApple Intelligenceでは、原稿を書いているワープロソフト上で文章を選択して「作文ツール」というApple Intelligenceのパレットを呼び出して、そこから校正をさせたり、文体を変えさせたり、文章を表や箇条書きに変換したりできる。例えば文体を変えるためにも、これまではChatGPTにいちいち「フレンドリーに」とか「フォーマルに」と入力していたと思うが、よく行うであろう作業はパレットに項目として用意されており、クリック1つで選ぶことができる。
ワープロだけでなく、電子メールやメッセンジャーアプリといった文字入力をするほとんどのアプリで、この機能を直接利用できる(対応するMacでも、iPadでも、iPhoneでもだ)。
そしてプロンプトの上手い下手で成果が左右されることもなく、常に一定以上の品質の結果を得られる。
ご存知の通り、Apple IntelligenceはChatGPTと連携を行っており、作文ツールではプロンプトを書いてChatGPTに作文をさせることもできるが、この際もいちいちChatGPTアプリ(またはブラウザ)とワープロアプリを往復しながら、コピー&ペーストする必要がなく、ワープロアプリ画面の書類上で直接、文章を生成して挿入できる。
同様に絵文字を拡張したジェン文字機能も、普通に絵文字キーボードの一部として組み込まれていて、その場で好きな表情の絵文字を生成して送信できる(アプリがジェン文字に対応していない場合は、画像として送信される)。
Image Playgroundも、ビデオ編集ソフトの「Final Cut Pro」を始めとする対応アプリの画像挿入のメニューに追加されるので、アプリを切り替えることなくその場で絵を生成して挿入できる。
中でも一番、OSに自然にブレンドされているのはビジュアルインテリジェンス機能だろう。例えば、紙の舞台プログラムに書かれた概要の文章を、この機能で呼び出して撮影して要約させ、iPhoneの明るく読みやすい画面で確認するといった使い方は今後増えるのではないだろうか。
OS統合型AIをうたったものの、ただOSやアプリのウィンドウに対話型AIとチャットする欄を追加しただけの「単純合体」のものが少なくないが、それぞれの用途に応じて、丁寧にブレンドしていたりする細やかな仕事ぶりは、Appleらしいといえるかもしれない。
●実態は汎用AIではなく、複数のAIを使いこなす番頭
Apple Intelligenceの3つ目の特徴は、その本質が番頭型AIであることだ。
多くのAIサービスが、どんな仕事でもこなす汎用(はんよう)型のAIを作っているのに対して、Apple Intelligenceで核になっているのは、ユーザーからどんな仕事を振られたかを見て、この仕事ならばiPhone単体で処理ができるとか、この仕事は少し複雑だからプライベートクラウドコンピュートというサーバ上で処理した方がいいとか、これは複雑なテキストのやり取りだから、こういう仕事はChatGPTに外注した方がいいとか、仕事の内容と適性を見て適材適所でそれを他に振っていく番頭さんのような機能があることだ。現在の外注先はChatGPTだけだが、今後、他のAIと連携する可能性もある。
ひっそりと公開されたAIモデル「MGIE」など、いくつか学術的評価の高い画像生成AIを開発してきたAppleだが、今回から利用可能になった画像生成機能のImage Playgroundやジェン文字では、これらのMLLM(Multimodal Large Language Model)に仕事を振っているようだ。
汎用性の高いChatGPTは既に述べた作文ツールに加え、Siriにちょっと難しめのことを聞いた場合やビジュアルインテリジェンスからも頻繁に用事を頼まれている。
なお、ChatGPTは間違った答えを出すことも多い「Appleブランド」ではないサービスだ。その品質には責任が負えないと言わんばかりに、Apple IntelligenceがChatGPTに仕事を外注するときは毎回必ず「ChatGPTを使用しますか?」とユーザーに確認を取る。
既にChatGPTに加わる新たな外注先のウワサがいくつかあり、人気対話型LLMのClaudeの名前も上がっているが、処理の外注先はAIとは限らず、今後はアプリもApple Intelligenceと連携できるようになる。
例えば、路線検索アプリに「インテント」という仕組みを追加すれば、Apple Intelligenceが、そのアプリの知恵を拝借してユーザーに聞かれた駅への乗り換え情報を教えられるようになる、といった具合だ。
このようにApple Intelligenceは時間の経過と共にAppleによっても「新たにできること」が追加されれば、他社によっても「新たにできること」が追加されていく。
5年後くらいには、おそらくどんなことを頼んでも一通りこなしてくれるように進化するのだろうが、それまでの過渡期の間、Apple Intelligenceに何ができて何ができないかを、いかにユーザーに把握させるかはAppleにとって大きなチャレンジになるだろう。
●プロンプト技術不要で誰もが使えるAI
Apple Intelligenceの4つ目の特徴は、プロンプト不要でとにかく簡単に使える設計になっていることだ。
1984年、マウスでの操作を一般に広めた初代Macの誕生は、それまでの“呪文のような命令語”をうまくタイプしてくれる人しか使えなかったMS-DOSやApple IIなどのパソコンとは異なり、そもそもどんな操作ができるかが全てメニューとして表示されており、誰でも数十分で基本操作を把握できるようになっていた。
これまでのAIとApple Intelligenceへの移行でも、同じような使いやすさの革命を起こそうとAppleは思っているようだ。
例えば作文ツールを使った文章の清書も、あらかじめパレットによく使うであろう清書のパターンがメニューとして用意されているので、プロンプト的なものを一切書かずにワンクリックで清書も行える。
一方、画像生成のImage Playgroundも元にする写真を選んだり、背景やアクセサリーなどをクリックして選んでいくだけで画像が生成される。一応、プロンプトの入力欄のようなものもあるが、ここにいくら「シンプルな線画で猫の絵を描いて」といったことを書き込んでも、ちゃんと反映されるのは何を描くかだけで、「シンプルな線画」といった部分は全て無視される。
どのようなスタイルの絵になるかは、Image Playgroundの画面の下にある「スタイル」で決定される。現段階では「アニメ」「イラスト」「スケッチ」の3種類が用意されているので、これを使って切り替える。
このアプローチの強みは生成した絵を並べた際に、全てが同系統のスタイルでそろうことだ。
ただ、用意されている3つのスタイルのどれもあまり好みでない筆者のような人間には、全く使う気になれないツールとなるかもしれない(これについては後述する)。
Image Playgroundではプロンプトを打つこともできるが、基本は撮影しておいた写真を選んで、そこに背景(ディスコ、山、星空など)や身につけたいアクセサリー(帽子、スカーフ、サングラスなど)をクリックで追加していくだけだ。ほとんどキーボードを使わずに絵を生成できる。
●徹底したプライバシーへの配慮がベース
そしてApple Intelligenceの5つ目の特徴は、AppleのハードやOSがそうであるように、とにかくプライバシーを最重要視した設計になっていることだ。新しいSiriをiPhoneで呼び出すと、画面の縁がカラフルに輝き始める。この光がついている間は、ユーザーとのやり取りを覚えているので「シンガポールの人口は?」と聞いた後、続けて「マレーシアは?」と聞いても答えてくれる。しかし、この光が消えると、Siriの記憶も消える。
同様に、ユーザーが知らない間に勝手に利用されることがある、サーバ上のAI処理、プライベートクラウドコンピュートも同様に処理が終わったら即座に記憶が消され、その痕跡が残ることがない。
AppleではないChatGPTに外注した処理でも、ChatGPTにいちいちやりとりの内容を忘れさせるように配慮をしているようだ。
2024年のWWDC(世界開発者会議)では、いずれApple Intelligenceがカレンダーの予定も参照して、割り込んできた予定によって子供を迎えにいく時間がどう変わるかなどについてアドバイスをするシチュエーションが紹介された。
残念ながら、まだ英語圏のApple Intelligenceでもそこまではできないが、いずれできるようになった時、この情報が、しっかりとプライバシーが守られていないと自分の予定や居場所、子供が何時にどこにいるかといった情報までがハッカーなどの手に渡る危険があり安心して仕事を任せられない。
それだけにAppleは「そんなところまで?」と驚くような細かなところまで、時には少し使い勝手を犠牲にしてまでプライバシーの保護にこだわっている(例えば前回Siriに伝えた内容は覚えていないし、自分の趣向なども学習してくれない)。
ここまで徹底してプライバシー保護に細心の注意を払っている、だから他の会社では提供できない、最もプライベートな事柄についてもアシストが可能になる、というのがAppleのAIに対する考え方だ。
●今後はもっと文化的にニュートラルな方向に進化してもらいたい
ここまでの5つの特徴は、いずれも素晴らしく、AI系サービスの中でもApple Intelligenceをユニークな存在として際立たせているが、もちろん、いいことばかりではない。
まずは先にも触れたが、一体どんなことができるのか全体像がつかみにくいことだ。ただ、それで言えば、これまでもそもそもOSにどんな機能が用意されているかも手探りだった。
プロンプトを打ってみないとできるかできないか分からない対話型のアプローチよりも、あらかじめできることがメニューやアプリとして用意されている分、Apple Intelligenceの方が分かりやすいという人もいるかもしれない。例えばビジュアルインテリジェンスなどの機能は、現時点ではまだ日本語ではお店の情報などを調べることができないが、今後、突然そうしたことができるようになった場合、ユーザーはそれをどのようにして知るのだろう、という疑問がある。
個人的に、それ以上にApple Intelligenceで一番残念なのは、画像生成のImage Playgroundだ。
プライバシー保護など、さまざまな理由からできるだけデバイス上での処理に重点を置いているため処理能力が低く、他の描画AIと比べると描ける絵の質が低く、iPhoneを描かせてもAndroidのようになり、Apple Vision Proが他社の安価なゴーグルのように描いてしまうことはある程度は妥協しよう。
だが、個人的な好みの問題もあるのかもしれないが、現在のImage Playgroundで生成される絵柄のスタイルが、アメリカンテイストが強めで文化の押し付けを受けているように感じる。できれば、もっと多彩なスタイルを提供するか、開発者が独自の描画スタイルをプラグインとして提供できるようにしてもらいたい。
そもそも最初からアクの強いスタイルを搭載するのではなく、最初はできるだけニュートラルなところから始めて、後から個性の強い絵柄をプラグインで追加すべきだったと思う(どっちの順番にするかで大きな差が生まれると思う)。
この辺り、最近のAppleは鈍感になって、普通のアメリカ企業になってきた印象を抱くことが最近増えている。ミー文字(Memoji)やジェン文字にも同じ印象を持っていれば、iPhone 16eのTV CMなどにもそれを感じている。
初代iPhoneが登場した当時などは、世界中の人に受け入れてもらえるように、できるだけ「やり過ぎない」ことを心がけ、製品のあらゆる側面が洗練に洗練を重ね、誰にも受け入れられる中立かつミニマルな表現に抑えられていた。
スティーブ・ジョブズ氏が存命中の時は、ピカソが「雄牛」という作品を描くにあたって行った絵のシンプル化のプロセスを社員に見せて、いかに「削ぎ落とすか」を教えていたというのは有名な話だ。ジョブズ氏は亡くなる直前に、「自分が生きていたらどうしたかは考えず、とにかくベストを尽くせ」と言い残したのは有名な話で、ティム・クックCEO体制のAppleは、いくつもの新しいやり方を生み出して成功しており、それは評価している。
ただ、Appleはグローバルで影響力が大きい企業だし、毎年数億台単位で売れる自社の製品がそのユーザーにどのような文化的な影響を与えるかに関してだけは、かつてのセンシティブさを取り戻してもらいたいと思っている。
とはいえ冒頭でも触れた通り、現状はまだまだApple Intelligenceの初期バージョンだ。これからApple Intelligenceの機能は、おそらく10年くらいかけてどんどん進化していくので、3年後くらいには、この記事で書いたような心配事も全て解消されている可能性もある。少なくとも、世界中が今のImage Playgroundの絵柄に世界中が慣れてしまうのではなく、もっと自分の文化的背景や個性を表現するためにApple Intelligenceを活用できている未来を期待したい。
|
|
|
|
Copyright(C) 2025 ITmedia Inc. All rights reserved. 記事・写真の無断転載を禁じます。
掲載情報の著作権は提供元企業に帰属します。