Galaxy S24シリーズの目玉機能「Galaxy AI」を全方位で検証 スマホ体験が大きく拡張される!

0

2024年04月11日 17:21  ITmedia Mobile

  • チェックする
  • つぶやく
  • 日記を書く

ITmedia Mobile

Galaxy AIは「Galaxy S24」シリーズの目玉機能だ

 Galaxy S24シリーズの目玉機能「Galaxy AI」。通話翻訳、文字起こし、画像編集……といった具合に多くの新機能が発表された。このレビューでは、「Galaxy AI」の名の下に集いし新機能を検証した。


【その他の画像】


●「Galaxy AI」はオンデバイスとクラウドを併用 2025年までは無料で利用できる


 Galaxy AIは、Galaxy S24シリーズとともに発表されたGalaxyスマートフォンの新たな看板機能だ。以下のようなことができる。


・機内モードで翻訳する


・会話した内容を文字起こしする


・通話を文字起こしする


・録音やWebサイトを要約する


・写真の被写体の位置を動かす


・画像生成で壁紙を作る


・動画をスローモーション再生する


 Galaxy AIには現時点で対話機能はない。それどころか「Galaxy AI」というアプリがあるわけでもない。スマホ内の随所に統合されており、「キラキラの絵文字」が目印だ。多くは生成AIを用いた機能だが、アプリを使う一連の流れの中で、スムーズに利用できるように工夫されており、ChatGPTのように質問を考えたりする手間もない。


 Galaxy AIは、対象のGalaxyスマートフォンのユーザーには2025年までは無料で提供される。ただし、2026年以降のGalaxy AIの提供形態については明らかになっていない。 


 Galaxy AIでは、オンデバイス処理とクラウド処理の2種類のタスク実行方法を使い分けている。


 オンデバイス処理は端末側に学習済みの言語モデルをインストールしておいて、実際にデータを処理する段階ではローカル環境で行うものだ。通信を必要としないためレスポンスが早く、オフライン環境でも利用できる。データ処理がオフラインで完結するため、プライバシーの観点から重要なデータを扱うのに適しているとされる。


 クラウド処理は、5GやWi-Fiなどでデータを送信し、サーバ上で処理する。スマホでは扱いづらい大きなデータや、複雑なタスク処理に適している。サーバを設置する費用がかかるため、サーバ運営者としては負担になる。


 オンデバイス処理の性能は、スマホに搭載されているSnapdragonプロセッサのNPUに依存している。一部の機能については、最新のGalaxy S24ではオンデバイス処理が可能だが、旧世代モデルではクラウド処理を利用する必要があるかもしれない。この場合、旧世代モデルではレスポンスが多少遅くなる可能性がある。


 オンデバイス処理による通訳機能は日本語を含む13カ国語に対応している。対応言語は今後拡充予定としている。


Galaxy S23やZ Flip/Fold5もGalaxy AIをサポート


 サムスンはGalaxy AIの機能をGalaxy S23シリーズやGalaxy Z Fold5/Flip5、Galaxy S23 FEなどに展開するとしている。日本で発売済みのGalaxy スマートフォンのうちGalaxy AIが利用可能となる機種は以下の通り。


・Galaxy S24シリーズ(対応済み)


・Galaxy S23シリーズ(S23/S23 Ultra)


・Galaxy S23 FE


・Galaxy Z Fold5


・Galaxy Z Flip5


 Galaxy AIの多数の機能のうち、どの機能が移植されるかは明らかにされていないが、サムスン電子ジャパンの広報担当によると、「ほとんど全てが対象となる」という。Galaxy AIが目当てなら、旧世代モデルのGalaxy S23も利用できるようになりそうだ。


Galaxy AIとGoogleの生成AIの関係


 Galaxy AIは、Googleの生成AI「Gemini」シリーズを利用している。文字起こしのようなクラウド型のタスクでは、Google Cloud上で処理するGemini Pro/Ultraシリーズが活用している。一方、リアルタイム翻訳機能など、スマホ上で完結するオンデバイス処理のAIタスクにはGemini Nanoが用いられているようだ。


 なお、サムスンは具体的にどの機能にどのAIモデル(LLM)を用いているかについては明確にしていない。一部に自社開発の言語モデルや、Google製ではない言語モデルを採用している可能性もある。


●検索が楽しくなる「かこって検索」


 「かこって検索」はAndroidの標準機能だが、Google Pixel以外ではGalaxy S24シリーズで先行して導入されている。この機能は、Google レンズの検索機能を拡張したものであり、スマホのどの画面からでも起動できる。画面内の検索したい対象を“かこって”指定することで、簡単に検索できるのが特徴だ。


 かこって検索は、さまざまな場面で活用できる。例えば、Instagram リールで見かけたファッションをショッピングサイトで検索したり、YouTubeショートで紹介されているガジェットについて深く調べたりするときに便利だ。また、カメラアプリ上で写した内容からも起動できるので、目の前にいる動物について調べることもできる。


●通話中の翻訳やテキスト表示はオフラインで動作する


 「通訳」アプリでは、対面の会話をリアルタイムで翻訳できる。オンデバイスで動作するため、外部に音声を保存する必要がなく、データも消費しない。


 通訳機能は電話での会話中に利用できるようになっている。通話では話した内容をテキスト認識→外国語へ翻訳→音声合成というステップを踏むことになるが、この一連の流れをオンデバイス処理で実現できている。


 通話口に話すと通話の文字起こしは逐次行われ、1秒もかからずに翻訳された内容が再生される。相手が食い気味に会話してくると難しいが、旅先の旅行カウンターで道を聞く用途などでは十分に使えそうだ。


 なお、通訳機能はボイスレコーダー機能と併用できない。つまり、通訳機能を使って外国人と会話した内容をプレゼン発表などについて質問しながら録音したい場合は、録音用と通訳用の機器は分けた方がいいだろう。


●通話をチャット感覚で行える「テキスト通話」


 通話中には「テキスト通話」と「リアルタイム翻訳」の2つの機能が利用できる。前者のテキスト通話は、通話を文字起こしして、合成文字で会話する機能だ。音声のテキスト化や処理はオンデバイスで行われる。


 テキスト通話は、通話を文字起こしして、テキストでやりとりする機能だ。音声のテキスト化や処理はオンデバイスで行われる。例えば、知らない番号からの着信に応答したくないときや、電車内など通話しづらい場面で重宝する。


 この機能を有効にすると、自分の声は相手に届かなくなる。Galaxyスマホがテキストに変換されて、通話相手には合成音声として再生される。相手の発話は、テキストに変換されて、チャット形式で確認できる。


 定型文として「今は話せません」「後でかけ直します」など、即座に送信できるボタンが4つ用意。状況に合わせて「電車なので後でかけ直します」といったメッセージをテキスト入力して送ることもできる。


 通話の音声は、男声と女声が選択できる。いずれも一聴して合成音声と分かるような声になっている。声を出さずにスムーズなコミュニケーションが取れる点が魅力だが、通話相手からすると心理的なハードルを感じそうな印象だ。込み入った内容のやりとりには不向きだが、宅配便などの事務的な連絡や、知らない通話相手とのコミュニケーションには効果的だろう。


●通話の「リアルタイム翻訳」は、ゆっくり話すなら十分実用的


 通話アプリはリアルタイム翻訳機能も備えている。この機能をオンにすると、自分が日本語で話した内容を、英語や韓国語などの外国語に変換してくれる。


 例えば、海外旅行先のホテルに予約確認の電話をする際、相手は英語で話し、こちらは日本語で話すような状況でもスムーズにコミュニケーションが取れる。自分が話した内容は逐次テキストに変換され、即座に翻訳されて相手に伝えられる。


 音声認識、翻訳、音声合成という一連の処理はオンデバイスで行われ、発話から翻訳音声の再生まで1秒もかからない。ホテルの受付のように、ゆっくりと話す相手なら十分実用的な会話ができるだろう。


 ただし、相手が早口で話した場合などは、聞き取りが間に合わず、誤訳によって意図が伝わらないこともありそうだ。また、テキスト通話と同様に人工音声でのやりとりになるため、相手に不審に思われる可能性もある。あくまで、旅先で自分が話せない言語での意思疎通を図るためのツールといったところだ。


 シンプルな会話なら、言葉の壁を感じずにコミュニケーションが取れるのは魅力といえる。旅先での問い合わせや、外国人との簡単な意思疎通には重宝しそうだ。


●ボイスレコーダーで通話録音の文字起こしが可能 精度はどう?


 ボイスレコーダーアプリには、「文字起こしアシスト」という機能が搭載されている。これは、録音した音声をテキストに自動変換する機能で、クラウドを利用して処理される。録音後にアプリから文字起こししたい部分を選択し、サーバに送信する必要がある。Googleの「Pixel」シリーズのように、オンデバイス処理ではないため、話を聞きながらリアルタイムで文字起こしを確認することはできない。


 Galaxy S24シリーズ発表会のプレゼンテーションを録音し、文字起こししてみた。45分間の録音に対して、かかった処理時間は4分弱だった。


 文字起こし結果はおおむね正確で、一度聞いたスピーチを文字起こしで振り返るといった用途ならば、特に修正を行わずとも、大意は把握できる。話者認識機能も適切に動作しており、4人の登壇者が適切に区別されていた。ただし、固有名詞や専門用語などはうまく判別できないことが多い。書き起こしだけからスピーチ内容を正確に把握するのは、ちょっとコツを要するかもしれない。


 複数の言語が混ざった録音では、複数回文字起こしの操作を行う必要がある。日本語を選択して文字起こしを行った場合、英語で発言された部分は正しく文字起こしされないため、言語選択を変えてもう一度文字起こしする必要がある。外国語で文字起こしした内容は、翻訳した上で要約することも可能だ。


 以前からある通話録音機能を活用すれば、電話した内容も文字起こしできる。通話時に録音ボタンを押すと、通話内容がレコーダーアプリに録音される。通話後、レコーダーアプリから「文字起こし」を選ぶと通話内容の要約が取得できる。


●録音、ノート、Webページの「要約」機能 アプリに統合されているのが強み


 ボイスレコーダーアプリで文字起こしした内容を、ワンタップで要約できる。「要約」機能もある。文字起こしした内容を、ワンタップで要約できる。長い録音の場合は、数分ごとに時間を区切って要約する形になっており、適宜見出しを付けている。要約の精度はCloud 3 Opsには及ばず、無料版ChatGPTのGPT-3.5と同等程度に感じられた。


 クラウドを利用したい文字起こしツールには、Galaxy AI以外の他の選択肢も多くある。例えば文字起こしは「ポケトーク」のようなアプリや専用デバイスもあり、要約機能はChatGPTなどの生成AIツールも活用できる。


 一方、Galaxy S24の文字起こしアプリでは、スマホの標準アプリに統合されているため、非常にシームレスに利用できる。操作の手間が掛からず、音声ファイルのやりとりなどの面倒な手順を経なくても文字起こしができる。こうした小さな手間がかからない点は、Galaxyならではの便利さといえる。


 要約は、ノートアプリでも利用できる。ノートに手書きで入力した内容をテキスト化して、その要約を作成することもできるため、ペン入力に対応する「Galaxy S24 Ultra」では、手書きした内容を文字起こしして、ノートのまとめを作成する用途にも使える。


 ただし、ノートの要約機能には200文字〜4000文字という文字数制限がある。手書きで走り書きした程度の文章では要約を作成することはできない(する必要もないかもしれないが)。


 「Samsung ブラウザ」には、Webページの要約機能が追加された。ボタンを押すだけで、ニュース記事の概要を読みやすい形で表示できる。要約の詳しさは2段階で選べる。要約した内容を翻訳することもできる。外国語のニュースをざっと把握したい時に便利だ。


●日本語入力に組み込まれたGalaxy AI 翻訳やスペルチェックも可能


 Galaxy AIは、テキスト入力機能「Samsung キーボード」にも組み込まれている。生成AIを使って文章のスタイルを変更したり、入力した文章を外国語に翻訳したり、外国語のスペルをチェックしたりできる。入力欄を自動で認識して読み取るため、手軽に使えるようになっている。チャットの翻訳機能はオフラインで動作する。チャットアシスト機能の文体変換やスペルチェックはオフラインで動作しないため、クラウドを利用しているようだ。


 チャットアシスト機能の「文章のスタイル」はより丁寧な言い回しや、SNS風の親しみやすい言い回しを提案する機能だ。「オリジナル」「プロフェッショナル」「カジュアル」「#SNS」「丁寧」「絵文字化」といった文章に変換できる。入力欄があれば、どのシーンでも利用できる。この機能はクラウド接続が必要となる。


 例えば、以下のようなテキストを入力したとする。


編集長、原稿が終わりません!!


助けてください!


 「フォーマル」を選んで変換すると、以下のような文章になる。


こんにちは、編集長。


原稿の締め切りが迫っていますが、まだ完成していません。


ご多忙中とは存じますが、ご協力をお願いできますでしょうか。


 「丁寧」ではこのように変換される。


編集長、原稿が間に合いそうにありません。


お手伝いいただけますでしょうか。


 「#SNS」では、このようになる。


助けてください!(号泣顔の絵文字) #原稿 #締め切り #SOS


 「フォーマル」はビジネスメールで使えそうな言い回しで、「丁寧」はSlackのようなビジネスメッセンジャーで気軽に使えそうだ。「#SNS」は、Instagramで見かけるようなハッシュタグを多用したトーンに変換される。「カジュアル」は、LINEやDiscordでの会話に自然になじむ言い回しになるが、ただ、普段の発言を知っている人からすると、まるで別人になったかのように感じられるかもしれない。


 この機能のいいところは、文字入力アプリに組み込まれている点だ。ChatGPTのような生成AIツールに指示を与えれば、同じような文章スタイルの変換はできるだろう。しかし、Galaxy AIではこの機能が入力画面からワンタップでアクセスできるので、より手軽に利用できる。また、変換後の日本語の言い回しも自然で違和感がないため、日常のやりとりにサラッと織り交ぜて使えそうだ。


 スマホ上のチャットアプリで表示されたメッセージの翻訳もできる。この機能はオンデバイスで動作し、メッセージの内容を逐次翻訳する。翻訳文はアプリのUI(ユーザーインタフェース)になじむように表示される。


 対応アプリはLINEメッセージ、+メッセージ、WhatsApp、シグナル、Instagram(DM機能)、カカオトーク、Googleチャット、Tangoなど。 X(旧Twitter)やFacebookなどのSNSアプリではこの機能は利用できない。意外なところでは、Facebookメッセンジャーは対応していない。


 チャットアシストにはスペルチェック機能もある。スペルの誤りを認識して、修正案を提案する。修正案はそのまま入力欄に貼り付けられるため、手間をかけずに文章を見直せる。


●生成AIを使った写真の編集機能も充実 背後の人を消したり背景を差し替えたりできる


 写真を印象的に見せるための加工術をAIが提案する機能「ジェネレーティブ写真編集」もある。生成AIによって、写真を手軽に編集する機能だ。


 被写体を選択して、位置を調整したり写真から削除したりできる。例えば、写真に写り込んだ知らない人を消したり、人の位置を動かしたりできる。SNSへの投稿写真から、写り込んでしまった知らない人を消したいときなど、プライバシーを守るためにも活用できそうだ。


 操作は「かこって検索」と同様にシンプルで、被写体をグルッと囲むと選択できる。選択した被写体を削除したり移動したりすると、その部分に空白が生じるが、生成AIがその空白を自然に埋めてくれる。人物を消した場合、背景がシームレスに補完される。また、被写体の一部を移動させた場合も、移動前の位置の背景が自動で修復される。ただし、複雑な背景や、被写体と背景のコントラストが低い場合は、補完された部分に違和感が残ることもある。


 Adobeの「生成塗りつぶし」に相当する背景の差し替え機能もある。写真の構図を調整するためにトリミングすると、被写体が構図に収まらなくなることがあるが、生成AIで余白の部分を自然に補完できる。背景がシンプルな方が成功しやすく、背景が雑多な空間だとうまく補完されない。


 写真によって異なる編集を提案する機能もある。ギャラリーアプリで写真の詳細を表示したときに、写真をよりよくするための提案を表示する。提案内容は、背景ぼかし、影を消す、長時間露光などがある。


 飛行機内で撮影した写真では「反射を消す」が提案された。提案ボタンを押しただけでは窓に映った物体を消しきれなかったものの、修正したい対象を手動で選択して、消去できた。


 Galaxy AIのジェネレーティブ編集には、「Adobe Firefly」のように任意のテキストプロンプトから画像を生成する機能はない。また、被写体の削除や背景の差し替えの際に、空白部分の補完についても細かい指示を与えることはできず、あくまでAI任せの編集となっている。


 生成AI画像編集ツールの中には、ユーザーがテキストで指示を入力することで、画像の一部を自在に編集できるものもある。しかし、Galaxy AIの画像編集機能はより保守的な作りになっており、シンプルな使い勝手を重視し、複雑になりすぎないように設計されているようだ。


●生成AIを使った壁紙の作成や動画のスローモーション再生も可能に


 壁紙の生成機能では、生成AIによる画像作成機能が取り入れられている。ユーザーはあらかじめ用意されたプロンプトのパターンから選択することで、抽象的で奇想的なイラストを壁紙として作成できる。


 「ギャラリー」アプリでは、動画再生時の機能として、「インスタントスローモーション」が追加された。


 これは、どんな動画でもスローモーションで再生する機能だ。操作は簡単だ。動画再生中に画面を長押しすると、スローモーション再生に切り替わる。


 なお、YouTubeやGoogle フォトの動画ではインスタントスローモーションは使えない。ローカルにダウンロードする必要がある。この機能は、生成AIが中間コマを補完して実現しているためだ。例えば、60フレームの動画に対して、AIが中間コマを生成し、滑らかにフレームレートを上げるのだ。


 例えば草野球の試合を録画して、スイングのフォームを分析する際に使えそうだ。山で遭遇した動物の動画を振り返りたいときにも役立つだろう。


●まとめ:Galaxy AIはスマホ体験を拡張するツール群だ


 Galaxy AIは、スマートフォンの使い勝手を向上させるための多彩な機能を提供しているが、それらはスマホの本質的な使い方を劇的に変えるようなものではない。Galaxy AIの機能は、あくまで既存のスマホ体験を拡張するものであり、スマホを使う中で不便に感じる作業を効率化させることに主眼が置かれている。


 Galaxy AIはChatGPTのような対話型AIではなく、バックグラウンドで静かに動作し、ユーザーのスマホ体験を向上させる脇役に徹している。ユーザーにとっては細かい指示を出すシーンがないため、使い始めのハードルが低い。


 また、Galaxy AIはオンデバイス処理とクラウド処理を長所として、ユーザー側は気にせずに利用できるようになっている。2025年以降の提供形態に言及がない点は気になるが、NPUの処理性能が世代を追って向上し、オンデバイス処理できるタスクが増えてくれば、長期的に提供できる内容が増えていくだろう。


    ランキングIT・インターネット

    アクセス数ランキング

    一覧へ

    話題数ランキング

    一覧へ

    前日のランキングへ

    ニュース設定