Apple、プライバシーを保護しつつAI開発にユーザーデータを利用する方法を発表

　米Appleは4月14日（現地時間）、ユーザーのプライバシーを保護しながら「Apple Intelligence」の機能を向上させるための自社技術、「differential privacy（差分プライバシー）」と「synthetic data generation（合成データ生成）」を紹介した。

【その他の画像】

差分プライバシー

　差分プライバシーは、「Apple Intelligence」の機能の1つである「Genmoji」などで採用している技術。デバイス分析プログラムにオプトインしたユーザーに対し、この技術を使ってGenmojiのプロンプトやパターンを特定する。これにより、個々のプロンプトが特定されたり、ユーザーと結び付けられたりすることがないよう、数学的な保証が提供されているという。

　おおまかな仕組みは、オプトインしたユーザーのデバイスに対し、特定の「フラグメント」を見たかどうかをランダムにポーリングする。デバイスは匿名で、見た場合は真の信号を、見ていない場合は代替のフラグメントに対する信号や無一致の信号をノイズを含んだ形で応答する。ランダムな応答の頻度を調整することで、数百人のユーザーが同じ用語を使用した場合に初めてその単語が検出可能になるように設計されている。結果として、Appleは一般的に使用されるプロンプトのみを把握でき、特定のデバイスからの信号を認識したり、固有のプロンプトを復元したりすることはできない。

　差分プライバシーは今後、Image Playground、Image Wand、Memories Creation、Writing Tools、Visual Intelligenceにも適用する予定だ。

合成データをテキスト生成の改善に活用

　より長い文章を扱う機能では、Genmojiのような短いプロンプトのトレンドを把握する手法は効果的ではない。そこで、個々のユーザーのコンテンツを収集することなくトレンドを理解するための新しい手法として、新たに合成データ生成を開発した。

　合成データは、ユーザーデータの形式や重要な特性を模倣して作成されるが、実際のユーザーが生成したコンテンツは一切含まれない。例えば、メールの要約モデルを改善するために、実際のメールの内容をAppleが収集することはなく、トピックやスタイルが本物に近い合成的な文章やメールを作成するという。

　合成メールの作成には、LLMを使う。特定のトピックに関する単一の合成メールを作成するだけでなく、モデルを改善するためには、メッセージで最も一般的なトピックを網羅する多数の合成メールを生成する必要がある。

　代表的な合成メールのセットを作成するために、まず多様なトピックに関する多数の合成メッセージが作成される。次に、各合成メッセージの埋め込み（言語、トピック、長さなどの主要な側面を捉えた表現）が生成され、デバイス分析にオプトインしたユーザーのデバイスに送信される。

　参加しているデバイスは、最近のユーザーメールから少数のサンプルを選択し、それらの埋め込みを算出する。各デバイスは、受信した合成埋め込みのうち、自身のサンプルに最も近いものを選択する。差分プライバシーを用いることで、Appleは、どの合成埋め込みが特定のデバイスで選択されたかを知ることなく、すべてのデバイスで最も頻繁に選択された合成埋め込みを学習できる。

　最も頻繁に選択された合成埋め込みは、トレーニングデータやテストデータの生成に使用したり、データセットを洗練したりするために利用される。例えば、テニスに関するメッセージが上位の埋め込みの1つであれば、「テニス」を「サッカー」などの別のスポーツに置き換えた類似のメッセージを生成し、次回のキュレーションに追加できる。

　こうした合成データは、要約などの機能におけるモデルの品質をより代表的なデータでテストし、改善点を見つけるために活用される。

　合成データ生成は、デバイス分析にオプトインしたユーザーに対して、メールの要約機能の改善のために提供を開始する予定だ。

　Appleは、製品体験を向上させるために機械学習とAIの最先端技術を進歩させ続けるとともに、ユーザーのプライバシーを保護するための革新的な技術の開発と実装に引き続き取り組むとしている。

Apple、プライバシーを保護しつつAI開発にユーザーデータを利用する方法を発表

ピックアップ

新着のニュース

注目のニュース

IT・インターネット

ランキングIT・インターネット

アクセス数ランキング

話題数ランキング

困ったときには