
米OpenAIは4月22日(現地時間)、テキスト内の個人識別情報を自動検知し、マスキングするオープンウエイトモデル「Privacy Filter」をリリースしたと発表した。データをAIチャットボットなどに読み込ませる前に、個人情報を削除するツールだ。Hugging FaceとGitHubで、商用利用やカスタマイズが可能なApache 2.0ライセンスで開発者向けに公開した。
15億パラメータという小規模なモデルなのでローカル環境のWebブラウザやノートPC上でも直接動作し、マスキング処理のためにデータがデバイスの外部へ送信されるリスクを減らせるとしている。
開発者がAIをより安全に構築するための実用的なインフラを提供し、ソフトウェアエコシステム全体を支援することを目的として公開したという。OpenAIは、プライバシー保護インフラは誰もが簡単に検査、実行、適応、改善できるべきであるという考えの下、AIが個人ではなく世界を学習できる環境を整えるためにリリースしたと説明している。従来のルールベースの検知ツールが文脈の理解に苦労していたのに対し、Privacy Filterは前後の文脈を考慮した個人情報の検出を高いスループットで行えるとしている。
このフィルタが検知するのは以下の8つの情報カテゴリだ。
|
|
|
|
・private_person:特定の個人を識別する名前、ユーザー名、ハンドルネームなど
・account_number:クレジットカード番号、銀行口座番号、その他のアカウント識別子
・private_url:プライベートな共有を意図したWeb URLやIPアドレス、特定の個人を識別するもの
・private_email:個人的なやり取りに使用される、または特定の個人を識別するメールアドレス
・private_phone:特定の個人に関連付けられた電話番号
|
|
|
|
・private_address:特定の個人に関連付けられた特定の場所や住所
・secret:APIキー、パスワード、その他の認証情報
・private_date:生年月日や誕生年など、特定の個人を識別する日時
公開されたモデルカード(システムカード)では、幾つかの問題点や限界も指摘されている。Privacy Filterは完全な匿名化や安全性を保証するものではなく、過信することはプライバシー保護の目的を損なう恐れがある。また、あらかじめ学習されたラベル分類に依存しているため、組織独自のポリシーに合わせるにはモデルのファインチューニングが必要になる場合がある。
さらに、英語以外の言語や非ラテン文字、学習データ内で過小評価されている地域の命名規則に対しては、パフォーマンスが低下する可能性も明記されている。珍しい名前の検出漏れや、逆に公開情報などを過剰にマスキングしてしまうエラーも発生し得るため、医療や法務、金融などの機密性の高い分野では、引き続き人間の目によるレビュープロセスを維持することが推奨されている。
|
|
|
|
|
|
|
|
|
|
|
|
Copyright(C) 2026 ITmedia Inc. All rights reserved. 記事・写真の無断転載を禁じます。
掲載情報の著作権は提供元企業に帰属します。