AppleやAnthropicがYouTubeの文字起こしをAIトレーニングに無断で使用との報道

0

2024年07月17日 09:31  ITmedia NEWS

  • チェックする
  • つぶやく
  • 日記を書く

ITmedia NEWS

写真

 米メディアのProof Newsは7月16日(現地時間)、Wiredと共同で調査した結果、米Appleや米Anthropicなどが自社のAIのトレーニングに大量のYouTube動画の素材を使っていることが分かったと報じた。


【その他の画像】


 調査によると、4万8000以上のチャンネルから抜き出された17万3536本のYouTube動画の字幕が、Anthropic、Nvidia、Apple、SalesforceなどのAIトレーニングに使われていたという。


 これらの企業は、YouTubeから直接動画を取り込んでいるのではなく、米非営利団体EleutherAIが公開しているAIトレーニング用データセットを利用している。


 EleutherAIはこのデータセット「The Pile」を、「大企業と競争するリソースを持たない個人や企業のために」まとめたとしている。データセットにはYouTubeのスクリプトAPI経由でダウンロードした字幕の他、書籍やWikipediaのテキストも含まれている。


 YouTubeの字幕を利用された配信者には、MrBeast、PewDiePie、マルケス・ブラウンリー氏などの著名人も含まれる。


 ブラウンリー氏はこの件について自身のXアカウントで「Appleは(YouTubeを直接)スクレイピングしてはいないので、技術的には“過失”を回避しているが、これは長期にわたって問題になるだろう」とポストした。


 YouTubeのニール・モーハンCEOは4月、米OpenAIが自社のAIモデルのトレーニングにYouTubeの動画を使っているならば、それは「明らかな違反になる」と語った。


 AnthropicはProof Newsに対して送ったThe Pileを使ったことを認める声明文で、「YouTubeの規約は、プラットフォームの直接使用を対象としており、The Pileのデータセットの使用ではない」と語った。


 SalesforceもThe Pileの使用を認めたが、データセットは公開されているものだと強調した。


 Nvidiaはコメントを控え、Appleはコメント要請に応じなかった。


 Proof Newsは、配信者が自分の動画のスクリプトがThe Pileに含まれるかどうかをチェックするためのツールを公開している。


    ランキングIT・インターネット

    前日のランキングへ

    ニュース設定