米メディアのProof Newsは7月16日(現地時間)、Wiredと共同で調査した結果、米Appleや米Anthropicなどが自社のAIのトレーニングに大量のYouTube動画の素材を使っていることが分かったと報じた。
調査によると、4万8000以上のチャンネルから抜き出された17万3536本のYouTube動画の字幕が、Anthropic、Nvidia、Apple、SalesforceなどのAIトレーニングに使われていたという。
これらの企業は、YouTubeから直接動画を取り込んでいるのではなく、米非営利団体EleutherAIが公開しているAIトレーニング用データセットを利用している。
EleutherAIはこのデータセット「The Pile」を、「大企業と競争するリソースを持たない個人や企業のために」まとめたとしている。データセットにはYouTubeのスクリプトAPI経由でダウンロードした字幕の他、書籍やWikipediaのテキストも含まれている。
|
|
YouTubeの字幕を利用された配信者には、MrBeast、PewDiePie、マルケス・ブラウンリー氏などの著名人も含まれる。
ブラウンリー氏はこの件について自身のXアカウントで「Appleは(YouTubeを直接)スクレイピングしてはいないので、技術的には“過失”を回避しているが、これは長期にわたって問題になるだろう」とポストした。
YouTubeのニール・モーハンCEOは4月、米OpenAIが自社のAIモデルのトレーニングにYouTubeの動画を使っているならば、それは「明らかな違反になる」と語った。
AnthropicはProof Newsに対して送ったThe Pileを使ったことを認める声明文で、「YouTubeの規約は、プラットフォームの直接使用を対象としており、The Pileのデータセットの使用ではない」と語った。
SalesforceもThe Pileの使用を認めたが、データセットは公開されているものだと強調した。
|
|
Nvidiaはコメントを控え、Appleはコメント要請に応じなかった。
Proof Newsは、配信者が自分の動画のスクリプトがThe Pileに含まれるかどうかをチェックするためのツールを公開している。
|
|
|
|
Copyright(C) 2024 ITmedia Inc. All rights reserved. 記事・写真の無断転載を禁じます。
掲載情報の著作権は提供元企業に帰属します。
「溶けとる」子猫の寝相に反響(写真:ORICON NEWS)28
マッチングアプリ、本人確認にマイナカード活用を──デジ庁が事業者に働きかけ ロマンス詐欺対策で(写真:ITmedia NEWS)29