Bitget App
スマートな取引を実現
暗号資産を購入市場取引先物コピートレード自動売買Bitget Earn
テクノロジー大手がAIトレーニングにYouTubeの字幕を無断で使用

テクノロジー大手がAIトレーニングにYouTubeの字幕を無断で使用

Cryptopolitan2024/07/17 13:40
著者:By Brenda Kanana

共有リンク:この投稿では: Apple や、Anthropic や Nvidia などの他の AI 開発者が、自社の AI システムをトレーニングするために許可なく YouTube の字幕を使用していることが摘発されました。 「YouTube 字幕」データセットは EleutherAI によって開発され、2020 年に公開されました。 OpenAI は、GPT-4 モデルのトレーニングに 100 万時間の YouTube ビデオを使用しました。免責事項。 提供される情報は取引に関するアドバイスではありません。 Cryptopolitan.com は、このページで提供される情報に基づいて行われた投資に対して一切の責任を負いません。 dent調査や資格のある専門家への相談をtronします

Apple、Nvidia、Anthropic が AI モデルのトレーニングに YouTube の字幕を使用していることが判明しました。これは YouTube のポリシーに違反します。 Proof News と Wired の報道によると、こうした企業はライセンスを適切に取得せずに、何千もの YouTube 動画のトランスクリプトのデータセットを使用していました。  

こちらの記事もお読みください: 英国の監視機関がマイクロソフトの AI 人材獲得に関する調査を開始

この 調査により 、Apple、Nvidia、Anthropic が YouTube 字幕データセットを使用していることが明らかになりました。 このデータセットは、48,000 チャンネルの 173,536 本の YouTube 動画のトランスクリプトで構成されています。 ビデオには、カーン アカデミーや MIT などの教育チャンネル、ウォール ストリート ジャーナルなどのニュース チャンネル、MrBeast や Marques Brownlee などのトップ クリエイターが含まれています。

人気の YouTuber がデータ搾取に反応

人気ユーチューバーのマーケス・ブラウンリー氏はXでこの問題について コメントし 「アップルはAI用のデータを他の企業から収集している。 そのうちの 1 つは、私のビデオを含む YouTube ビデオから大量のデータ/トランスクリプトを収集しました。 Appleはデータを直接スクレイピングしたわけではないかもしれないが、ブラウンリー氏はこの問題は今後も続くだろうと指摘した。

「YouTube 字幕」データセットは EleutherAI によって開発され、2020 年に公開されました。これには、プラットフォームから削除された YouTube 動画の字幕を含む 5.7GB のデータが含まれています。 

YouTube の利用規約によれば、「自動化された手段」によるビデオへのアクセスは禁止されています。 削除されたビデオに字幕が存在することは問題をさらに大きくし、プライバシーと著作権侵害に関する疑問を引き起こします。

同じく捜査に関与している組織であるSalesforceも、当該データセットを使用したことを認めた。 

「研究論文で言及されている Pile データセットは、学術および研究目的で 2021 年にトレーニングされました。 データセットは一般に公開されており、寛容なライセンスの下でリリースされました。」

Salesforce の広報担当者 

しかし、YouTube のコンテンツを許可なく使用することについては、現在でも議論の余地があります。 YouTubeの最高経営責任者(CEO)ニール・モハン氏は4月、AIトレーニングにYouTubeのビデオ、トランスクリプト、またはクリップを使用することはポリシーの「明らかな違反」であると述べた。 ただし、ニューヨーク タイムズ紙によると、OpenAI は GPT-4 モデルのトレーニングに 100 万時間の YouTube ビデオを使用しました。  

AI企業によるインターネットコンテンツ利用をめぐって法廷闘争が勃発

ChatGPT の開始以降、AI 企業がインターネットのコンテンツを許可なく使用する問題が増加しました。 さらに、コンテンツ制作者らは、著作権で保護された作品を許可なくスクレイピングしたとして、Stability AIとMidjourneyを訴えている。 YouTubeの所有者であるGoogleは、この種の法的措置は生成AIの基盤を脅かすとして、同様の申し立てに関して集団訴訟に直面した。  

インタビュー で、同社がこの新しいモデルのトレーニングにソーシャルメディアプラットフォームのビデオを使用したかどうかについては詳しく述べなかった。 Microsoft AI CEO のムスタファ・スレイマン氏tracと呼ぶものに基づいてフェアユースとみなされてきたと 述べました 。

0

免責事項:本記事の内容はあくまでも筆者の意見を反映したものであり、いかなる立場においても当プラットフォームを代表するものではありません。また、本記事は投資判断の参考となることを目的としたものではありません。

PoolX: 資産をロックして新しいトークンをゲット
最大12%のAPR!エアドロップを継続的に獲得しましょう!
今すぐロック