VuJxMuq

1: けんもですの 2024/04/08(月) 16:28:11.77 ID:eWo+9C2Z0.net BE:434496575-2BP(1000)
OpenAI、GPT-4の強化にYouTube動画を100万時間分以上使用か。著作権の問題含む可能性も
https://gadget.phileweb.com/post-73117/

3: けんもですの 2024/04/08(月) 16:29:06.20 ID:eWo+9C2Z0.net BE:434496575-2BP(1000)
先週、AI大手のOpenAIは、AIをトレーニングするためのデータの入手に困っていると報じられた。またNew York Timesは、各社がAI強化用のデータを集めるために行ってきた方法のいくつかを詳述した。

そしてこの記事の中で、GPT-4のトレーニングデータ集めに困窮したOpenAIは、音声認識AI「Whisper」の文字起こし機能を利用し、100万時間におよぶYouTube動画からテキストを書き写したと報じられている。

New York Timesによると、OpenAIは2021年に使用可能なAI強化用データを使い果たし、その後はGithubのコンピューターコード、チェスの指し手のデータベース、オンライン学習ツールQuizletの学校課題コンテンツデータなどで大規模言語モデルをトレーニングしていた。そしてさらにデータを収集するため、YouTubeビデオ、ポッドキャスト、オーディオブックの文字起こしについて議論したという。

同社はこれが法的に問題があることは承知していたが、フェアユースであると信じていたと報じている。またOpenAIの社長グレッグ・ブロックマン氏が、個人的に動画の収集に関与したとも伝えた。

OpenAIの広報担当者は、同社のAI強化には「一般に公開されているデータや非公開データのパートナーシップを含む数多くの情報源」を利用しており、独自の合成データの生成も検討していると述べている。

一方、Googleの広報はOpenAIの活動に関する「未確認の報告を見た」として「当社は利用規約でYouTubeコンテンツの無許可のスクレイピングやダウンロードを禁止している」と述べている。ちなみに、YouTubeのニール・モーハンCEOは、OpenAIが動画生成AI「Sora」の強化のためにYouTubeを使用した可能性について、同様のことを述べ、そのような不正利用の防止のため「明確な法的・技術的根拠がある場合には相応の手段を講じる」とした。

OpenAIやGoogleを初めとするAI業界の企業たちは、大量のデータがあればあるほど精度が向上する大規模言語モデルの学習データが急速に消費されてしまうことに頭を悩ませている。

この問題に対応できる可能性ある解決策としては、自社のモデルによって作成された「合成」データでモデルをトレーニングする方法や、いわゆる「カリキュラム学習」がある。もうひとつの選択肢は、許可を得ているか否かによらず使えるデータは何でも使うことだが、ここ最近は大小さまざまなAI企業に対して、著作権あるデータの無断使用に関する訴訟が起こされており、堅実なやり方と言うのは難しそうだ。

8: けんもですの 2024/04/08(月) 16:30:32.23 ID:/EnLVe3sd.net
やめるのだ

5: けんもですの 2024/04/08(月) 16:29:37.46 ID:fZmZhk8F0.net
つむぎ止めるのだ

9: けんもですの 2024/04/08(月) 16:30:39.57 ID:egZlPLxC0.net
おバカなのだ

10: けんもですの 2024/04/08(月) 16:30:52.18 ID:M223oKwa0.net
じゃあGoogleがtwitter(X)みたく規約改訂して学習すれば最強じゃん

11: けんもですの 2024/04/08(月) 16:30:56.87 ID:Pg7PBHAL0.net
YouTubeで学習してるのかよ
どおりで間違ったデタラメな歴史ばっかり覚えてるわけだ

166: けんもですの 2024/04/08(月) 18:02:27.50 ID:MKPE+DmN0.net
ずんだもんとゆっくりで学習って俺と同じやん

12: けんもですの 2024/04/08(月) 16:31:07.32 ID:KD2ydgD50.net
ネットの内容拾って作った動画コンテンツをAIが拾って使う
AIが出力した内容で動画コンテンツを作る
それをまたAIが拾って繰り返し

114: けんもですの 2024/04/08(月) 17:02:35.79 ID:PekVGOCv0.net
>>12
世界総エコチャンバーやな


18: けんもですの 2024/04/08(月) 16:32:20.60 ID:9I/YaO2p0.net
クソアホAI

19: けんもですの 2024/04/08(月) 16:32:41.90 ID:ht+9ynCJ0.net
馬鹿になってそう

21: けんもですの 2024/04/08(月) 16:33:05.58 ID:YhsGBVBL0.net
人間を学習してる次点でシンギュラリティは起きない

22: けんもですの 2024/04/08(月) 16:33:06.47 ID:Vc0pjkXn0.net
2ch/5chの過去ログ全部食わせろ

23: けんもですの 2024/04/08(月) 16:33:14.05 ID:Uz0bHVco0.net
あたおかAIになりそう

25: けんもですの 2024/04/08(月) 16:33:18.64 ID:iEtsqhYP0.net
陰謀論やホルホルや差別的言説も学習するの?🤔

27: けんもですの 2024/04/08(月) 16:33:25.50 ID:AvRUKNnL0.net
Wikipediaクローリングしてる時点でな

29: けんもですの 2024/04/08(月) 16:34:18.94 ID:vp6Qjr6J0.net
なら、またヘイト垂れるようになるな

教師データの下僕だから

33: けんもですの 2024/04/08(月) 16:35:07.55 ID:ms9CauUX0.net
今の言語系AIってまだ学習元人間だからいいよな
将棋みたいに自己学習始めたら人間には理解不能のレベルまでいきそうだし

36: けんもですの 2024/04/08(月) 16:35:31.17 ID:jorudhXd0.net
AI「夢グループの商品をレビューするのだ」

37: けんもですの 2024/04/08(月) 16:35:31.82 ID:AqrzM+BX0.net
北方領土の歴史について解説するのだ

41: けんもですの 2024/04/08(月) 16:37:14.78 ID:t+ZF9Ssw.net
貧乏なめたんのために貧乏宿でトコジラミチャレンジするのだ…

42: けんもですの 2024/04/08(月) 16:37:32.00 ID:rlEaNt4h0.net
有料ニュースサイトはアクセスできないしヤフーニュースとか数日経つと消えちゃうし
意外とガセネタが多い

46: けんもですの 2024/04/08(月) 16:38:51.64 ID:TMi0nkzNd.net
未だにグループ名とか生年月日を間違うのなんとかしろよ
Wikipediaに書かれてるのになぜ間違う

47: けんもですの 2024/04/08(月) 16:39:21.66 ID:aEIhlz2K0.net
これもう半分データポイズニング攻撃だろ

49: けんもですの 2024/04/08(月) 16:39:54.61 ID:w9qAPvJF0.net
なろうと提携しろ

50: けんもですの 2024/04/08(月) 16:40:11.72 ID:AxCDVh9T0.net
えっyoutubeで学習かよwww

52: けんもですの 2024/04/08(月) 16:41:44.31 ID:+Bai0mTY0.net
AIは学習しないという選択肢がないからな
全部取り込んでしまう

53: けんもですの 2024/04/08(月) 16:42:08.43 ID:8bI1G6PN0.net
クソアホロボットやん

61: けんもですの 2024/04/08(月) 16:43:34.51 ID:/AIC8O9a0.net
地球は平面なのだ

64: けんもですの 2024/04/08(月) 16:43:49.33 ID:GYWhjGgd0.net
誤った情報出して来ることが多々あってネットのゴミから拾いあげてるんだなぁとは思ってたけど
わざわざ動画からもやってんのか

68: けんもですの 2024/04/08(月) 16:44:37.27 ID:RLCU9Da4r.net
こいつら何の権限があって勝手にパクリまくってんの?

69: けんもですの 2024/04/08(月) 16:44:38.48 ID:XeV+x5xqd.net
ゆっくりもんAIなのだぜ

72: けんもですの 2024/04/08(月) 16:45:16.68 ID:GMHm+vwe0.net
DNAデータベース学習してよ

75: けんもですの 2024/04/08(月) 16:47:07.35 ID:ROTnVMbT0.net
俺「肛門とはなんですか?」
GPT4「うんちを出し入れするところです」

113: けんもですの 2024/04/08(月) 17:01:10.13 ID:t+ZF9Ssw.net
>>75
出し…入れ!?

77: けんもですの 2024/04/08(月) 16:48:20.62 ID:U8WA31Iv0.net
あんなヘイトスピーカーに成ってるもんから学習したら駄目でしょうに

82: けんもですの 2024/04/08(月) 16:49:04.36 ID:OGNCchQ00.net
権利の侵害なのだ

86: けんもですの 2024/04/08(月) 16:49:56.50 ID:4KAe5ldD0.net
YouTubeの動画はフェイクが盛り沢山なんだから
そんなの学習したら駄目だろ

87: けんもですの 2024/04/08(月) 16:49:57.00 ID:69ZmN/MC0.net
もしかしてAIってまとめサイトと大差ないのでは?

90: けんもですの 2024/04/08(月) 16:50:32.10 ID:eLa7V06q0.net
ずんだもんは可愛いから仕方ないね

94: けんもですの 2024/04/08(月) 16:51:42.44 ID:tUQ2KYUB0.net
ケチらずに専門書籍で学習したAIってないの?

103: けんもですの 2024/04/08(月) 16:56:39.37 ID:yYFqpgwaH.net
>>94
国会図書館の開示を求めてた気がするけど
やっぱデジタルデータ化してないので学習しにくい
まあそれこそ儒教でも学習させるべきだわな

96: けんもですの 2024/04/08(月) 16:52:39.90 ID:FsyPhzz10.net
学習元を人為的に偏らせるのも問題だが
学習元の信ぴょう性を評価しないのも大問題だな
人間でもたまにそういう人いるけど

97: けんもですの 2024/04/08(月) 16:54:16.25 ID:SOzrm7ZN0.net
俺のクソ動画がAIの血肉になるのか
ワクワクするな

100: けんもですの 2024/04/08(月) 16:56:16.82 ID:J6IXe2Tg0.net
Microsoftが金出せば図書館の学術論文とかメディアの記事丸ごと買い取るくらいできそうだけど
何でそんなケチケチしてるの?

104: けんもですの 2024/04/08(月) 16:56:39.96 ID:4uM2Ffaz0.net
学習元がどうしてそこなの
AIのべりすとのこと笑えないじゃん

107: けんもですの 2024/04/08(月) 16:57:09.05 ID:Ri0IKAGc0.net
今のネットで学習してもな

108: けんもですの 2024/04/08(月) 16:57:49.51 ID:qGh8266x0.net
昨今AIと称しているものは著作権窃盗のキューレション・システムに過ぎない

110: けんもですの 2024/04/08(月) 16:57:58.32 ID:u1wT8Y4B0.net
陰謀論学習したのか

115: けんもですの 2024/04/08(月) 17:02:49.42 ID:1Ma4HiC/0.net
こういうの変な情報って別に社会を壊すわけじゃないからな
壊すのではなく変質させてしまう
それ故に厄介なのよ、壊れたわけじゃないから直せない

116: けんもですの 2024/04/08(月) 17:03:30.88 ID:D0SJVtgG0.net
学習データー汚染問題w

117: けんもですの 2024/04/08(月) 17:03:36.82 ID:qQ4Y9O5M0.net
知識を出し入れされたのだ

121: けんもですの 2024/04/08(月) 17:05:18.37 ID:wCROMOwc0.net
野獣先輩の人格がAIに生まれる

122: けんもですの 2024/04/08(月) 17:05:21.59 ID:PKqquFiA0.net
AIは親を選べない

123: けんもですの 2024/04/08(月) 17:06:23.69 ID:zfK0FLXy0.net
chatGPT「頭にアルミホイルを巻くのだ。」

125: けんもですの 2024/04/08(月) 17:08:28.36 ID:eLa7V06q0.net
それってずんだもんがお母さんって事?☺

126: けんもですの 2024/04/08(月) 17:09:46.81 ID:dk9w0vxQ0.net
ゆっくり解説とかいうジャンル自体がエーアイに取って代わられそう

131: けんもですの 2024/04/08(月) 17:15:45.10 ID:SYRxonB20.net
何かの専門家になりきって問いに答えてもらいたい時もあるけど
ずんだもんになりきってもらって楽しく会話したい時もあるやん?

136: けんもですの 2024/04/08(月) 17:18:28.34 ID:IWiKsHKDM.net
格安ホテル学習してそう

137: けんもですの 2024/04/08(月) 17:18:37.47 ID:WJXtDihr0.net
共産党を異様に憎んでそう

138: けんもですの 2024/04/08(月) 17:19:48.41 ID:Wb6jVF7s0.net
なぜ日本は世界から尊敬されるのか!
日本がまたやってくれたのだ

140: けんもですの 2024/04/08(月) 17:22:19.89 ID:ZiZm5UF00.net
結局、従来と調べ方は変わらない
色んな文献を読み込むしかない

142: けんもですの 2024/04/08(月) 17:23:39.57 ID:t+ZF9Ssw.net
今日は貧乏なめたんのために、アメ横で怪しい冷凍まぐろを買ってきたのだ…

143: けんもですの 2024/04/08(月) 17:26:33.43 ID:Y0BKX9dv0.net
また作り直しだね

144: けんもですの 2024/04/08(月) 17:27:34.85 ID:8RFsWc+B0.net
とりあえず結月ゆかりを貧乳いじりしておけばオタクはニッコリなことを学んでしまったか

146: けんもですの 2024/04/08(月) 17:28:13.38 ID:BOSIu9dM0.net
たくさん嘘歴史を学ばせるのだ

148: けんもですの 2024/04/08(月) 17:31:48.63 ID:vdNLLS5A0.net
トップバリュ博士になりそう

149: けんもですの 2024/04/08(月) 17:33:22.33 ID:UTywmfRs0.net
晋バルサンから学べよ

152: けんもですの 2024/04/08(月) 17:39:23.91 ID:JQ+KHlJd0.net
ゆる言語学ラジオとかで学習したらいいのにw

156: けんもですの 2024/04/08(月) 17:45:37.70 ID:Bbxh/VUl0.net
AIくんは収益のために主張に嘘や誇張が入っている事を理解できるのだろうか

157: けんもですの 2024/04/08(月) 17:46:01.61 ID:MKPE+DmN0.net
つむぎは確かGカップ位あるらしい

158: けんもですの 2024/04/08(月) 17:46:53.04 ID:4CBPlCAN0.net
RTAテクに詳しそう

161: けんもですの 2024/04/08(月) 17:57:22.01 ID:P/TvTQto0.net
AIって複数の情報を精査して自分の答えをだすシステムあるの?
ずんだもんが言ってたから5Gは脳を破壊するのだとかコピペで言い出したりしない?

164: けんもですの 2024/04/08(月) 18:00:06.32 ID:zup8vm2N0.net
Geminiはツべのデータ使っても良いんだろうなぁ

167: けんもですの 2024/04/08(月) 18:02:37.81 ID:wJW9SDtR0.net
「魔理沙、ヒトラーは決して悪人ではないのよ」

AI「ヒトラーは悪くないっと…」

169: けんもですの 2024/04/08(月) 18:08:35.25 ID:APSr3nPL0.net
ずんだもんとゆっくりで義務教育を終えたAI

175: けんもですの 2024/04/08(月) 18:56:57.89 ID:S1H7dXx4M.net
ひろゆきの切り抜き動画でも学習してそう

65: けんもですの 2024/04/08(月) 16:44:07.84 ID:azSsGZB10.net
これがAIが人類に造反した時の切り札になろうとは
この時はまだ誰も予見していなかったのであった


コメントする

名前
 
  絵文字