コンテンツ無断使用で訴えられたOpenAI、NYTが意図的にプロンプトを操作して学習データの逆流に見せたと反論 55
ストーリー by headless
意図 部門より
意図 部門より
The New York Times (NYT) は大規模言語モデル (LLM) の学習にコンテンツが無断使用されたとして Microsoft と OpenAI を提訴したが、これに OpenAI が反論している
(OpenAI のブログ記事、
The Verge の記事、
Neowin の記事)。
訴状で NYT は Microsoft と OpenAI が LLM に学習させるためにコンテンツを無断使用したほか、従来のサーチエンジンによるものより大幅に長く、詳細な記事サマリーを許可なく Bing に掲載しているにもかかわらず、フェアユースだと主張してライセンス契約に応じなかったと主張している。
しかし、OpenAI は NYT との提携に向けた話し合いが進んでいるつもりでいたといい、提訴に驚き、落胆したとのこと。NYT は具体例を示さずに学習コンテンツから生成コンテンツへの逆流がみられると言及していたが、このようなコンテンツは古く、複数のサードパーティーサイトに転載されたもののようだと OpenAI は指摘する。
また、NYT がプロンプトに記事の長い引用を含めるなど、逆流させるために意図的なプロンプト操作を行ったのではないかとも指摘している。それでも OpenAI のモデルは NYT が示唆するようには動作しない。そのため、NYT がモデルに逆流させるよう指示したか、多数の試行結果から都合のいいものを抜き出したとみられるとのことだ。
訴状で NYT は Microsoft と OpenAI が LLM に学習させるためにコンテンツを無断使用したほか、従来のサーチエンジンによるものより大幅に長く、詳細な記事サマリーを許可なく Bing に掲載しているにもかかわらず、フェアユースだと主張してライセンス契約に応じなかったと主張している。
しかし、OpenAI は NYT との提携に向けた話し合いが進んでいるつもりでいたといい、提訴に驚き、落胆したとのこと。NYT は具体例を示さずに学習コンテンツから生成コンテンツへの逆流がみられると言及していたが、このようなコンテンツは古く、複数のサードパーティーサイトに転載されたもののようだと OpenAI は指摘する。
また、NYT がプロンプトに記事の長い引用を含めるなど、逆流させるために意図的なプロンプト操作を行ったのではないかとも指摘している。それでも OpenAI のモデルは NYT が示唆するようには動作しない。そのため、NYT がモデルに逆流させるよう指示したか、多数の試行結果から都合のいいものを抜き出したとみられるとのことだ。
似せることが出来る時点でダメなんじゃないかなぁ (スコア:1, フレームのもと)
転載されたものであろうが学習データの一つとして使っていて、プロンプトいじれば似たものが出力できますってんなら、現状それでアウトとなっちゃうんでないの?
転載されたものであろうが著作権は消尽しないわけで……。
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
Re: (スコア:0)
対策はとっていたようだがイタチゴッコだろうなあ
Re: (スコア:0)
数日前にモデルバージョンに関係なく共通で入る初期プロンプトをいじくってるって話を見かけたから
再現実験されないように対策してそう
Re: (スコア:0)
こうやって頻繁にアップデートさせつつバレないようにしてる時点でAI企業の倫理観なんぞ信用出来んよな。
Re: (スコア:0)
> それでも OpenAI のモデルは NYT が示唆するようには動作しない。
といっているから
> プロンプトいじれば似たものが出力できますってんなら、現状それでアウトとなっちゃうんでないの?
に当たらないのでは
まずは NYT が根拠をちゃんと提出してからだよね
あと、生成 AI について学習してほしいんだけど、
OpenAI は合理性のあるストーリーを創作(生成)できるんです
誘導尋問的な質問(プロンプト)で想定した記事を生成できる
人間のあなたのその主張も OpenAI で生成できる
それに対してあなたの主張は NYT の無断使用だといわれるのはナンセンスですよね
Re: (スコア:0)
横だが、恐らく単純なプロンプトインジェクションに対する対策は取っていて、常に更新しているんだろうけども。
LLMはある文章を与えると、それに続く文章を出力する。一番「もっともらしい」と思われる文章を。
ここで、NYTのある記事の出だしをChatGPTに与えて、ChatGPTがそれに続いて既存のNYTの記事の内容をほぼそのまま出してきたら、そしてその記事が登録とかしないと読めないはずのものなら、NYTは問題とするだろうね。
Re: (スコア:0)
NYTの記事の前に同じような内容の文章がネット上に存在しないならそうだろうけど、立証できるのかな?
Re: (スコア:0)
今はそこで揉めてるんだろうね
Re: (スコア:0)
つか署名記事なら署名とかはあるんじゃないかな
あとはニュースなんで、特異なイベントを取り上げるだろう?
今年も桜が咲きました、とかニューヨークで引ったくりがありました、とかじゃなくて、アメリカの議会議事堂に暴徒が乱入して死者が出ましたとかは同様のイベントは他に無い。そして概要が一致ではなく、文面が一致するとかもあり得なくは無い
Re: (スコア:0)
普通にほぼ一字一句そのまま出てくるパターンが複数確認されてるから立証もクソもない
別にNYTの記事が限定で問題視されてるわけじゃないから
Re: (スコア:0)
> OpenAI は NYT との提携に向けた話し合いが進んでいるつもりでいた
この一行に全てが集約されてる。
なんでこんな主張しちゃったんだろ、非を認めた様なもの。
問題ないなら最初から提携する理由が無いんだから。
Re: (スコア:0)
同じようなもの出そうとすれば、出るに決まってるだろう
お前、コピペ機能が著作権侵害だとでもいうのか?
Re: (スコア:0)
出所によっては侵害だよ。
Re: (スコア:0)
出どころではなく引用になるかと許可を取っているかでは。
Re: (スコア:0)
そうだろう?
要するに機能の問題じゃないんだよ
今回のNYtimesのように悪意のある人間が使うと著作権を侵害することができるだけだよ
それを機能の問題にこじつけるから反AIはただのお気持ち表明の域を出ないんだよ
Re: (スコア:0)
構築済みAIのデータにそのものが入ってたらアウトだよ
そんな「割れDVDが割れにあたるかは再生する人の悪意の問題」みたいな論法は成立しない
Re: (スコア:0)
例えばNYTの記事を学習しないのなら、出所が分からない新聞記事風の文章があるんだけどNYTのですかねえ?とLLMに聞くことが出来なくなる(正しく答えるかはまた別だが)。
この文章をNYTの記事っぽく書きなおして、とLLMに言っても、NYT風な物は書けない。
実際それだけでは大したことがないかもしれないが、NYTだけの話ではないし、NYT風に書いてとかNYTの物に見えるか?と聞く事もイカンというのは行き過ぎに見える。
Re: (スコア:0)
LLMにそういう「思考」の能力は無いから、NYT風だと言えるかどうかの判定は出来ない
あまりにLLMやLLMの汎化能力を過大評価している
画像生成AIが企業ロゴをそのまま出力するのと同様に、GPTが学習元の文章をそのまま出力してしまっただけ
そして一致度がほとんど100%である例が十分揃ってしまったので、NYTが訴訟に踏み切っただけ
それだけ
「このスラド記事の文はNYTのものと似ているが、そうか?」と聞けば「はい、そうです。スラドはNYTのサイトです」と答えるし
「このスラド記事の文はNYTのものに似ているが、どうか?」と聞けば「いいえ、違います。スラドはNYT
Re: (スコア:0)
誰が思考の話をしてるんだよ。
類以度とか文体を似せるとかは既にある話だぞ?
で正しく答えるかはまた別だと書いている
ちゃんと日本語読めるんですか?
Re: (スコア:0)
今回の件は似せる話じゃなくて全く一緒ってケースなんですがそれは
Re: (スコア:0)
誰も機能の話なんてしてない
コピペ機能を使う人間をコピペ機能の排除によって規制しようとしているというだけの話
最初から人間をターゲットにしているだけで、機能の排除は手段に過ぎない
銃が日本で規制されているのと一緒さ
Re: (スコア:0)
似せることができる、は争点になってないんじゃない?
○○風な文章を禁止するとかナイナイ
Re: (スコア:0)
学習データがNYT外にコピペされたテキストってのはYouTubeに著作権上許諾のない動画が転載されていたのと同じパターンで、
NYTが今回訴えていた趣旨とは別種の問題なんじゃないかなあ。
裁判進めれば問題は整理されるだろうけど、非難合戦で手当たり次第に問題ぶち込むとそもそも何の話だったのってなっちゃう。
Re: (スコア:0)
「落ちてたもん拾っただけだ」は悪手だよな
倫理観の無さを強調してしまうだけ
Re: (スコア:0)
アメリカはどうか知らないけど、日本だと類似性と依拠性の2つが揃って初めて複製したと認められる。
似ただけでは足りず、元となった創作物にアクセスしたことを示さないと侵害とは認められない。
偶然似ただけなら複製ではない。
だから似せただけで、元ソースを参考にしていないのならAIツールが著作権侵害したとは言えないよ
勿論プロンプトを書いた人は元のコンテンツを見て似せるように操作しているのならば、
AIツールが元ソースを取り込んでいなくても依拠を認定されるだろうけど
元の創作物の権利者がやったのなら問題はなかろう。
Re: (スコア:0)
OpenAIはNYTの記事をトレーニングに利用していることは否定していないのでそこは争点にならないと思います。
Re: (スコア:0)
同じ単語をコンテキストウィンドウより長く繰り返させて記憶を消すと学習データのうち丸暗記してる物を吐く現象があるらしい
(丸暗記してる物に限られ、全ての個別データが出るわけではない)
Re: (スコア:0)
どうやって出力したかはとても重要ですよ。
ゲームのキャラクタカスタマイズで、色々と頑張ってネズミのキャラクタを出力できたとしても(ゲームベンダ側は)著作権侵害になりません。
この出力を利用した場合に著作権侵害に問われるのは、色々と頑張って利用した側です。
著作権というのは魔法の権利ではなく、非常に長い保護期間とのバーターで、一般的に理解されてるよりかなり弱い権利です。
偶然に同じ出力になったとか、必然的に同じ出力になるとか、そういうのでは侵害には当たりません。
普通ではない複雑な操作で同じ出力になると言うのもダメです。
それでOKなら、GCCに特定のコードを読ませたらネズミのキャラクタを出力できると言って、GCCを訴えるようなこともできてしまいます。
Re: (スコア:0)
生成された問題のあるデータの情報量の大部分が意図的な操作の方に由来するならノーカンってのは分かるよ?
「book」と繰り返させるとパクリ元を吐き始める [cnet.com]のはダメでしょ
つまり与える情報量がゼロの時こいつらは学習データ再生機に戻るわけ
それが「学習は人間にも認められた行為だからセーフ」にはならないんだよ
Re: (スコア:0)
洗脳して秘密を聴きだすようなことして漏洩したとかいうようなもんだからなぁそんなの
Re: (スコア:0)
学習データに出力されたものと同一のものが使われているならその理屈は通用しない
Re: (スコア:0)
じゃぁ丸暗記できる人間はみな殺せって話なん?
Re: (スコア:0)
じゃぁ丸暗記できる人間はみな殺せって話なん?
誰がそんな話してるん?
Re: (スコア:0)
なんで?説明できます?
Re: (スコア:0)
#与える情報量がゼロの時こいつらは学習データ再生機に戻る
違うだろ
でそれがなんで
#それが「学習は人間にも認められた行為だからセーフ」にはならないんだよ
に繋がるんだ?
Re: (スコア:0)
学習さえ挟めば実質ただのコピーであっても著作権違反にはならないという判例ができるのは怖いね
Re: (スコア:0)
いや、公表した時点で(公表の仕方によっては)著作権違反になる
なぜ
#学習さえ挟めば実質ただのコピーであっても著作権違反にはならないという判例ができる
と思ったんですか?またそういう判例はあるのですか?
Re: (スコア:0)
これからできるとしたら怖いねという話ですが
Re: (スコア:0)
贋作を書けと言ったら贋作が出る
コピペを出せと言ったらコピペが出る
そんなので全体が不正だと言ったらコンピュータ自体が不正も不正大不正なものだと思うんだよねぇ
おわりのは(以下略 (スコア:0)
NYTが終ってんだよ!
Re:おわりのは(以下略 (スコア:1)
入浴タイムが終わってしまうのか
Re: (スコア:0)
ひだまりスケッチのAパートやBパートが終わってしまうのですね(多分違
Re: (スコア:0)
Not Yet Terminated
Re:おわりのは(以下略@(#4593138) (スコア:0)
これは良い大喜利!
Re: (スコア:0)
omeが終ってんだよ!(ホリエモン
Re: (スコア:0)
だからまぁもがいてるんでしょうし…
技術的保護手段 (スコア:0)
日本政府もプロンプトで禁止することを技術的保護手段ということにしたいみたいだけど、簡単にすり抜けられてすでに脆弱なことが分かっている対策をしていることがサービス事業者の免責にまでなるのかね。
Re: (スコア:0)
というか、免責はしない方がいいでしょ。たとえ学習元がパブリックドメインやAIの生成物だったとしても、それを言えば済む話で。
成長しないな (スコア:0)
検索エンジンの様に手放しで放置可能なものであれば
発展するとと思うが、裏に小人さんがいるわけだな
裏方が見えた時点でもう底が見えた様なもんですな
これじゃダメだな
Re: (スコア:0)
日本語でおk