コンテンツ無断使用で訴えられたOpenAI、NYTが意図的にプロンプトを操作して学習データの逆流に見せたと反論

コンテンツ無断使用で訴えられたOpenAI、NYTが意図的にプロンプトを操作して学習データの逆流に見せたと反論 55

ストーリー by headless 2024年01月14日 11時39分
意図部門より

The New York Times (NYT) は大規模言語モデル (LLM) の学習にコンテンツが無断使用されたとして Microsoft と OpenAI を提訴したが、これに OpenAI が反論している (OpenAI のブログ記事、 The Verge の記事、 Neowin の記事)。

訴状で NYT は Microsoft と OpenAI が LLM に学習させるためにコンテンツを無断使用したほか、従来のサーチエンジンによるものより大幅に長く、詳細な記事サマリーを許可なく Bing に掲載しているにもかかわらず、フェアユースだと主張してライセンス契約に応じなかったと主張している。

しかし、OpenAI は NYT との提携に向けた話し合いが進んでいるつもりでいたといい、提訴に驚き、落胆したとのこと。NYT は具体例を示さずに学習コンテンツから生成コンテンツへの逆流がみられると言及していたが、このようなコンテンツは古く、複数のサードパーティーサイトに転載されたもののようだと OpenAI は指摘する。

また、NYT がプロンプトに記事の長い引用を含めるなど、逆流させるために意図的なプロンプト操作を行ったのではないかとも指摘している。それでも OpenAI のモデルは NYT が示唆するようには動作しない。そのため、NYT がモデルに逆流させるよう指示したか、多数の試行結果から都合のいいものを抜き出したとみられるとのことだ。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索55コメント Log In/Create an Account

似せることが出来る時点でダメなんじゃないかなぁ (スコア:1, フレームのもと)

by akiraani (24305) on 2024年01月14日 11時28分 (#4593124) 日記

転載されたものであろうが学習データの一つとして使っていて、プロンプトいじれば似たものが出力できますってんなら、現状それでアウトとなっちゃうんでないの？
転載されたものであろうが著作権は消尽しないわけで……。

--
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
- Re: (スコア:0)
  
  by Anonymous Coward
  
  対策はとっていたようだがイタチゴッコだろうなあ
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    数日前にモデルバージョンに関係なく共通で入る初期プロンプトをいじくってるって話を見かけたから
    再現実験されないように対策してそう
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      こうやって頻繁にアップデートさせつつバレないようにしてる時点でAI企業の倫理観なんぞ信用出来んよな。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  > それでも OpenAI のモデルは NYT が示唆するようには動作しない。
  といっているから
  > プロンプトいじれば似たものが出力できますってんなら、現状それでアウトとなっちゃうんでないの？
  に当たらないのでは
  まずは NYT が根拠をちゃんと提出してからだよね
  あと、生成 AI について学習してほしいんだけど、
  OpenAI は合理性のあるストーリーを創作（生成）できるんです
  誘導尋問的な質問（プロンプト）で想定した記事を生成できる
  人間のあなたのその主張も OpenAI で生成できる
  それに対してあなたの主張は NYT の無断使用だといわれるのはナンセンスですよね
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    横だが、恐らく単純なプロンプトインジェクションに対する対策は取っていて、常に更新しているんだろうけども。
    LLMはある文章を与えると、それに続く文章を出力する。一番「もっともらしい」と思われる文章を。
    ここで、NYTのある記事の出だしをChatGPTに与えて、ChatGPTがそれに続いて既存のNYTの記事の内容をほぼそのまま出してきたら、そしてその記事が登録とかしないと読めないはずのものなら、NYTは問題とするだろうね。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      NYTの記事の前に同じような内容の文章がネット上に存在しないならそうだろうけど、立証できるのかな？
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        今はそこで揉めてるんだろうね
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        つか署名記事なら署名とかはあるんじゃないかな
        あとはニュースなんで、特異なイベントを取り上げるだろう？
        今年も桜が咲きました、とかニューヨークで引ったくりがありました、とかじゃなくて、アメリカの議会議事堂に暴徒が乱入して死者が出ましたとかは同様のイベントは他に無い。そして概要が一致ではなく、文面が一致するとかもあり得なくは無い
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        普通にほぼ一字一句そのまま出てくるパターンが複数確認されてるから立証もクソもない
        別にNYTの記事が限定で問題視されてるわけじゃないから
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    > OpenAI は NYT との提携に向けた話し合いが進んでいるつもりでいた
    この一行に全てが集約されてる。
    なんでこんな主張しちゃったんだろ、非を認めた様なもの。
    問題ないなら最初から提携する理由が無いんだから。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  同じようなもの出そうとすれば、出るに決まってるだろう
  お前、コピペ機能が著作権侵害だとでもいうのか？
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    出所によっては侵害だよ。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      出どころではなく引用になるかと許可を取っているかでは。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      そうだろう？
      要するに機能の問題じゃないんだよ
      今回のNYtimesのように悪意のある人間が使うと著作権を侵害することができるだけだよ
      それを機能の問題にこじつけるから反AIはただのお気持ち表明の域を出ないんだよ
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        構築済みAIのデータにそのものが入ってたらアウトだよ
        そんな「割れDVDが割れにあたるかは再生する人の悪意の問題」みたいな論法は成立しない
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        例えばNYTの記事を学習しないのなら、出所が分からない新聞記事風の文章があるんだけどNYTのですかねえ？とLLMに聞くことが出来なくなる（正しく答えるかはまた別だが）。
        この文章をNYTの記事っぽく書きなおして、とLLMに言っても、NYT風な物は書けない。
        実際それだけでは大したことがないかもしれないが、NYTだけの話ではないし、NYT風に書いてとかNYTの物に見えるか？と聞く事もイカンというのは行き過ぎに見える。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        LLMにそういう「思考」の能力は無いから、NYT風だと言えるかどうかの判定は出来ない
        あまりにLLMやLLMの汎化能力を過大評価している
        画像生成AIが企業ロゴをそのまま出力するのと同様に、GPTが学習元の文章をそのまま出力してしまっただけ
        そして一致度がほとんど100%である例が十分揃ってしまったので、NYTが訴訟に踏み切っただけ
        それだけ
        「このスラド記事の文はNYTのものと似ているが、そうか?」と聞けば「はい、そうです。スラドはNYTのサイトです」と答えるし
        「このスラド記事の文はNYTのものに似ているが、どうか?」と聞けば「いいえ、違います。スラドはNYT
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        誰が思考の話をしてるんだよ。
        類以度とか文体を似せるとかは既にある話だぞ？
        で正しく答えるかはまた別だと書いている
        ちゃんと日本語読めるんですか？
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        今回の件は似せる話じゃなくて全く一緒ってケースなんですがそれは
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        誰も機能の話なんてしてない
        コピペ機能を使う人間をコピペ機能の排除によって規制しようとしているというだけの話
        最初から人間をターゲットにしているだけで、機能の排除は手段に過ぎない
        銃が日本で規制されているのと一緒さ
- Re: (スコア:0)
  
  by Anonymous Coward
  
  似せることができる、は争点になってないんじゃない？
  ○○風な文章を禁止するとかナイナイ
- Re: (スコア:0)
  
  by Anonymous Coward
  
  学習データがNYT外にコピペされたテキストってのはYouTubeに著作権上許諾のない動画が転載されていたのと同じパターンで、
  NYTが今回訴えていた趣旨とは別種の問題なんじゃないかなあ。
  裁判進めれば問題は整理されるだろうけど、非難合戦で手当たり次第に問題ぶち込むとそもそも何の話だったのってなっちゃう。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    「落ちてたもん拾っただけだ」は悪手だよな
    倫理観の無さを強調してしまうだけ
- Re: (スコア:0)
  
  by Anonymous Coward
  
  アメリカはどうか知らないけど、日本だと類似性と依拠性の2つが揃って初めて複製したと認められる。
  似ただけでは足りず、元となった創作物にアクセスしたことを示さないと侵害とは認められない。
  偶然似ただけなら複製ではない。
  だから似せただけで、元ソースを参考にしていないのならAIツールが著作権侵害したとは言えないよ
  勿論プロンプトを書いた人は元のコンテンツを見て似せるように操作しているのならば、
  AIツールが元ソースを取り込んでいなくても依拠を認定されるだろうけど
  元の創作物の権利者がやったのなら問題はなかろう。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    OpenAIはNYTの記事をトレーニングに利用していることは否定していないのでそこは争点にならないと思います。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  同じ単語をコンテキストウィンドウより長く繰り返させて記憶を消すと学習データのうち丸暗記してる物を吐く現象があるらしい
  (丸暗記してる物に限られ、全ての個別データが出るわけではない)
- Re: (スコア:0)
  
  by Anonymous Coward
  
  どうやって出力したかはとても重要ですよ。
  ゲームのキャラクタカスタマイズで、色々と頑張ってネズミのキャラクタを出力できたとしても（ゲームベンダ側は）著作権侵害になりません。
  この出力を利用した場合に著作権侵害に問われるのは、色々と頑張って利用した側です。
  著作権というのは魔法の権利ではなく、非常に長い保護期間とのバーターで、一般的に理解されてるよりかなり弱い権利です。
  偶然に同じ出力になったとか、必然的に同じ出力になるとか、そういうのでは侵害には当たりません。
  普通ではない複雑な操作で同じ出力になると言うのもダメです。
  それでOKなら、GCCに特定のコードを読ませたらネズミのキャラクタを出力できると言って、GCCを訴えるようなこともできてしまいます。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    生成された問題のあるデータの情報量の大部分が意図的な操作の方に由来するならノーカンってのは分かるよ?
    「book」と繰り返させるとパクリ元を吐き始める [cnet.com]のはダメでしょ
    つまり与える情報量がゼロの時こいつらは学習データ再生機に戻るわけ
    それが「学習は人間にも認められた行為だからセーフ」にはならないんだよ
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      洗脳して秘密を聴きだすようなことして漏洩したとかいうようなもんだからなぁそんなの
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        学習データに出力されたものと同一のものが使われているならその理屈は通用しない
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        じゃぁ丸暗記できる人間はみな殺せって話なん?
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        じゃぁ丸暗記できる人間はみな殺せって話なん?
        誰がそんな話してるん?
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        なんで？説明できます？
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      #与える情報量がゼロの時こいつらは学習データ再生機に戻る
      違うだろ
      でそれがなんで
      #それが「学習は人間にも認められた行為だからセーフ」にはならないんだよ
      に繋がるんだ？
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      学習さえ挟めば実質ただのコピーであっても著作権違反にはならないという判例ができるのは怖いね
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        いや、公表した時点で（公表の仕方によっては）著作権違反になる
        なぜ
        #学習さえ挟めば実質ただのコピーであっても著作権違反にはならないという判例ができる
        と思ったんですか？またそういう判例はあるのですか？
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        これからできるとしたら怖いねという話ですが
- Re: (スコア:0)
  
  by Anonymous Coward
  
  贋作を書けと言ったら贋作が出る
  コピペを出せと言ったらコピペが出る
  そんなので全体が不正だと言ったらコンピュータ自体が不正も不正大不正なものだと思うんだよねぇ
おわりのは（以下略 (スコア:0)

by Anonymous Coward on 2024年01月14日 12時38分 (#4593138)

NYTが終ってんだよ！
- Re:おわりのは（以下略 (スコア:1)
  
  by Anonymous Coward on 2024年01月14日 13時57分 (#4593156)
  
  入浴タイムが終わってしまうのか
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    ひだまりスケッチのAパートやBパートが終わってしまうのですね(多分違
- Re: (スコア:0)
  
  by Anonymous Coward
  
  Not Yet Terminated
- Re:おわりのは（以下略@(#4593138) (スコア:0)
  
  by Anonymous Coward
  
  これは良い大喜利！
- Re: (スコア:0)
  
  by Anonymous Coward
  
  omeが終ってんだよ！（ﾎﾘｴﾓﾝ
- Re: (スコア:0)
  
  by Anonymous Coward
  
  だからまぁもがいてるんでしょうし…
技術的保護手段 (スコア:0)

by Anonymous Coward on 2024年01月14日 18時09分 (#4593224)

日本政府もプロンプトで禁止することを技術的保護手段ということにしたいみたいだけど、簡単にすり抜けられてすでに脆弱なことが分かっている対策をしていることがサービス事業者の免責にまでなるのかね。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  というか、免責はしない方がいいでしょ。たとえ学習元がパブリックドメインやAIの生成物だったとしても、それを言えば済む話で。
成長しないな (スコア:0)

by Anonymous Coward on 2024年01月15日 7時55分 (#4593391)

検索エンジンの様に手放しで放置可能なものであれば
発展するとと思うが、裏に小人さんがいるわけだな
裏方が見えた時点でもう底が見えた様なもんですな
これじゃダメだな
- Re: (スコア:0)
  
  by Anonymous Coward
  
  日本語でおk

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

似せることが出来る時点でダメなんじゃないかなぁ (スコア:1, フレームのもと)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

おわりのは（以下略 (スコア:0)

Re:おわりのは（以下略 (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re:おわりのは（以下略@(#4593138) (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

技術的保護手段 (スコア:0)

Re: (スコア:0)

成長しないな (スコア:0)

Re: (スコア:0)