パスワードを忘れた? アカウント作成
21563219 story
人工知能

コンテンツ無断使用で訴えられたOpenAI、NYTが意図的にプロンプトを操作して学習データの逆流に見せたと反論 55

ストーリー by headless
意図 部門より
The New York Times (NYT) は大規模言語モデル (LLM) の学習にコンテンツが無断使用されたとして Microsoft と OpenAI を提訴したが、これに OpenAI が反論している (OpenAI のブログ記事The Verge の記事Neowin の記事)。

訴状で NYT は Microsoft と OpenAI が LLM に学習させるためにコンテンツを無断使用したほか、従来のサーチエンジンによるものより大幅に長く、詳細な記事サマリーを許可なく Bing に掲載しているにもかかわらず、フェアユースだと主張してライセンス契約に応じなかったと主張している。

しかし、OpenAI は NYT との提携に向けた話し合いが進んでいるつもりでいたといい、提訴に驚き、落胆したとのこと。NYT は具体例を示さずに学習コンテンツから生成コンテンツへの逆流がみられると言及していたが、このようなコンテンツは古く、複数のサードパーティーサイトに転載されたもののようだと OpenAI は指摘する。

また、NYT がプロンプトに記事の長い引用を含めるなど、逆流させるために意図的なプロンプト操作を行ったのではないかとも指摘している。それでも OpenAI のモデルは NYT が示唆するようには動作しない。そのため、NYT がモデルに逆流させるよう指示したか、多数の試行結果から都合のいいものを抜き出したとみられるとのことだ。
  • 転載されたものであろうが学習データの一つとして使っていて、プロンプトいじれば似たものが出力できますってんなら、現状それでアウトとなっちゃうんでないの?

    転載されたものであろうが著作権は消尽しないわけで……。

    --
    しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
    ここに返信
    • by Anonymous Coward

      対策はとっていたようだがイタチゴッコだろうなあ

      • by Anonymous Coward

        数日前にモデルバージョンに関係なく共通で入る初期プロンプトをいじくってるって話を見かけたから
        再現実験されないように対策してそう

        • by Anonymous Coward

          こうやって頻繁にアップデートさせつつバレないようにしてる時点でAI企業の倫理観なんぞ信用出来んよな。

    • by Anonymous Coward

      > それでも OpenAI のモデルは NYT が示唆するようには動作しない。

      といっているから

      > プロンプトいじれば似たものが出力できますってんなら、現状それでアウトとなっちゃうんでないの?

      に当たらないのでは

      まずは NYT が根拠をちゃんと提出してからだよね

      あと、生成 AI について学習してほしいんだけど、
      OpenAI は合理性のあるストーリーを創作(生成)できるんです
      誘導尋問的な質問(プロンプト)で想定した記事を生成できる

      人間のあなたのその主張も OpenAI で生成できる
      それに対してあなたの主張は NYT の無断使用だといわれるのはナンセンスですよね

      • by Anonymous Coward

        横だが、恐らく単純なプロンプトインジェクションに対する対策は取っていて、常に更新しているんだろうけども。

        LLMはある文章を与えると、それに続く文章を出力する。一番「もっともらしい」と思われる文章を。
        ここで、NYTのある記事の出だしをChatGPTに与えて、ChatGPTがそれに続いて既存のNYTの記事の内容をほぼそのまま出してきたら、そしてその記事が登録とかしないと読めないはずのものなら、NYTは問題とするだろうね。

        • by Anonymous Coward

          NYTの記事の前に同じような内容の文章がネット上に存在しないならそうだろうけど、立証できるのかな?

          • by Anonymous Coward

            今はそこで揉めてるんだろうね

          • by Anonymous Coward

            つか署名記事なら署名とかはあるんじゃないかな
            あとはニュースなんで、特異なイベントを取り上げるだろう?
            今年も桜が咲きました、とかニューヨークで引ったくりがありました、とかじゃなくて、アメリカの議会議事堂に暴徒が乱入して死者が出ましたとかは同様のイベントは他に無い。そして概要が一致ではなく、文面が一致するとかもあり得なくは無い

          • by Anonymous Coward

            普通にほぼ一字一句そのまま出てくるパターンが複数確認されてるから立証もクソもない
            別にNYTの記事が限定で問題視されてるわけじゃないから

      • by Anonymous Coward

        > OpenAI は NYT との提携に向けた話し合いが進んでいるつもりでいた

        この一行に全てが集約されてる。
        なんでこんな主張しちゃったんだろ、非を認めた様なもの。
        問題ないなら最初から提携する理由が無いんだから。

    • by Anonymous Coward

      同じようなもの出そうとすれば、出るに決まってるだろう
      お前、コピペ機能が著作権侵害だとでもいうのか?

      • by Anonymous Coward

        出所によっては侵害だよ。

        • by Anonymous Coward

          出どころではなく引用になるかと許可を取っているかでは。

        • by Anonymous Coward

          そうだろう?
          要するに機能の問題じゃないんだよ
          今回のNYtimesのように悪意のある人間が使うと著作権を侵害することができるだけだよ
          それを機能の問題にこじつけるから反AIはただのお気持ち表明の域を出ないんだよ

          • by Anonymous Coward

            構築済みAIのデータにそのものが入ってたらアウトだよ
            そんな「割れDVDが割れにあたるかは再生する人の悪意の問題」みたいな論法は成立しない

            • by Anonymous Coward

              例えばNYTの記事を学習しないのなら、出所が分からない新聞記事風の文章があるんだけどNYTのですかねえ?とLLMに聞くことが出来なくなる(正しく答えるかはまた別だが)。
              この文章をNYTの記事っぽく書きなおして、とLLMに言っても、NYT風な物は書けない。

              実際それだけでは大したことがないかもしれないが、NYTだけの話ではないし、NYT風に書いてとかNYTの物に見えるか?と聞く事もイカンというのは行き過ぎに見える。

              • by Anonymous Coward

                LLMにそういう「思考」の能力は無いから、NYT風だと言えるかどうかの判定は出来ない
                あまりにLLMやLLMの汎化能力を過大評価している

                画像生成AIが企業ロゴをそのまま出力するのと同様に、GPTが学習元の文章をそのまま出力してしまっただけ
                そして一致度がほとんど100%である例が十分揃ってしまったので、NYTが訴訟に踏み切っただけ
                それだけ

                「このスラド記事の文はNYTのものと似ているが、そうか?」と聞けば「はい、そうです。スラドはNYTのサイトです」と答えるし
                「このスラド記事の文はNYTのものに似ているが、どうか?」と聞けば「いいえ、違います。スラドはNYT

              • by Anonymous Coward

                誰が思考の話をしてるんだよ。
                類以度とか文体を似せるとかは既にある話だぞ?
                で正しく答えるかはまた別だと書いている

                ちゃんと日本語読めるんですか?

              • by Anonymous Coward

                今回の件は似せる話じゃなくて全く一緒ってケースなんですがそれは

          • by Anonymous Coward

            誰も機能の話なんてしてない
            コピペ機能を使う人間をコピペ機能の排除によって規制しようとしているというだけの話
            最初から人間をターゲットにしているだけで、機能の排除は手段に過ぎない
            銃が日本で規制されているのと一緒さ

    • by Anonymous Coward

      似せることができる、は争点になってないんじゃない?
      ○○風な文章を禁止するとかナイナイ

    • by Anonymous Coward

      学習データがNYT外にコピペされたテキストってのはYouTubeに著作権上許諾のない動画が転載されていたのと同じパターンで、
      NYTが今回訴えていた趣旨とは別種の問題なんじゃないかなあ。

      裁判進めれば問題は整理されるだろうけど、非難合戦で手当たり次第に問題ぶち込むとそもそも何の話だったのってなっちゃう。

      • by Anonymous Coward

        「落ちてたもん拾っただけだ」は悪手だよな
        倫理観の無さを強調してしまうだけ

    • by Anonymous Coward

      アメリカはどうか知らないけど、日本だと類似性と依拠性の2つが揃って初めて複製したと認められる。
      似ただけでは足りず、元となった創作物にアクセスしたことを示さないと侵害とは認められない。
      偶然似ただけなら複製ではない。

      だから似せただけで、元ソースを参考にしていないのならAIツールが著作権侵害したとは言えないよ

      勿論プロンプトを書いた人は元のコンテンツを見て似せるように操作しているのならば、
      AIツールが元ソースを取り込んでいなくても依拠を認定されるだろうけど
      元の創作物の権利者がやったのなら問題はなかろう。

      • by Anonymous Coward

        OpenAIはNYTの記事をトレーニングに利用していることは否定していないのでそこは争点にならないと思います。

    • by Anonymous Coward

      同じ単語をコンテキストウィンドウより長く繰り返させて記憶を消すと学習データのうち丸暗記してる物を吐く現象があるらしい
      (丸暗記してる物に限られ、全ての個別データが出るわけではない)

    • by Anonymous Coward

      どうやって出力したかはとても重要ですよ。
      ゲームのキャラクタカスタマイズで、色々と頑張ってネズミのキャラクタを出力できたとしても(ゲームベンダ側は)著作権侵害になりません。
      この出力を利用した場合に著作権侵害に問われるのは、色々と頑張って利用した側です。

      著作権というのは魔法の権利ではなく、非常に長い保護期間とのバーターで、一般的に理解されてるよりかなり弱い権利です。
      偶然に同じ出力になったとか、必然的に同じ出力になるとか、そういうのでは侵害には当たりません。
      普通ではない複雑な操作で同じ出力になると言うのもダメです。
      それでOKなら、GCCに特定のコードを読ませたらネズミのキャラクタを出力できると言って、GCCを訴えるようなこともできてしまいます。

      • by Anonymous Coward

        生成された問題のあるデータの情報量の大部分が意図的な操作の方に由来するならノーカンってのは分かるよ?
        「book」と繰り返させるとパクリ元を吐き始める [cnet.com]のはダメでしょ

        つまり与える情報量がゼロの時こいつらは学習データ再生機に戻るわけ
        それが「学習は人間にも認められた行為だからセーフ」にはならないんだよ

        • by Anonymous Coward

          洗脳して秘密を聴きだすようなことして漏洩したとかいうようなもんだからなぁそんなの

          • by Anonymous Coward

            学習データに出力されたものと同一のものが使われているならその理屈は通用しない

            • by Anonymous Coward

              じゃぁ丸暗記できる人間はみな殺せって話なん?

              • by Anonymous Coward

                じゃぁ丸暗記できる人間はみな殺せって話なん?

                誰がそんな話してるん?

            • by Anonymous Coward

              なんで?説明できます?

        • by Anonymous Coward

          #与える情報量がゼロの時こいつらは学習データ再生機に戻る
          違うだろ
          でそれがなんで
          #それが「学習は人間にも認められた行為だからセーフ」にはならないんだよ
          に繋がるんだ?

        • by Anonymous Coward

          学習さえ挟めば実質ただのコピーであっても著作権違反にはならないという判例ができるのは怖いね

          • by Anonymous Coward

            いや、公表した時点で(公表の仕方によっては)著作権違反になる

            なぜ
            #学習さえ挟めば実質ただのコピーであっても著作権違反にはならないという判例ができる
            と思ったんですか?またそういう判例はあるのですか?

            • by Anonymous Coward

              これからできるとしたら怖いねという話ですが

    • by Anonymous Coward

      贋作を書けと言ったら贋作が出る
      コピペを出せと言ったらコピペが出る
      そんなので全体が不正だと言ったらコンピュータ自体が不正も不正大不正なものだと思うんだよねぇ

  • by Anonymous Coward on 2024年01月14日 12時38分 (#4593138)

    NYTが終ってんだよ!

    ここに返信
  • by Anonymous Coward on 2024年01月14日 18時09分 (#4593224)

    日本政府もプロンプトで禁止することを技術的保護手段ということにしたいみたいだけど、簡単にすり抜けられてすでに脆弱なことが分かっている対策をしていることがサービス事業者の免責にまでなるのかね。

    ここに返信
    • by Anonymous Coward

      というか、免責はしない方がいいでしょ。たとえ学習元がパブリックドメインやAIの生成物だったとしても、それを言えば済む話で。

  • by Anonymous Coward on 2024年01月15日 7時55分 (#4593391)

    検索エンジンの様に手放しで放置可能なものであれば
    発展するとと思うが、裏に小人さんがいるわけだな
    裏方が見えた時点でもう底が見えた様なもんですな
    これじゃダメだな

    ここに返信
typodupeerror

開いた括弧は必ず閉じる -- あるプログラマー

読み込み中...