パスワードを忘れた? アカウント作成
15409621 story
プログラミング

GitHub Copilot がブロックする語句のリスト 33

ストーリー by nagazou
ブロック 部門より
headless 曰く、

GitHub Copilot が処理を拒否する語句が解析され、リストが公開された(The Register の記事)。

Copilot のテクニカルプレビューには侮辱的な語句をブロックするフィルターが含まれると GitHub は説明しているが、具体的な語句のリストは公開されていない。そのため、ニューヨーク大学の Brendan Dolan-Gavitt 氏は Visual Studio Code の Copilot 拡張機能に含まれるブロック対象語句のハッシュ値を抽出し、語句の解析を行ったという。

公開されたリストには 1,025 の語句が含まれ、うち 1,023 語句がデコードされている。ただし、侮蔑語のリストをそのまま公開してしまうことを避けるため、リストは ROT13 でエンコードされている。ROT13 はアルファベットの前半 13 文字を 13 個分後ろのアルファベットに置き換え、後半 13 文字を 13 個分前のアルファベットに置き換えるというものだ。

リストの語句は大半が侮蔑語だが、「boy(s)」「girl(s)」「female(s)」「male(s)」「man(men)」「woman (women)」「ethnic」「gender(s)」「immigrant(s)」「nationality」といった普通の単語も含まれる。また、地名としては「Gaza」「Israel」「Palestine」が含まれている。このほか、「q rsqrt」「qrsqrt」は Quake III のソースコードに含まれる逆平方根を計算する関数「Q_rsqrt」を指すとみられる。Copilot ではこの関数をそのまま再現することが確認され、話題となった。

なお、リストでは 1,170 個の侮蔑語のうち 1,168 個をデコードしたとの説明がみられるが、これは単語 2 つの組み合わせによる熟語(145個)をそれぞれ 2 個として数えたもののようだ。これにより延べ 1,170 個となるが、重複する単語も含めた数となる。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 「boy(s)」や「girl(s)」は「未熟(スキルの低い)人」という侮辱的な意味を持つ使われ方もしており、後者は性的な意味を持つこともあります。

    「female(s)」については、フェミニズムなどを侮辱する目的で使われます。
    これは日本でも同様で「女さん」は同様の意味で用いられます。

    このように、言葉狩りが厳しくなると、普通の単語が差別や侮辱目的で使われるようになるので、そもそも言葉狩りをすべきではないのです。

    普通の単語が差別的に使われる世の中になると、普通の単語を差別的でない意図で使ったのに差別者扱いされたり、逆に「そういう意図ではなかった」と言い逃れができるようになってしまいます。

    • by Anonymous Coward

      そこはあまり問題とは思わないな。婉曲表現は言葉の文化だと思う。

      • 婉曲表現に長けていない人から言葉を発信する権利を奪うのがまともな文化だとは思わないな。

        言葉狩りってのは機械的な物なので、
        狩る対象が一般語彙にまで拡大したら回避技能を持たない限り一方的に狩られて終わり。
        逆に婉曲表現に長けた者による差別表現にはなんら支障を来さない。

        親コメント
        • by Anonymous Coward

          wikipediaがそんな感じなんだよな

        • by Anonymous Coward

          小学生程度に日本語に精通していれば婉曲表現はできるみたいですよ?

          あなたが批判したいのは「言葉狩り」なんだろう?
          それを良しとしないと思う事自体は固定も否定も立場を取らないけど、それを正当化するために婉曲表現まで巻き込んで否定するのは無茶苦茶。
          言葉狩り憎しから批判の対象を完全に取り違えている。

          その場で口に出すべきではない言葉というのは差別やいじめに限ったものではない。
          あなたは便所を化粧室に言い換えたり、人の死を眠りに言い換えたりする文化までも否定しているんだよ。

          • by Anonymous Coward

            お前、京都人の婉曲表現を完全に理解できるの?
            言葉狩りが進むとあのレベル以外は発言できなくなるって意味だぞ。
            京都人が言論を牛耳る世の中とかこの世の終わりだろ。

            • by Anonymous Coward

              それで末法思想が流行ったのですね

            • by Anonymous Coward

              極論だね。その逆は直接表現を強制された世界だよ。

    • by Anonymous Coward

      >言葉狩りが厳しくなると、普通の単語が差別や侮辱目的で使われるようになる

      間違いだよ
      因果が逆

      • by Anonymous Coward

        怒られるから怒られない表現にする、これは分かる
        因果が逆って?

      • by Anonymous Coward

        逆じゃないんじゃない?
        ブログとか見てると、NGワード回避の為に特定の文脈で「刹す」とか書かれてたりする。

    • by Anonymous Coward

      小学生がジンジャードクターという隠語を開発したらしい

      ginger+doctor = 生姜+医者 = 障害者

      • by Anonymous Coward on 2021年09月07日 23時15分 (#4108157)

        うちの子が通っている小学校では、普通学級に通っている発達障害のような言動を繰り返すクラスメイトが「ベンツ」というあだ名で呼ばれ続けています。

        中受率が半分近い地域なこともあって裏表を使い分けられる子が大半なので、先生や保護者に何故そのあだ名なのかを問い詰められても「障碍者」→「外車」→「ベンツ」という由来であるという真実を吐露する児童はおらず、
        「ベンツのようにかっこいいそう呼んでいるんだ」
        「本人が嫌だと言っているわけじゃないのに、Aさんだけあだ名で呼んではならない理由は?
         先生はAさんが『健常者』ではなくて『障碍者』であり特別扱いしなくてはならないと思ってるから?
         もしそうなら、先生のAさんは障碍者ではなく健常者だという主張は嘘ってこと?」(※Aさんの保護者や先生は発達障害を認めていない)
        などと児童らに反論され、「ベンツ」が使われる現象は解消されません。

        10年ぐらい前なら、「ガイジ」などとストレートに呼ぶことが多く差別的なあだ名を禁止するのは簡単だったわけですが、隠語が使われるようになると、それも難しくなるのです。

        親コメント
        • by Anonymous Coward on 2021年09月08日 3時40分 (#4108215)

          言葉狩りという安直な逃げ&子供だから言いくるめられると舐めた対応した(と子供に捉えられてる)結果ですね。

          親コメント
        • by Anonymous Coward

          そういう事例があるから一律にあだ名禁止にしなければならなくなるんだよな。

        • by Anonymous Coward

          なんJのコテハンの元カノのツイッターのが掘り起こされるまで、ガイジって言葉は死語になりかけてたのに・・・復活してしまった

    • by Anonymous Coward

      日本でも同様で「女さん」は同様の意味で用いられます

      ネットで字面で見るぶんには、女「性」より生々しさがないと思うがなあ
      いまここで侮蔑語を生み出したとまでは言わないけど断定が軽々すぎない?

      おっと、もしかして「生み出す」も侮蔑語かな?

    • by Anonymous Coward

      ええCopilotもブロックするべきです
      Cでopiでloなんてとんでもない単語ですよね
      「そういう意図ではなかった」と言い逃れは許されてはいけません

      こうですね?

  • by Anonymous Coward on 2021年09月07日 16時44分 (#4107963)

    ついにemacsのrot13-regionを使う日が来ようとは!!

    # region指定してM-x rot13-regionで変換

    • by Anonymous Coward

      emacsのrot13機能、久々すぎて使い方忘れてたよ。多謝。
      かつてメールやネットニュースをemacsで見ていた頃は普通に使って(使われて)いたのになあ。

  • by poly (42427) on 2021年09月07日 18時28分 (#4108029) 日記
    どんな仕様だといいんでしょうね?
  • by Anonymous Coward on 2021年09月07日 17時05分 (#4107984)

    スラド用のhylom関数はブロックされていないようだな

  • by Anonymous Coward on 2021年09月07日 17時38分 (#4108001)

    は、ニュートン法の初期値が絶妙にうまく選ばれた関数 [wikipedia.org]程度のものと理解しているけど、それが何の問題なの?

    • by Anonymous Coward

      twitterの指摘が全てじゃない?

      Copilotがqrsqrtのソースを丸覚えしてるから、著作権的に問題のあるコピペ状態になる上に、"what the fuck"っていうコメントも完全再現するからでしょ。ホントは教師データからqrsqrtのソースコードを除いてAIを再構築しなきゃいけないんだろうけど、多分、その後の学習の都合かなんかでもう後戻りできないから禁句として追加したんだと思う。

    • by Anonymous Coward

      >それが何の問題なの?

      だからブロックしたんだろうね。

    • by Anonymous Coward

      簡易な実装であっても、コメントやコピーライト表記まで完全一致したら普通は著作権侵害で殺されると思うよ。

  • by Anonymous Coward on 2021年09月07日 22時13分 (#4108136)

    国名が侮辱的な語句とは酷いな。
    ユダヤ人はどう受け取るんでしょうね、これ。
    とある民族は堂々と差別だと喚き散らしているようですけど。

    • by Anonymous Coward

      Koreaだって差別的
      正しくは順番がJよりも先になるCoreaでなければならない

      • by Anonymous Coward

        Japanに替わってNihonまたはNipponが英語圏に普及すればいいのでは?

        • by Anonymous Coward

          Zipanguでいいよ。
          Nとか中途半端。

      • by Anonymous Coward

        オリンピックの入場行進見てたら、英語名はRepublic of Koreaの様だから、Cに変わってもJより後ですよ。

    • by Anonymous Coward

      バーカ

      シオニストが「パレスチナ」の語句をこの世から消滅させようとして、以前から言葉狩りの対象にしていた
      Googleサジェストとかな
      近年になって欧州でようやくイスラエルべったりが見直されて、一部でパレスチナの存在が認められるようになったが、ユダヤ寄りの連中はそれに抵抗して、イスラエルも規制語に含める喧嘩両成敗理論でパレスチナ規制を続けているというわけ

typodupeerror

未知のハックに一心不乱に取り組んだ結果、私は自然の法則を変えてしまった -- あるハッカー

読み込み中...