パスワードを忘れた? アカウント作成
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
2021年9月7日のデベロッパー記事一覧(全1件)
15409621 story
プログラミング

GitHub Copilot がブロックする語句のリスト 33

ストーリー by nagazou
ブロック 部門より
headless 曰く、

GitHub Copilot が処理を拒否する語句が解析され、リストが公開された(The Register の記事)。

Copilot のテクニカルプレビューには侮辱的な語句をブロックするフィルターが含まれると GitHub は説明しているが、具体的な語句のリストは公開されていない。そのため、ニューヨーク大学の Brendan Dolan-Gavitt 氏は Visual Studio Code の Copilot 拡張機能に含まれるブロック対象語句のハッシュ値を抽出し、語句の解析を行ったという。

公開されたリストには 1,025 の語句が含まれ、うち 1,023 語句がデコードされている。ただし、侮蔑語のリストをそのまま公開してしまうことを避けるため、リストは ROT13 でエンコードされている。ROT13 はアルファベットの前半 13 文字を 13 個分後ろのアルファベットに置き換え、後半 13 文字を 13 個分前のアルファベットに置き換えるというものだ。

リストの語句は大半が侮蔑語だが、「boy(s)」「girl(s)」「female(s)」「male(s)」「man(men)」「woman (women)」「ethnic」「gender(s)」「immigrant(s)」「nationality」といった普通の単語も含まれる。また、地名としては「Gaza」「Israel」「Palestine」が含まれている。このほか、「q rsqrt」「qrsqrt」は Quake III のソースコードに含まれる逆平方根を計算する関数「Q_rsqrt」を指すとみられる。Copilot ではこの関数をそのまま再現することが確認され、話題となった。

なお、リストでは 1,170 個の侮蔑語のうち 1,168 個をデコードしたとの説明がみられるが、これは単語 2 つの組み合わせによる熟語(145個)をそれぞれ 2 個として数えたもののようだ。これにより延べ 1,170 個となるが、重複する単語も含めた数となる。

typodupeerror

吾輩はリファレンスである。名前はまだ無い -- perlの中の人

読み込み中...