パスワードを忘れた? アカウント作成
13876417 story
プログラミング

令和の「令(U+4EE4)」にはCJK互換漢字「令(U+F9A8)」があることに注意を 63

ストーリー by hylom
レアケースではあるがチェックした方が良さそう 部門より

4月1日に発表された新元号「令和」だが、UNICODEにおいては「令」の文字を表すコードポイントとして「U+4EE4」と「U+F9A8」の2つがある点が指摘されている(18N:令の字にUNICODEのコードが2つあったはなし)。

U+F9A8の方はCJK互換漢字であり基本的には利用が推奨されないが、誤って使用される懸念があるようだ(@keikuma氏のTweet@ka0com氏のTweet@tempel_kougabu氏のTweet)。

  • by manmos (29892) on 2019年04月02日 14時50分 (#3591960) 日記

    サマータイムといい、元号発表時期といい、IT業界のエンジニアを窮地に陥らせようとする政府の努力にはおそれいる。

    #親玉が「イット」てなこと口走って笑われた意趣返しかなぁ。

    ここに返信
    • Re:余念がない (スコア:5, 参考になる)

      by Anonymous Coward on 2019年04月02日 15時44分 (#3591996)

      いや、U+F9A8は韓国の文字コード規格KS X 1001との往復変換の為らしいからこの件で責めるべきは韓国。
      ただでさえ字母の組み合わせに大量の文字数を消費しただけでなく、読みの違う漢字には読み毎に違うコードを割り振ったのよ。
      何という暴挙。

      まぁ国内向け規格でどうせ8836字分もの区点位置があるってんなら使えるだけ贅沢に使おうってのは分かるし、相互運用性も重視しようってんでそのまま取り込んだUnicodeの立場も理解できる。
      ただそういう文字の年号採用を避けろって意見は理解できん。
      CJK互換漢字って472もあるし、使用は避けるのが原則だぞ。
      何言ってんだ?

      • by Anonymous Coward on 2019年04月02日 23時20分 (#3592289)

        JIS X 0213でいくつか勝手に再利用してるくせに韓国を非難するのは身勝手にもほどがあるだろ

      • by Anonymous Coward on 2019年04月03日 2時50分 (#3592367)

        漢字について原規格分離(往復変換の保証)を主張して採用させたのは日本で、むしろ韓国はKS X 1001において読み別にされている漢字はUnicodeでは統合してしまっても構わないという考えじゃありませんでした?

      • by Anonymous Coward

        もうCJでいいでしょ。Kは漢字を使ってないし。

        • Re:Kはいらない (スコア:3, おもしろおかしい)

          by Anonymous Coward on 2019年04月02日 21時37分 (#3592235)

          「CJK」は「84のキーを与えてもキートップ刻印と文字の1:1対応は不可能だと抜かすが無視するには金持ちすぎるひたすら面倒臭い言語群」という意味なので

          CJK以外のほとんどの言語では今でも {84キー+Shift以内で全文字と記号をカバーできる} OR {その言語で作業する技術者は存在しないとみなし圧殺して問題ない} ので

          CJK国家が滅亡を宣言できるほどに軽んじられることにならない限り外れることはない

        • by Anonymous Coward

          そもそも統一漢字を許しているのだから云々

        • by Anonymous Coward

          日本がわざわざハングルを掘り出して教育してしまったが故の悲劇だなぁ…
          アルファベットか平仮名片仮名でも使っていればCJだけで済んだであろうに。

          ある意味、日本の責任だしほんとの意味で自業自得かも知れん。
          あいつらの反日ネタは基本的に矛盾してるとか日本関係ねぇよとか当時の標準だとか
          曲解がすぎるとか金で責任引き取ってるだろとかいろいろツッコミどころがあるが、
          ハングルなんぞ発掘しやがって、的な話ならたしかに日本の責任に思える。

        • by Anonymous Coward

          CJK互換漢字の問題って、ハングルが無かったらもっと重篤になっていたと思うのだが。

    • by nnnhhh (47970) on 2019年04月02日 14時59分 (#3591967) 日記

      いやそれは妄想では
      IT業界の事なんか何も考えてないだけでしょ

      • by Takahiro_Chou (21972) on 2019年04月02日 15時32分 (#3591981) 日記

        愛の反対は憎悪ではなく無関心

      • by Anonymous Coward

        今回で天皇の終身制も無くなって自由に行われるようになった事だし、次は任期制にして1期10年丁度1月1日で切り替わる様にでも変更すると良いかも。
        皇太子もそこそこのお年だから、2期もやればやっぱり引退の話も出るだろう。

        その後は天皇の在位との分離をしてしまうとかすれば、その後はもう混乱も無くなるだろう。

        • by Anonymous Coward

          いやいやいや分離はやめてくれ。
          3年そこらでコロコロ変えるアホ政府がいたから、在位とひっつけて任意で変えられなくしたんだから。

          • by Anonymous Coward

            そこは1期10年の固定なんかで。
            ついでに天皇陛下がご自身で名付けるって新しい伝統にでもすれば良い。

            • by Anonymous Coward

              >天皇陛下がご自身で名付ける
              陛下が政治に影響力を行使することは出来ませんので。

          • by Anonymous Coward

            「今年の漢字」みたいなノリで、毎年年末に「来年の年号」って発表するようにすればいいよ。
            干支と同程度の存在感で十分。

          • by Anonymous Coward

            吉兆問わず大きな出来事がある度に変えればよいのだ
            滅多に変わらんからその時になって慌てたり、西暦とかでなく元号で済まそうとする輩が出るのだ
            コロコロ変われば通常の作業になるし、西暦との併記や元号以外を使う事を前提に、いっそ廃止もとなろう

        • by Anonymous Coward

          Windowsを見習って半年に一度か、Chromeのように6週間ごというのもいいな。

    • by Anonymous Coward

      土方としては仕事が増えてハッピーじゃん。

    • by Anonymous Coward

      それはむしろIT業界の都合を他に押し付けて逆切れしているだけなのでは。
      そもそもなんで同じ文字を表すコードが2つあるのよ。

      • by Anonymous Coward

        そもそもなんで同じ文字を表すコードが2つあるのよ。

        読みの情報を一緒に持たせられるというメリットがあることはあるけど……
        当て字や読みを自由に変化させて良い文化である以上、
        読みの情報は別に持たせる方がスマートか。

      • by Anonymous Coward

        それはむしろIT業界の都合を他に押し付けて逆切れしているだけなのでは。
        そもそもなんで同じ文字を表すコードが2つあるのよ。

        文句は韓国のIT業界に言ってくれ。

      • by Anonymous Coward

        そもそも代用漢字とか簡体字とか、同じ文字を表す文字がいくつもあるのだから混乱しない方がおかしい

    • by Anonymous Coward
      元号制度よりはるか後から生まれた業界が文句をいうのはどうかと思う。
      サマータイムと違い、とうの昔から変わることがわかっている元号程度に対応できないようではIT業界とやらの技術力に不安を覚えます。
      • by Anonymous Coward

        出来るか、出来ないかじゃなくて、
        やりたくないんだよ
        馬鹿らしいから

        • by Anonymous Coward

          今回の件は何もしなくてもいいだろよ
          それこそ馬鹿らしい

  • 現実には波ダッシュとか日本語における丸括弧は推奨されない方が正しい方になってるんだよね。
    別に豆腐とか下駄になるわけじゃないし、一般人はIMの変換リストやコピペ元に入ってれば気にせず使うよ。
    すでにコメントにもあるが、MS-IMEのネットワーク辞書登録をしまくるとかWebページ上で早く大量に使った方が勝利するだろう。

    コンピュータ技術者なら、もともとUnicodeとして入力されたテキストに互換文字が入ってたら100回くらい警告してから処理継続するようにすべてのプログラムを組みなおすべきだな。

    ここに返信
  • by qwerty (20776) on 2019年04月02日 17時35分 (#3592057) 日記

    日本人が使うIMEでそっちの互換漢字が先に候補に出てくる可能性はほぼない。
    むしろそんなIMEがあったらそっちを糾弾すべき。
    わざわざ文字コード表から入力する人もいないだろうし。
    注意すべきは手書き入力くらい。

    # こんな問題よりITギョーカイ(IME屋/OS屋)は合成文字が存在する字で
    # 濁点・半濁点とかを結合文字で入力させるIMEやファイルシステムを絶滅させてほしい。

    --
    [Q][W][E][R][T][Y]
    ここに返信
  • by Anonymous Coward on 2019年04月02日 15時13分 (#3591975)

    ウェブ上に、後者の例「令和」が拡散され、それを学習したIMEたちが候補にこちらを使うようになり・・・

    ここに返信
    • by Anonymous Coward

      実際、誰かが示さない限り、標準的な変換辞書には前者しか入って無いだろうしね。

      • by Anonymous Coward

        MSIMEもGoogleサジェストもユーザー入力から学習してませんでしたかね?
        それ悪用して変換汚染&サジェスト汚染されるのでは無いかな?と。

        前にあった気がする。
        しかも今回は字形で区別付かんから、気づいた時には違う方が蔓延ってどーにもならん結末になりそうな。。

        • by Anonymous Coward

          MS-IMEは兎も角、Googleのは「中途半端に広がってるけど、言葉の変遷として認知されているわけではない誤用」がちらほら出てくるからねぇ。
          そこら辺の正確さを求めるならATOKだろうね。

          • by Anonymous Coward

            サジェストはネット上のデータ元にしてるから直せないってのがキツいですね…
            クロールで訂正して候補出して飛べるようにしても飛んだ先には無い文字になっちゃうし。

            まあIME辞書は訂正可能だけど、誤字のほうが正解だ!と訂正依頼攻撃合戦になるからこれはコレで問題あったり…

  • by Anonymous Coward on 2019年04月03日 0時33分 (#3592338)

    2バイト目が5Cにならない字が選ばれて良かったと密かに思っている人が沢山居そう。

    ここに返信
  • by Anonymous Coward on 2019年04月02日 15時20分 (#3591978)

    どうせ元号なんて文字で入力させないし、互換漢字とかは出力に使用しなければ良いだけ。
    通常のシステムなら無視しとけば大丈夫だよ。

    どうしても対応したかったら元号だけ特定対応するのでなくて、互換漢字全体の正規化ロジックを挟むことを検討すべきかな。

    ここに返信
  • by Anonymous Coward on 2019年04月02日 15時38分 (#3591987)
    例の合字(U+32FF)を正規化して二文字の漢字列を取り出すときに、韓国語ロケールで処理すると語頭の「令」だからU+F9A8に変換される、とかになるのだろうか。いずれにしてもどこからデータが送られてくるか分からないシステムではそれなりの対策が必要そうに思えます。使われ方により切り捨てても構わないという判断もありでしょうけど。
    ここに返信
    • by Anonymous Coward

      互換漢字のでてくるような正規化は有り得ない。

      それよりは、”令和元年10月”とかがくる事を心配したほうがいい

  • by Anonymous Coward on 2019年04月02日 19時41分 (#3592157)

    異体字セレクタを使って、U+4EE4+U+E0101にすべきだなんて言っているアホがいたなあ。

    ここに返信
    • by Anonymous Coward

      U+4EE4-U+E0102じゃダメなのか?

      • by Anonymous Coward

        どっちでもいい。ので、異体字セレクターで絞る必要がそもそもない

  • by Anonymous Coward on 2019年04月02日 19時56分 (#3592169)

    使っているつもりでもTwitterに投稿した途端にU+4EE4に文字化けしたりするし

    ここに返信
    • by Anonymous Coward on 2019年04月02日 20時21分 (#3592194)

      CJK互換漢字は、対応するCJK統合漢字と正準等価(別のコード表現をとっているだけで視覚的・意味的に全く等価)なので、正規化するとCJK統合漢字に変換される。

  • by Anonymous Coward on 2019年04月03日 9時07分 (#3592425)

    むかついて会社を辞めるときに仕込むネタでしょ?

    ここに返信
typodupeerror

UNIXはシンプルである。必要なのはそのシンプルさを理解する素質だけである -- Dennis Ritchie

読み込み中...