令和の「令(U+4EE4)」にはCJK互換漢字「令(U+F9A8)」があることに注意を 63
ストーリー by hylom
レアケースではあるがチェックした方が良さそう 部門より
レアケースではあるがチェックした方が良さそう 部門より
4月1日に発表された新元号「令和」だが、UNICODEにおいては「令」の文字を表すコードポイントとして「U+4EE4」と「U+F9A8」の2つがある点が指摘されている(18N:令の字にUNICODEのコードが2つあったはなし)。
U+F9A8の方はCJK互換漢字であり基本的には利用が推奨されないが、誤って使用される懸念があるようだ(@keikuma氏のTweet、@ka0com氏のTweet、@tempel_kougabu氏のTweet)。
余念がない (スコア:2)
サマータイムといい、元号発表時期といい、IT業界のエンジニアを窮地に陥らせようとする政府の努力にはおそれいる。
#親玉が「イット」てなこと口走って笑われた意趣返しかなぁ。
Re:余念がない (スコア:5, 参考になる)
いや、U+F9A8は韓国の文字コード規格KS X 1001との往復変換の為らしいからこの件で責めるべきは韓国。
ただでさえ字母の組み合わせに大量の文字数を消費しただけでなく、読みの違う漢字には読み毎に違うコードを割り振ったのよ。
何という暴挙。
まぁ国内向け規格でどうせ8836字分もの区点位置があるってんなら使えるだけ贅沢に使おうってのは分かるし、相互運用性も重視しようってんでそのまま取り込んだUnicodeの立場も理解できる。
ただそういう文字の年号採用を避けろって意見は理解できん。
CJK互換漢字って472もあるし、使用は避けるのが原則だぞ。
何言ってんだ?
Re:余念がない (スコア:1)
JIS X 0213でいくつか勝手に再利用してるくせに韓国を非難するのは身勝手にもほどがあるだろ
Re:余念がない (スコア:1)
漢字について原規格分離(往復変換の保証)を主張して採用させたのは日本で、むしろ韓国はKS X 1001において読み別にされている漢字はUnicodeでは統合してしまっても構わないという考えじゃありませんでした?
Kはいらない (スコア:0)
もうCJでいいでしょ。Kは漢字を使ってないし。
Re:Kはいらない (スコア:3, おもしろおかしい)
「CJK」は「84のキーを与えてもキートップ刻印と文字の1:1対応は不可能だと抜かすが無視するには金持ちすぎるひたすら面倒臭い言語群」という意味なので
CJK以外のほとんどの言語では今でも {84キー+Shift以内で全文字と記号をカバーできる} OR {その言語で作業する技術者は存在しないとみなし圧殺して問題ない} ので
CJK国家が滅亡を宣言できるほどに軽んじられることにならない限り外れることはない
Re: (スコア:0)
そもそも統一漢字を許しているのだから云々
Re: (スコア:0)
日本がわざわざハングルを掘り出して教育してしまったが故の悲劇だなぁ…
アルファベットか平仮名片仮名でも使っていればCJだけで済んだであろうに。
ある意味、日本の責任だしほんとの意味で自業自得かも知れん。
あいつらの反日ネタは基本的に矛盾してるとか日本関係ねぇよとか当時の標準だとか
曲解がすぎるとか金で責任引き取ってるだろとかいろいろツッコミどころがあるが、
ハングルなんぞ発掘しやがって、的な話ならたしかに日本の責任に思える。
Re: (スコア:0)
CJK互換漢字の問題って、ハングルが無かったらもっと重篤になっていたと思うのだが。
Re:余念がない (スコア:2)
いやそれは妄想では
IT業界の事なんか何も考えてないだけでしょ
Re:余念がない (スコア:2)
愛の反対は憎悪ではなく無関心
Re:余念がない (スコア:2)
人は愛を求めるあまりに「無関心よりはまし」を求めて憎悪されていると思ってしまうのでしょうか
Re: (スコア:0)
今回で天皇の終身制も無くなって自由に行われるようになった事だし、次は任期制にして1期10年丁度1月1日で切り替わる様にでも変更すると良いかも。
皇太子もそこそこのお年だから、2期もやればやっぱり引退の話も出るだろう。
その後は天皇の在位との分離をしてしまうとかすれば、その後はもう混乱も無くなるだろう。
Re: (スコア:0)
いやいやいや分離はやめてくれ。
3年そこらでコロコロ変えるアホ政府がいたから、在位とひっつけて任意で変えられなくしたんだから。
Re: (スコア:0)
そこは1期10年の固定なんかで。
ついでに天皇陛下がご自身で名付けるって新しい伝統にでもすれば良い。
Re: (スコア:0)
>天皇陛下がご自身で名付ける
陛下が政治に影響力を行使することは出来ませんので。
Re: (スコア:0)
「今年の漢字」みたいなノリで、毎年年末に「来年の年号」って発表するようにすればいいよ。
干支と同程度の存在感で十分。
Re: (スコア:0)
吉兆問わず大きな出来事がある度に変えればよいのだ
滅多に変わらんからその時になって慌てたり、西暦とかでなく元号で済まそうとする輩が出るのだ
コロコロ変われば通常の作業になるし、西暦との併記や元号以外を使う事を前提に、いっそ廃止もとなろう
Re:余念がない (スコア:1)
干支や旧暦みたいに、祭事にだけ使う様にってすれば、幾ら変わっても良いよね。
実務に使うから問題山積みになるってだけだわ。
Re:余念がない (スコア:1)
Re: (スコア:0)
でもそれは、変わること自体が商売のネタみたいなものだし。
Re: (スコア:0)
Windowsを見習って半年に一度か、Chromeのように6週間ごというのもいいな。
Re: (スコア:0)
土方としては仕事が増えてハッピーじゃん。
Re: (スコア:0)
それはむしろIT業界の都合を他に押し付けて逆切れしているだけなのでは。
そもそもなんで同じ文字を表すコードが2つあるのよ。
Re: (スコア:0)
読みの情報を一緒に持たせられるというメリットがあることはあるけど……
当て字や読みを自由に変化させて良い文化である以上、
読みの情報は別に持たせる方がスマートか。
Re: (スコア:0)
それはむしろIT業界の都合を他に押し付けて逆切れしているだけなのでは。
そもそもなんで同じ文字を表すコードが2つあるのよ。
文句は韓国のIT業界に言ってくれ。
Re: (スコア:0)
そもそも代用漢字とか簡体字とか、同じ文字を表す文字がいくつもあるのだから混乱しない方がおかしい
Re: (スコア:0)
サマータイムと違い、とうの昔から変わることがわかっている元号程度に対応できないようではIT業界とやらの技術力に不安を覚えます。
Re: (スコア:0)
出来るか、出来ないかじゃなくて、
やりたくないんだよ
馬鹿らしいから
Re: (スコア:0)
今回の件は何もしなくてもいいだろよ
それこそ馬鹿らしい
誰が推奨せず、誰が誤ってるかを決めるのか (スコア:2)
現実には波ダッシュとか日本語における丸括弧は推奨されない方が正しい方になってるんだよね。
別に豆腐とか下駄になるわけじゃないし、一般人はIMの変換リストやコピペ元に入ってれば気にせず使うよ。
すでにコメントにもあるが、MS-IMEのネットワーク辞書登録をしまくるとかWebページ上で早く大量に使った方が勝利するだろう。
コンピュータ技術者なら、もともとUnicodeとして入力されたテキストに互換文字が入ってたら100回くらい警告してから処理継続するようにすべてのプログラムを組みなおすべきだな。
Re:誰が推奨せず、誰が誤ってるかを決めるのか (スコア:3, おもしろおかしい)
100回も警告を出していたら、兵庫県警に捕まりますよw
Re:誰が推奨せず、誰が誤ってるかを決めるのか (スコア:1)
気にする事じゃない (スコア:2)
日本人が使うIMEでそっちの互換漢字が先に候補に出てくる可能性はほぼない。
むしろそんなIMEがあったらそっちを糾弾すべき。
わざわざ文字コード表から入力する人もいないだろうし。
注意すべきは手書き入力くらい。
# こんな問題よりITギョーカイ(IME屋/OS屋)は合成文字が存在する字で
# 濁点・半濁点とかを結合文字で入力させるIMEやファイルシステムを絶滅させてほしい。
[Q][W][E][R][T][Y]
IME (スコア:1)
ウェブ上に、後者の例「令和」が拡散され、それを学習したIMEたちが候補にこちらを使うようになり・・・
Re: (スコア:0)
実際、誰かが示さない限り、標準的な変換辞書には前者しか入って無いだろうしね。
Re: (スコア:0)
MSIMEもGoogleサジェストもユーザー入力から学習してませんでしたかね?
それ悪用して変換汚染&サジェスト汚染されるのでは無いかな?と。
前にあった気がする。
しかも今回は字形で区別付かんから、気づいた時には違う方が蔓延ってどーにもならん結末になりそうな。。
Re: (スコア:0)
MS-IMEは兎も角、Googleのは「中途半端に広がってるけど、言葉の変遷として認知されているわけではない誤用」がちらほら出てくるからねぇ。
そこら辺の正確さを求めるならATOKだろうね。
Re: (スコア:0)
サジェストはネット上のデータ元にしてるから直せないってのがキツいですね…
クロールで訂正して候補出して飛べるようにしても飛んだ先には無い文字になっちゃうし。
まあIME辞書は訂正可能だけど、誤字のほうが正解だ!と訂正依頼攻撃合戦になるからこれはコレで問題あったり…
SJISにした時に (スコア:1)
2バイト目が5Cにならない字が選ばれて良かったと密かに思っている人が沢山居そう。
互換漢字なんて無視 (スコア:0)
どうせ元号なんて文字で入力させないし、互換漢字とかは出力に使用しなければ良いだけ。
通常のシステムなら無視しとけば大丈夫だよ。
どうしても対応したかったら元号だけ特定対応するのでなくて、互換漢字全体の正規化ロジックを挟むことを検討すべきかな。
Re:互換漢字なんて無視 (スコア:3)
正規化 (スコア:0)
Re: (スコア:0)
互換漢字のでてくるような正規化は有り得ない。
それよりは、”令和元年10月”とかがくる事を心配したほうがいい
U+4EE4+U+E0101 (スコア:0)
異体字セレクタを使って、U+4EE4+U+E0101にすべきだなんて言っているアホがいたなあ。
Re: (スコア:0)
U+4EE4-U+E0102じゃダメなのか?
Re: (スコア:0)
どっちでもいい。ので、異体字セレクターで絞る必要がそもそもない
U+F9A8の方は (スコア:0)
使っているつもりでもTwitterに投稿した途端にU+4EE4に文字化けしたりするし
Re:U+F9A8の方は (スコア:1)
CJK互換漢字は、対応するCJK統合漢字と正準等価(別のコード表現をとっているだけで視覚的・意味的に全く等価)なので、正規化するとCJK統合漢字に変換される。
これは (スコア:0)
むかついて会社を辞めるときに仕込むネタでしょ?