バイナリフォーマット (#1124108) | 文字エンコーディングはUTF8で本当に十分なのか？

「文字エンコーディングはUTF8で本当に十分なのか？」記事へのコメント

記事ページを表示すべてのコメント取得

検索227コメント Log In/Create an Account

タグは無理ぢゃね? (スコア:0)

by Anonymous Coward

<日本語>日本語です</日本語>
<謎語>謎語だにょ</謎語>
ってかんじにされると、文字列処理が面倒。検索しにくくて仕方ないだろう。
表現の方法としては理想なんだろうが、利便性は最悪なので普及しないと思う。

文章が何エンコードでかかれているか?って問題だったら、
UTF-8だったらBOM で十分ぢゃないの?
まぁ、BOMなんてトラブルメーカは誰も使っていないけどな。

いっそ、このまま何もしないで UTF-8に一本化を歩めば、
判定してみてわかんないときは、UTF-8 って処理が組めるので、
そっちの方がみんなハッピーになれると思う。
- バイナリフォーマット (スコア:2, 参考になる)
  
  by j3259 (7093) on 2007年03月11日 3時50分 (#1124108) ホームページ日記
  
  タグ付けられると文字処理が面倒になるっていうのは同意なんですが、
  他の皆は multilingualization（多言語化、日本語の中で中国語を引用するとか）の話をしてる
  みたいなので、Byte Order Mark みたいな話は答えになってないと思います。
  
  文字コード体系とエンコーディングが違うとか言い始めた時点でもうテキストじゃなくて
  バイナリファイルフォーマットなんだから、バイナリフォーマットらしく振舞えばいいんじゃないかと思います。
  
  タグ付けられて何が困るっていうと、まず通信エラーなどで途中でぶつ切りになったり、
  エディタで途中からコピーペーストした時に<日本語> 開始タグがどこに出てきてるかさかのぼらなきゃならない。
  一行前かもしれないし、1GB前かもしれない。その点 Unicode サロゲートは 4byte 前と後を読めば切れ目が分かる。
  バイナリフォーマットで使われるのはファイルをブロックの配列と考えて、固定長のブロックならブロックの先頭のヘッダまでさかのぼればいい。これをやるのが Unicode エンコーディングの仕事なのか、その上のレイヤなのかっていうのはジャンケンで決めればいい話。
  
  シェア
  
  親コメント
  - Re:バイナリフォーマット (スコア:1)
    
    by soltiox (25610) on 2007年03月11日 7時16分 (#1124138) 日記
    
    >ジャンケンで決めればいい話
    欧米人がジャンケンに血道を上げているのは [gigazine.net]、
    このような事態を見越した深慮遠謀だったのですね！（違
    
    シェア
    
    親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

文字エンコーディングはUTF8で本当に十分なのか？ More ログイン

「文字エンコーディングはUTF8で本当に十分なのか？」記事へのコメント

タグは無理ぢゃね? (スコア:0)

バイナリフォーマット (スコア:2, 参考になる)

Re:バイナリフォーマット (スコア:1)

スラド