アカウント名:
パスワード:
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
ナニゲにアレゲなのは、ナニゲなアレゲ -- アレゲ研究家
タグは無理ぢゃね? (スコア:0)
<謎語>謎語だにょ</謎語>
ってかんじにされると、文字列処理が面倒。検索しにくくて仕方ないだろう。
表現の方法としては理想なんだろうが、利便性は最悪なので普及しないと思う。
文章が何エンコードでかかれているか?って問題だったら、
UTF-8だったらBOM で十分ぢゃないの?
まぁ、BOMなんてトラブルメーカは誰も使っていないけどな。
いっそ、このまま何もしないで UTF-8に一本化を歩めば、
判定してみてわかんないときは、UTF-8 って処理が組めるので、
そっちの方がみんなハッピーになれると思う。
バイナリフォーマット (スコア:2, 参考になる)
他の皆は multilingualization(多言語化、日本語の中で中国語を引用するとか)の話をしてる
みたいなので、Byte Order Mark みたいな話は答えになってないと思います。
文字コード体系とエンコーディングが違うとか言い始めた時点でもうテキストじゃなくて
バイナリファイルフォーマットなんだから、バイナリフォーマットらしく振舞えばいいんじゃないかと思います。
タグ付けられて何が困るっていうと、まず通信エラーなどで途中でぶつ切りになったり、
エディタで途中からコピーペーストした時に<日本語> 開始タグがどこに出てきてるかさかのぼらなきゃならない。
一行前かもしれないし、1GB前かもしれない。その点 Unicode サロゲートは 4byte 前と後を読めば切れ目が分かる。
バイナリフォーマットで使われるのはファイルをブロックの配列と考えて、固定長のブロックならブロックの先頭のヘッダまでさかのぼればいい。これをやるのが Unicode エンコーディングの仕事なのか、その上のレイヤなのかっていうのはジャンケンで決めればいい話。
Re:バイナリフォーマット (スコア:1)
欧米人がジャンケンに血道を上げているのは [gigazine.net]、
このような事態を見越した深慮遠謀だったのですね!(違