BOM有りに統一すべきだった (#4051235) | 『メモ帳』標準のBOMなしUTF-8に、Windows Searchは対応していない

「『メモ帳』標準のBOMなしUTF-8に、Windows Searchは対応していない」記事へのコメント

記事ページを表示すべてのコメント取得

検索116コメント Log In/Create an Account

BOM有りに統一すべきだった (スコア:0)

by Anonymous Coward on 2021年06月15日 16時10分 (#4051235)

BOMは「ゴミ」であって不要なデータが入ってくるのが無駄だと主張する人がいますが、無駄なのは文字コードの自動判別の方です。
よくある文字コードを自動判定するという動作は、ファイルの内容の一部（1KBとか）、アプリによってはファイルの全部を読んでから文字コードを判定するので非常に負荷が大きいのです。
BOMなら3バイト読むだけで済みます。
そして、Unicodeに対応しているアプリであればBOMは文字コード・エンディアンの判別に使えばいいし、そうでないなら無視すればよろしい。
UTF-8のBOMがあるだけで不具合起こすアプリなんていうのは、今時そっちの方がおかしいので修正すればいいのです。
0xEF 0xBB 0xBF の3バイトがあれば、無視するだけですよ。
文字コードの自動判別と違って、たったプログラムのコード数行ですむ改修です。そっちにもってくべきでした。
複数のファイルを結合したときの問題？
インタプリタ言語でのエラー？
どこにあろうが 0xEF 0xBB 0xBF などのBOMを無視すればいいだけでしょう。
ゴミがどうのという主張に対しては、改行コードをLFじゃなくてCR+LFを使えば改行ごとに1バイト無駄になるし、
タブインデントの代わりにスペース4でインデントすればインデントのたびに3バイト無駄になりますが、そんなの気にする時代じゃないでしょう。
- Re:BOM有りに統一すべきだった (スコア:2)
  
  by kcg (26566) on 2021年06月15日 16時24分 (#4051252) ホームページ日記
  
  検索に関しては識別などしないでデフォルトコードページとUTF-8の両方ともインデックス作っておけばいいんじゃないですかね。
  どっちかでマッチすればよいのだし。
  
  シェア
  
  親コメント
- Re:BOM有りに統一すべきだった (スコア:2)
  
  by okome (1916) <reversethis-{ten.esisiis} {ta} {emoko}> on 2021年06月16日 9時32分 (#4051829) ホームページ日記
  
  自動判別自体が問題になるので最近はhttpでも文字コード指定が必須。
  時代後れすぎる。
  
  --
  okome
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  個人的にはゴミデータ以前に
  BOM無しで手間がかかることは有るけど困ることは滅多になく、BOMありで困る事はあっても良かったと思う事はなかったのでBOM無しに統一して欲しかったです
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    一部の人にはとことん迷惑という意味で、往年のMacバイナリを思い出した。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      しかし、この問題はBOMでなくそれこそリソースフォークみたいなので対応するのが筋がいいと思うけどな。
      UTF8でBOMなんて無意味極まりないし、ASCIIが存在する以上BOMはどうにもらん。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  わかってないなー。サイズが勿体ないのではなくて、
  バイトオーダーをわざわざ示す行為が二度手間で無駄なんだよ
  - Re:BOM有りに統一すべきだった (スコア:1)
    
    by qwerty (20776) on 2021年06月15日 17時05分 (#4051297) 日記
    
    世の中に UTF-8 だけしか存在しないならね。
    現実は 8bitの文字コードなんて山のようにあるから、
    ファイルの内容を解析するプログラムなら、文字コードを指定するか、
    決め打ちするか、コードを推測するかのどれかが必要になる。
    良くも悪くも WindowsSearch で文字化けした結果が表示されないのはBOMのおかげっていうことだ。
    
    --
    [Q][W][E][R][T][Y]
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      BOMはあくまでバイトオーダーを示すために規定されたもので、BOMによってエンコードを判定できるのは結果論でしかないけどな
      - Re:BOM有りに統一すべきだった (スコア:1)
        
        by qwerty (20776) on 2021年06月15日 17時29分 (#4051321) 日記
        
        どちらにしろ推測が必要ならビット列の出現率からエンコード推測するよりマシでしょう。
        
        --
        [Q][W][E][R][T][Y]
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        いやいやこのご時世、BOMを信用してエンコードを決定するなんて頭お花畑もいいところでしょ
        悪意のある入力をいくらでも食わせられそう
        
        Re:BOM有りに統一すべきだった (スコア:1)
        
        by qwerty (20776) on 2021年06月16日 1時02分 (#4051679) 日記
        
        「推測する」は「信用する」ではない
        
        --
        [Q][W][E][R][T][Y]
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        それでは#4051321の文意・趣旨をお聞かせ願おうか。詭弁なら結構だ。
      - もともとは～とか言い出すと (スコア:0)
        
        by Anonymous Coward
        
        Windowsの改行コードに使われている CR (キャリッジリターン) と LF (ラインフィード) の意味はご存知でしょうか。
        タイプライターでは印字装置は固定され、紙の方が上下左右に移動することで、文字送りや行送りが行われるんです。
        CRは、紙を固定して移動する装置（キャリッジ）を元の位置に戻すことで、LFとは行を送る（タイプライターなら紙を進める）ことです。
        CRとLFはあくまでタイプライターの動作を示すために規定されたもので、CR+LFによって改行を判定できるのは結果論でしかないのですよ。
        これを考えればもともと何を目的としていたかなんて無意味であることが理解できるはず。
        話をBOMに戻すと、例えば、RFC3023
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        文字コード判別はバッドノウハウの集合体だということですね。
        そんなものをありがたがる気にはなれません
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        昔のRFCは、当時の考えの浅はかさや甘さを示すバッドノウハウ。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        20年前の段階で、BOM で文字エンコーディングを判別すべきとかそういうRFCがあるんです。
        そのように書いてある箇所が当のRFCに見つからないんですが、具体的に示してもらえますかね。
        一瞥した限りでは、BOMはもっぱらUTF-16のバイトオーダーを判別する文脈にしか出てきません。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        https://tex2e.github.io/rfc-translater/html/rfc3023.html [github.io]
        8.9 Application/xml with Omitted Charset and UTF-16 XML MIME Entity
        Specifically, the XML processor reads the BOM, and thus knows deterministically that the charset is UTF-16.
        具体的には、XMLプロセッサはBOMを読み取り、こうして文字セットがUTF-16で確定することを知っています。
        のようにBOMが～の場合、CHARSET宣言が～の場合など、条件に応じて消去法等で文字
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        文字コードの判別じゃなくてUTF-16か否かの判別に使うことしか言及してないじゃん。
        この話がUTF-8にも適用されるってソースは何ら示されてない。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      8bitの文字コードなんて山のようにあるなら、
      WindowsSearchもおとなしくコードを推測しとけって話ですわな。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      アスキーの方も最後にこう書いてある。
      ＞UTF-8のテキストがほとんどになって、シフトJISのファイルの利用率が下がれば、
      ＞Windows SearchもBOMなしのUTF-8を全文検索できるようになるかもしれない。筆者が生きてる間にそうなるといいんだけど……。
      ただ実現する前にWindowsがなくなる方が現時的だろうね。
      それとも出来るようになるのはWindows13の頃かな？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  BOM無しUTF-8の一番の利点は既存のASCIIコードしか想定してないプログラムが修正なしで動く可能性がそこそこ有るという部分なのでBOM付きにしたらUTF-8の意味がない。
  例えば売れた時刻,品名,個数がカンマ区切りで書かれているファイルを処理するプログラムがあるとする。
  ここでファイルがBOM無UTF-8で品名にUTF-8文字が含まれていても、多くの場合プログラムの修正はいらない。でもBOM付だと修正しないと誤動作する。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    そのASCII互換というのはUTF-8を普及させる段階では最大のメリットと言えたでしょう。
    しかしUTF-8が一般化した現時点においては、BOMによってUTF-8であると判定できるメリットが、UTF-8非互換のプログラムを誤動作させるデメリットを上回っていると言えるでしょう。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      3バイトも使うなら、タグでいいんじゃないかって気になるからな。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      なんだかなー
      プログラマー(not プログラム)の都合でASCIIテキストのリソースを全否定して冒頭にBOMを付けさせるのか
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    CSVを使っているということはお手軽に書いたバッチファイルや簡易的なスクリプトだと思いますが、BOMを無視or削除するなんてコード、原始的なWindowsバッチファイルやシェルスクリプトでも数分あれば書けます。
    古いプログラムなら修正すればいいですし、今時他のユーザ（社内の他の従業員を含む）がBOM付きファイルを処理することすら想定できていないならプログラマーとしての資質に問題があるでしょう。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      ゴチャゴチャとご高説を垂れてるけど、コストが掛かる（コード作成、テスト、デプロイ）ことに触れていない時点で、言葉に反して君が3流である証明になってるよｗ
- Re: (スコア:0)
  
  by Anonymous Coward
  
  BOM入ってるとcatで簡単に結合できないし、パイプでテキスト処理したあとにBOM付け直したりが鬱陶しいじゃん。
  どう考えてもゴミじゃん。
  - Re:BOM有りに統一すべきだった (スコア:1)
    
    by qwerty (20776) on 2021年06月15日 20時36分 (#4051498) 日記
    
    そりゃあ cat は Unicode 非対応だから。
    むしろ勝手に BOM 操作したらバイナリが壊れるから cat として使えない。
    cat じゃないプログラムで連結するか input 側でBOM対応すればいいだけ。
    そもそもファイルの途中で ZWNBS 出てくるのはUnicode テキストとしてはエラーじゃないから。
    いつまでもテキスト連結に cat を使うというのが Unicode 推進側の怠慢である。
    
    --
    [Q][W][E][R][T][Y]
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      catじゃないプログラムって例えば何？
      たかだかBOMの為にUnixのソフトウェア資産とノウハウを捨てるなんてバカバカしい。
      専用ソフトウェアで処理する前提なら、プレーンテキストである必要すらない。
      - Re:BOM有りに統一すべきだった (スコア:1)
        
        by qwerty (20776) on 2021年06月15日 22時06分 (#4051566) 日記
        
        知らないよそんなの。
        そもそも怠慢してるんだから well known なソフトは無いんじゃないの。
        Unicode以外だってそれなりに文字コード処理必要なんだから
        cat だけ怠慢してるのが悪い。
        
        --
        [Q][W][E][R][T][Y]
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        結局対応ソフトが無いのでは使い物にならない。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      別にcatに限った話じゃない。
      リダイレクトやパイプで繋いだときに上流のコマンドがUTF-8か否かを識別して、出力の時にBOM付けるようにしないといけない。
      ファイルを最初に読むプログラムだけなら話は簡単だが、findstrやgrepみたいな加工するコマンドのアウトプットのこと考えると。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    テキストファイルをテキストエディタ以外で操作するなんてことは、エンジニアじゃない人にはわからない。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    統一されていれば必然的にそういう面倒もなくなる(つまりある意味不具合なので簡単に結合できるよう cat 側が対応する)とは考えないんですかね
  - - cat に関する訂正 (スコア:0)
      
      by Anonymous Coward
      
      catコマンドの実装に関する部分が正確性にかけていた（コンソールの仕様を含めてcatコマンドであるかのような書き方をしていた）ので突っ込まれる前に訂正
      正しくは
      「一般的なLinuxコンソールではBOMは不可視なので、catコマンドの標準出力にBOMが含まれていても気になることはない。
      　だから無視すれば良い。」
      です。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        その出力からパイプで繋いでファイル作成とかしてると、BOM付きファイル名の厄介なファイルが生成されてしまうのでは…
        地獄でしかない。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        BOM推進派 == UNIXの思想を理解してない半可通、というのがここまでの感想。
        
        Re:cat に関する訂正 (スコア:1)
        
        by nekopon (1483) on 2021年06月16日 8時58分 (#4051803) 日記
        
        UNIXはただ死んだだけでなく、本当にひどい臭いを放ち始めている -- R.Pike
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        それはカーネルと権利関係の話でしょ。
        テキストベースのコンソールの文化は、そもそも死んですらいないどころか、サーバーではデファクトスタンダードだ。
        
        Re:cat に関する訂正 (スコア:1)
        
        by nekopon (1483) on 2021年06月16日 10時29分 (#4051870) 日記
        
        デファクトスタンダードが腐ってないという理由はない
        // Plan9 はそこからスタートしたんじゃなかったっけ
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        横から失礼。その「理由」を具体的に示してもらいたいね
        文脈から判断するに、「(デファクトスタンダードとなった)テキストベースのコンソールの文化」が
        腐ってる理由、ってのがちゃんとあるんだよね
        
        Re:cat に関する訂正 (スコア:1)
        
        by nekopon (1483) on 2021年06月16日 11時22分 (#4051911) 日記
        
        腐っているという理由もない、というのがいつもの私の答えです。
        が、これだけデータがメタだらけになっている昨今コンソールだけではしんどいです…
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        どうぞこれからもしんどい思いをお続けください。いつも通りに
- Re: (スコア:0)
  
  by Anonymous Coward
  
  今に至って「BOM有りに統一すべきだった」だとか、擁護する相手が逆だろ
  バイトオーダーマークの意味を未だに勘違いして
  自明なコードすらトチって不具合起こすアプリなんていうのは、
  今時そっちの方がおかしいので修正すればいいのです。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    べき論でいえばWindowsSearchを直すべきなのは明らかなのに
    無理矢理その肩を持つからこんな苦しい長文になる。
    不具合起こすアプリに「今時」も「どっちの方が」もない。
    ましてや「そもそも規格が～」とか、OS純正アプリの言い訳には酷すぎるわ。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  ASCIIの範囲しか含まれてないデータなのに、
  「自動識別ツールがこのデータはSJISだと判定している、仕様通りUTF-8で納品してください」って
  主張する客に困らされた、みたいな話を思い出した
  #逆だったかな？話の細部は忘れた
- Re: (スコア:0)
  
  by Anonymous Coward
  
  何を気にしない時代なのかは知らんけど、
  いまさらメモ帳がBOMなしUTF-8をデフォルトしたから気にせず使ってるだけだ。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  テキストファイル＝RAWデータである価値が全く理解できとらんな。
  余計なデータを1ビットでも付加した瞬間にそれはリッチテキストとして扱うべき存在に変貌する。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    これに一票
    （3バイト連続って、検査するの意外と面倒だし）

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

『メモ帳』標準のBOMなしUTF-8に、Windows Searchは対応していない More ログイン

「『メモ帳』標準のBOMなしUTF-8に、Windows Searchは対応していない」記事へのコメント

BOM有りに統一すべきだった (スコア:0)

Re:BOM有りに統一すべきだった (スコア:2)

Re:BOM有りに統一すべきだった (スコア:2)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:BOM有りに統一すべきだった (スコア:1)

Re: (スコア:0)

Re:BOM有りに統一すべきだった (スコア:1)

Re: (スコア:0)

Re:BOM有りに統一すべきだった (スコア:1)

Re: (スコア:0)

もともとは～とか言い出すと (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:BOM有りに統一すべきだった (スコア:1)

Re: (スコア:0)

Re:BOM有りに統一すべきだった (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

cat に関する訂正 (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:cat に関する訂正 (スコア:1)

Re: (スコア:0)

Re:cat に関する訂正 (スコア:1)

Re: (スコア:0)

Re:cat に関する訂正 (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)