パスワードを忘れた? アカウント作成
16682295 story
データベース

日本郵便のKEN_ALL.CSVが改善される 48

ストーリー by nagazou
改善 部門より
あるAnonymous Coward 曰く、

郵便番号と住所の変換システムを扱うエンジニアの間で悪名高かったKEN_ALL.CSVだが、2023年6月更新分より、文字コードがUTF-8に、フリガナが全角カタカナになり、町域名が長いときも複数レコードに分割されなくなったファイルが新たに追加された模様。従来通りの書式のファイルもダウンロードできる。今後は町域名に含まれている自然言語の注釈(「その他」「※番地」「以下に記載のない場合」など)をフラグに変換する予定もあるようだ(郵便番号データダウンロード)。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2023年07月05日 13時35分 (#4489583)

    1行にしたりUTF-8にしたutf_all.csvが別で作られるようになっただけで
    KEN_ALLはKEN_ALLのまま

    • by Anonymous Coward

      例え悪名高いKEN_ALLといえど、使っている人が多いから切り捨てられないというわけですな。

      • by Anonymous Coward

        既に専用のパーサーを書いてしまったからなぁ。
        どうせ新しくするなら、CSVもやめてJSONにしたら、使いやすくてみんな喜んだだろうに。

        • by Anonymous Coward
          もしかしたら原本はExcelなのかも
        • by Anonymous Coward

          こういう純粋な二次元表形式で表せるデータならCSVの方が冗長性がなくパースも高速ですっきりする

          • by Anonymous Coward

            CSVは方言が多すぎて、すっきりはしないだろ。

            • by Anonymous Coward

              KEN_ALL.CSVで使われてる形式が安定していればいいだけの話で、それ以外のCSVの読み込みまで気にする必要はない。

              • by Anonymous Coward

                方言に対応させて作った自前の専用CSVパーサーよりも、圧倒的な実績がある汎用のJSONパーサーのほうが安定してるだろ。
                冗長性や、速度を気にするようなサイズでもない。

              • by Anonymous Coward

                Excelで読めない時点で論外。

              • by Anonymous Coward

                JSONとの対比の話題でExcel持ち出すのが論外

              • by Anonymous Coward

                JSONとの対比の話題で利用方法に考えが至らないのが論外

              • by Anonymous Coward

                CSVファイルをExcelで読んでぶっ壊す奴は死んだほうがいい。
                安易にExcelと関連付けされないように、拡張子を変えておくのが推奨。

              • by Anonymous Coward

                中身がcsvでも拡張子はtxtにしておいた方が無難
                Excelでの取り回しもそっちの方が楽だし

          • by Anonymous Coward

            KEN_ALL.CSVはまさに純粋な二次元表形式だと思ってたら足元をすくわれる奴

        • by Anonymous Coward

          まだ"以下に掲載がない場合"や"一円"とかは残っているので自分のは使い道はありそうです

    • by Anonymous Coward

      KENとは何だったのか?

      • by Anonymous Coward

        都道府県別に提供しているファイル結合したものだから。
        なぜファイルを都道府県別にしたのかは理解に苦しむが。

        • by nemui4 (20313) on 2023年07月06日 7時42分 (#4489975) 日記

          >なぜファイルを都道府県別にしたのかは理解に苦しむが。

          郵便とか公務員の仕事なら都道府県単位で分けられるからじゃないすかね
          民間の営業でもよくあるし

          親コメント
          • by Anonymous Coward

            分けて処理するのはコンピュータがやればいいことで、ダウンロードをバラバラにする必要はない。

            • by Anonymous Coward

              元々の担当(部署)が別ならファイルも別にするよね

              件名か県を示すコードのフィールドを設定していたら楽そうですね

              • by Anonymous Coward

                元がどうだろうと、一旦DBに突っ込んでから公開用のデータを出力するだろ。

              • by Anonymous Coward

                s/件名/県名/

        • by Anonymous Coward

          たとえば毎年各県の郵便局から提出されたファイルを元にしていて、提出時期がバラバラでALLだけだと公開が遅くなりすぎるからとか。

        • by Anonymous Coward

          ファイルを分割するの好きな人いるよね。
          PDFが章ごとにわけられててダウンロードに手間がかかる、というのをよく見る。主に役所とかで。
          まあダウンロードは最初だけだけど、ファイル名が番号でなく章タイトルによる名前になってたりして順番がわからない、というようなことも。

        • by Anonymous Coward

          自分の県だけ必要な場合も多いからじゃないの?

          • by Anonymous Coward

            特定の県の住所しか処理しないシステムなんてあるのか?
            仮にあったとしても特殊過ぎて多くはないだろ。

            • by Anonymous Coward

              一斉に全国が更新されるわけじゃない場合、分割されてたほうが楽だろ。
              それに並行処理するにも元ネタが分割してあったほうが楽。

            • by Anonymous Coward

              郵便番号の本来の用途である郵便配達は特定の県の住所しか使わない。

    • by Anonymous Coward
      従来のファイル名やら内容を変えられたらそれはそれで阿鼻叫喚じゃろがい
      • by Anonymous Coward

        ちなみに内閣府が祝日CSVでやらかしてる。これも「CSV」とは名ばかりのアレな形式だったな

      • by Anonymous Coward

        内容変えたらファイル名も変えろ

        • by Anonymous Coward
          だからファイル名変わってるだろ。
          • by Anonymous Coward

            ファイル名なんて使ったり保存したりするときに便利な名前に変えておけばいいだけなのに、愚かな人にはそれがわからないのです。

  • by Anonymous Coward on 2023年07月06日 12時41分 (#4490108)

    使いやすくなったのなら、久しぶりに作り直してみよう。
    Web予測変換で変換できるから最近需要がないようだがね。

typodupeerror

目玉の数さえ十分あれば、どんなバグも深刻ではない -- Eric Raymond

読み込み中...