5.8 のときに話題にするべきだったのかも (#103881) | ラクダ黙示録その５

「ラクダ黙示録その５」記事へのコメント

記事ページを表示すべてのコメント取得

検索91コメント Log In/Create an Account

5.8 のときに話題にするべきだったのかも (スコア:2, 興味深い)

by kubota (64) on 2002年06月06日 22時09分 (#103881) ホームページ日記

現在の LC_CTYPE ロケールによって指定されるエンコーディングで動作してくれたらいいな。(過去との互換性のために、「ロケールモード」というのを作るのがいいかな)。いったん Perl でソフトウェアを書けば、 ISO-8859-* でも EUC-* でも KOI8-* でも UTF-8 でも、ロケールに応じて、ソフトウェアの変更なしに動いてくれたらいいな。
「8 ビットエンコーディング (結合文字や RTL はサポートする意思なし) または UTF-8、従来のマルチバイトエンコーディングは無視」みたいな「国際化」が多くてげんなりしてるので。
(というか、現実はもっとひどくて、「国際化」とは翻訳のことだと思っている人が多いみたい)
- Re:5.8 のときに話題にするべきだったのかも (スコア:2, 参考になる)
  
  by Anonymous Coward on 2002年06月06日 23時52分 (#103921)
  エンコーディングの知識のない人でも、ロケールを切り替えただけでどんな場合でも動くようなスクリプトが書ける、そんな魔法のようなスクリプト言語を設計することはさすがに無謀じゃないかと。
  少なくとも、
  
  入力エンコーディング
  出力エンコーディング
  スクリプト自体のエンコーディング
  Cなどによる拡張ライブラリへ引き渡すためのエンコーディング
  なんかがあるため、スイッチが一つだけでは不十分ですし。
  
  「8 ビットエンコーディング (結合文字や RTL はサポートする意思なし) または UTF-8、従来のマルチバイトエンコーディングは無視」みたいな「国際化」が多くてげんなりしてるので。
  
  スクリプト言語界(？)はそうでもないですよ。Rubyはもちろん、 Pythonだって(Unicode中心とは言え)スクリプトの自身のエンコーディングを明記することで、ISO-8859-xや EUC-JPのスクリプトを認識し、(おそらく一旦Unicodeに変換してから)動かすような仕組みも考えられています。
  ＃Perl6ではどうなるんでしたっけ？
  スクリプト言語は「ちゃちゃっと書いてさくっと実行」というのが身上なので、「従来のマルチバイトエンコーディング」でもがんがん書けないと意味ない、という気持ちはあるかも。
  とはいえ、「文字列の長さ」と「文字列のバイト数」を区別させることからして、何かと悩ましいわけではありますが……。
  シェア
  
  親コメント
  - Re:5.8 のときに話題にするべきだったのかも (スコア:1)
    
    by B.Knives (8863) on 2002年06月07日 1時30分 (#103982)
    
    ＞スイッチが一つだけでは不十分ですし。
    
    Perlのメインのひとつ、CGIだと入力エンコーディングがね。
    NN4.いくつかで、Content-TypeのcharsetもMETAもくっつけて、こっち(CGI)から丁寧にエンコードした送信ページを作ってやっても、そこから送られてくるエンコードが(再判定しないと)確定できないの。(ユーザー設定が優先するんだっけな？詳細忘れた)
    
    そーゆーブラウザがあるだけでもLOCALE一発てのは難しいでしょうね。
    
    ＃しかもなぜか固執するファンが多いんだよね、NN4。
    
    シェア
    
    親コメント
  - Re:5.8 のときに話題にするべきだったのかも (スコア:1, 余計なもの)
    
    by kubota (64) on 2002年06月07日 10時13分 (#104074) ホームページ日記
    
    とりあえず、「ロケールモード」では、基本は「すべての I/O をロケールのエンコーディングで」というのがいいのではないかと思います。
    その上で、例外を作ればよいかと。たとえば、スクリプト自身のエンコーディングは、ワンライナーとかだと、ロケールのエンコーディングに決まってるけど、システムにインストールしてしまうようなスクリプトだと、ユーザのロケールに合わせて解釈が変わってしまうのはまずい。というわけで、自分自身がどんなエンコーディングで書かれているかを指定する識別子を先頭行 (付近) につけるとか。
    ファイル名も、ロケールから独立したものだから、どうするかが問題です。 (これはけっこう難問で、あちこちで繰り返し議論されているようです)。
    もちろん、ロケールモードで一時的にバイト列を扱いたいとか、互換モードで一時的にロケール文字列を扱いたいとか、ということも、できる必要があります。
    
    シェア
    
    親コメント
- Re:5.8 のときに話題にするべきだったのかも (スコア:2, 参考になる)
  
  by Anonymous Coward on 2002年06月07日 5時53分 (#104024)
  
  > (というか、現実はもっとひどくて、「国際化」とは翻訳のことだと思っている人が多いみたい)
  
  まだ libc5 が幅をきかせていたころ、「Linux 環境を日本語化する」
  というタイトルの Web ページがあったので、
  「どんなすごいことをしてるのかなわくわく」
  と思って見てみたら、jless と jgroff と kterm その他を
  インストールする方法が書いてあっただけの罠。
  
  今わりと困るのは、むしろ「国際化すれば地域化が不要だと思ってる手合い」かも。
  
  シェア
  
  親コメント
  - Re:5.8 のときに話題にするべきだったのかも (スコア:1)
    
    by thor (5250) on 2002年06月07日 16時08分 (#104261) 日記
    
    昔はJEという名前でMuleなどがまとめられていましたね。
    
    jperlというのもあったけれど、今はもういらないものなのだろうか...
    
    シェア
    
    親コメント
- Re:5.8 のときに話題にするべきだったのかも (スコア:1)
  
  by mishima (737) on 2002年06月07日 10時37分 (#104084) ホームページ日記
  
  現実的な問題としては、
  
  1. LC_CTYPE ロケールだとネットワークでは役に立たない
  2. 文字列リソース一つ一つのエンコーディングをプログラマが管理したくない
  3. 特定のエンコーディングに依存しない汎用文字列ライブラリの作成は困難
  
  この３点じゃないか？
  1. 2. に関しては、ファイルハンドルなんかの、
  外部に直接繋がってるリソースに対してのみエンコーディングを管理すれば解決できそうだ。
  たしか以前の Apocalypse でファイルハンドルにいろいろ設定できるようなことが書いてあったし。
  
  内部に入ってくるデータはすべてロケールで指定されたエンコーディングになるから、
  あとはワイド文字列にしちゃう（mbstowcsはロケール依存なので問題なし）、
  でライブラリレベルでは全部 wcs を使えば 3. も解決？
  
  これだと問題は文字数 != 文字列の長さ、ってあたりでえらく問題が出そうだが…
  そこはプログラマの問題なんだろうな。
  
  > 「国際化」とは翻訳のことだと思っている人が多いみたい
  
  そもそも perl って翻訳用カタログすら作れなかったな…
  
  --
  # mishimaは本田透先生を熱烈に応援しています
  
  シェア
  
  親コメント
  - Re:5.8 のときに話題にするべきだったのかも (スコア:1)
    
    by rug (55) on 2002年06月07日 10時52分 (#104093) 日記
    
    そもそも perl って翻訳用カタログすら作れなかったな…
    XSベースのLocale::gettextとかPure PerlなLocale::PGetTextなどがありますけど、どれもperlの配布にbundleされていないですね。あった方が嬉しいような。Python 2.2にはPure Pythonなgettextモジュールが含まれているし、たしかTclにもメッセージカタログの仕組みがあったと思います。
    
    シェア
    
    親コメント
- 国際化 == 英語以外禁止 (スコア:1)
  
  by ntakahas (6453) on 2002年06月07日 11時55分 (#104129)
  
  > (というか、現実はもっとひどくて、「国際化」とは翻訳のことだと思っている人が多いみたい)
  
  某県立大学の人が、「うちは国際化を目指しているので、入学式も卒業式も全部英語でやっています」と自慢していました。ソフトウェア業界の外で「国際化」って言うと、日本語(現地語)を使わずにすべて英語だけで済ませることを意味するようですね。
  
  シェア
  
  親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

ラクダ黙示録その５ More ログイン

「ラクダ黙示録その５」記事へのコメント

5.8 のときに話題にするべきだったのかも (スコア:2, 興味深い)

Re:5.8 のときに話題にするべきだったのかも (スコア:2, 参考になる)

Re:5.8 のときに話題にするべきだったのかも (スコア:1)

Re:5.8 のときに話題にするべきだったのかも (スコア:1, 余計なもの)

Re:5.8 のときに話題にするべきだったのかも (スコア:2, 参考になる)

Re:5.8 のときに話題にするべきだったのかも (スコア:1)

Re:5.8 のときに話題にするべきだったのかも (スコア:1)

Re:5.8 のときに話題にするべきだったのかも (スコア:1)

国際化 == 英語以外禁止 (スコア:1)

スラド