産総研が多言語化ライブラリをLGPLで公開 45
ストーリー by Oliver
l10->i18n->m17n 部門より
l10->i18n->m17n 部門より
eto曰く、"CNET Japanの記事によると産業技術総合研究所(産総研)により多言語を一度に表示、入力、編集操作などができるライブラリ「the m17n library」がLGPLで公開されたようだ。 詳しくは産総研のプレスリリース及びプロジェクトのサイトを参照して欲しい。"
eto曰く、"CNET Japanの記事によると産業技術総合研究所(産総研)により多言語を一度に表示、入力、編集操作などができるライブラリ「the m17n library」がLGPLで公開されたようだ。 詳しくは産総研のプレスリリース及びプロジェクトのサイトを参照して欲しい。"
「科学者は100%安全だと保証できないものは動かしてはならない」、科学者「えっ」、プログラマ「えっ」
ISO 10646 も仲良し (スコア:1, 興味深い)
#これでUnicodeにかかるテンションが幾らかでも下がれば、変換表の非互換性の解消も少しは易くなるかもしれないと期待してみるAC。
Re:ISO 10646 も仲良し (スコア:1)
Cだけで、char配列とstring.hと自前の関数だけで書いている人にはいいでしょうが、正規表現ライブラリとか使ってるとあっさり死亡って感じですね。
C++で内部UCSでいくにはICUとBoostとかなんでしょうか。ちょっと書いてみてこりゃー耐えられん&環境作るのが面倒で誰も参加してくれんと思ってやめてしまったのでよく分かりませんが。
Re:ISO 10646 も仲良し (スコア:0)
Re:ISO 10646 も仲良し (スコア:0)
変換表の混乱の一部の責任は、JIS X 0201 ローマ字と ASCII とをエエカゲンに使ってきた日本人にもあります。あくまで一部ですが。
Re:ISO 10646 も仲良し (スコア:1)
もうJIS X0201は捨てて、Shift JISの0x5cもバックスラッシュにしてしまう、というのが技術的には一番簡単な解決法でしょう。それが受け入れられるかという問題はありますが、EUC-JPの0x5cをバックスラッシュ以外にすることよりは受け入れられやすいでしょう。
0x5cを半角の円記号(のグリフ)が表示されることを期待して使っている人にとっては文字化けしたように見えることにはなるが、円記号ならJIS X0208にちゃんとあるからそれを使えばよいし、もともと賢明な人は円記号が表示されて欲しい文脈で半角円記号は使っていないでしょう。
ISO-2022-JPで送られる日本語のE-Mailでは、そもそもJIS X0201 Romanは現在ほとんど使われていないように見えます(半角英数字に切り替えるESC(Jというエスケープシーケンスはほとんど見ることがない。Outlook ExpressでさえもESC(Bを使う)。あくまで使われている文字コードとしては、ですが。もっとも、ほとんどの一般の人はそんなことは知らず、半角円記号として表示されるのが本当は誤りであることは知らないのでしょうが。
2バイトコードであるJIS X0208が扱えるようになった段階で、JIS X0201はRomanも片仮名も捨ててしまっていれば今頃はもっとすっきりしていたのでしょうね。
Re:ISO 10646 も仲良し (スコア:1)
少なくない EBCDIC 系の日本語コードが $ の場所に¥を突っ込んでいるのも同じ理屈でしょう (多分、これは COBOL の実装が諸悪の根源と夢想)。
Re:ISO 10646 も仲良し (スコア:0)
CP932 でも 0x5c は u005c です。u00a5 なのは Shift_JIS。
ではなぜ Windows において 0x5c が halfwidth-¥ に見えるかと言うと、MS ゴシック等のグリフの問題。Arial Unicode MS 等を使うと、ちゃんとバックスラッシュになります。
Re:ISO 10646 も仲良し (スコア:1)
ご指摘どうも。> #500377 の AC 氏
結局何を主張したかったかというと、real world では 0x5C は「円とバックスラッシュを兼ねる@日本限定」とするのがほぼ唯一の現実的な解だろうと言うことです。
# Unicode ステという解もあるかも知れないが。
Re:ISO 10646 も仲良し (スコア:1)
しかしながら、JIS X 0208の円記号も使うべきではないです。
「図形文字の一意な符号化」を考慮すると、それぞれの文字コードの円記号は
となるわけで、文字コードを変換したときに「期待通り」になるとは限りません。
結局、円記号は使わないのが無難です。
# 請求書を書くときに困った
Re:ISO 10646 も仲良し (スコア:1)
日本の通貨記号 (スコア:1)
文字化けではないのです。日元の記号はバックスラッシュなのです ;-)
それはさておき、私は日本語の通常のメール中では JIS X 0208 の円記号を使いますが、英語の場合は "JPY" と書きますね。美国通貨は "$" だったり "US$" だったり "USD" だったりしますが。
日本語でも "JPY" が通れば安全なのかも知れませんが、なんせ普及率がバックスラッシュより圧倒的に低い。
Re:ISO 10646 も仲良し (スコア:0)
ISO 646を策定した奴に文句言え。
日本語での説明は? (スコア:1)
M-textの操作API は XML DOM の Range みたいなものか。
英文で読めませんでした。
Re:日本語での説明は? (スコア:2, 参考になる)
たとえばキーFACEには、文字時列のどこからどこまでがイタリックだとかボールドだとか、キーBIDIには右から左に読む範囲がどこどこだ(アラビア語のように)と指定するとか、そういう内容らしいです。そのアラビア語な文字列の中で日本語みたいに左から右に読む範囲を指定するのがネストということでしょうか(図を見るのが早いです)。
あと、こっち [m17n.org]には、サポートしているinput methodはanthyとtcodeだ、と書いてあります。
開発者には、muleで有名な半田剣一さんの名前が(一番に)ありますね。電総研のmuleノウハウを生かすプロジェクトってことでしょう。
Re:日本語での説明は? (スコア:1)
昔はISOの符号面選択のESCシーケンス。
UNICODE 自体も言語切り替え符号とかあるようですが
実働しているのはみたことがない。
RTFは文字サイズとか着色も含むから、それよりは守備範囲は
狭い(言語の切り替え+アルファの範囲)
とりあえずの理解はこの程度でやめときます。
直接実用なら、外国語辞書・教材くらいしか考え付かない。
XMLならLang属性ですがそのバイナリ版みたいなものなのでしょう。
Re:日本語での説明は? (スコア:1)
ようなものか
Re:日本語での説明は? (スコア:1)
ちょっと古いかもしれないけれど, こちらの論文 [ipa.go.jp]に日本語の解説があります.
Re:日本語での説明は? (スコア:0)
早稲田の多言語化プロジェクトは (スコア:0)
Re:早稲田の多言語化プロジェクトは (スコア:0)
Re:早稲田の多言語化プロジェクトは (スコア:0)
彼の言動は確かにアレでしたが、 言った通りの成果物は確かに示していたので、 「詐欺師」というのは当たっていないでしょう。 今回のような多言語ライブラリも当時すでに実装していたわけだし、性格はどうあれその辺りはちゃんと評価しないと。
そういえば、昔の
Re:早稲田の多言語化プロジェクトは (スコア:0)
Re:早稲田の多言語化プロジェクトは (スコア:0)
電波っぷりに関して言うと今の方がずいぶん丸くなってそうですが(あんなにweb嫌いだったのに、自分でweb page書いてるなんて…
Re:早稲田の多言語化プロジェクトは (スコア:0)
というか、当時(っていつだよ)の 情科センター~メディアネットワークセンター管轄および 理工メディアセンター管轄のSunOS4.1.3なマシンに入っていたXは 彼が出したX11R5ベースのバイナリばかりでした。
なので、学生に公開していた端末室のSunのうち 数の
Re:早稲田の多言語化プロジェクトは (スコア:0)
#500807のACだけど、表示はともかく入力はできなかったと思うけどどうよ?独自内部表現のwchar_tをレンダリングするところまではキッチリ実装できてた。がその先は...できてたっけ?
Re:早稲田の多言語化プロジェクトは (スコア:0)
Re:早稲田の多言語化プロジェクトは (スコア:0)
Re:早稲田の多言語化プロジェクトは (スコア:0)
http://www.hifi-pc.com/
デムパゆんゆん~~。
Re:早稲田の多言語化プロジェクトは (スコア:0)
(早稲田の方、とくに悪意はありません。客観的評価のつもりです)
Re:早稲田の多言語化プロジェクトは (スコア:0)
Re:早稲田の多言語化プロジェクトは (スコア:0)
確か担当していた院生が卒業するとともに自然消滅、と聞きました
多言語ワープロ (スコア:0)
ワープロでなくてもPowerPointみたいなのでもVisio
みたいなのでもいいけどさ。
OOoとかKDEのアプリあたりが多言語化してくれる非常
にうれしかったい。
Win32版でもうれしいかな。いまはUNIX/Xだけだけど、
そしたらWin32でも多言語化アプリつくれるし。現状
Unicodeっても多言語アプリってしらないから。
Re:多言語ワープロ (スコア:1)
Windowsの場合はglobal IMEというのがあります。MS Officeもおそらくそれには対応しているはずです。OOoは知りません。
Re:多言語ワープロ (スコア:1)
Hideki Hiura氏ってどんな人? (スコア:0)
産総研のプレスリリース [aist.go.jp]に、
とありますが、このOpenI18nは こっちのストーリー [srad.jp]で紹介されてる、 IIIMF project [openi18n.org] を抱えているとこのようで、図らずも(?)関係するプロジェクトのストーリーが前後して採用されたかっこうですね。それはいいんですが、続けて読んでいて大変気になったのが、 あっちの コメント [srad.jp]からリンクされてる先でけちょんけちょんに言われている(私も同意)XMLの例を書いているのが、 他ならぬ上記のHideki Hiura氏というところなのですよね。
多言語化ライブラリには大期待なのですが、 こんな怪しげ(失礼)なプロジェクトと「協力」しちゃてて、 本当に大丈夫なんでしょうか? 実際どんな「協力」関係でプロジェクトを進めているのかとても気になります。
Re:Hideki Hiura氏ってどんな人? (スコア:0)
Hiura氏はそれなりに見識を持った人ですが、IIIMFはSunのJava端末を売るために仕方なくああいった形になってしまったのだと信じたいです。
#会社勤めすると、思ってもいないことを堂々と主張することになるものです。
Re:Hideki Hiura氏ってどんな人? (スコア:0)
簡単なものは XML で書いて、クライアントサイドで処理、
複雑なものは、サーバサイドでって話だけですよね?
IIIMF としては、XML は単なる一つのオプションなんで、
使う使わないは 言語のエンジンを作る人の自由なんですが、
それってそんなに怪しいんでしょうか?
必要であれば、S式のインタプリタ
Re:Hideki Hiura氏ってどんな人? (スコア:1)
>そうでないかということ以上ではないんと思うのですが違うのでしょうか?
私もそのとおりだと思っています。
変換エンジンの作者として、クライアントサーバ方式によってもたらされるオーバヘッド(マルチユーザ対応によるデータ構造の複雑さ、各個人のデータの安全な保存やアクセスの手間)に耐えることができずにuimの開発もやっています。
このオーバヘッドは変換エンジンの作者だけが耐えれば良いものではなく、エンドユーザや辞書ツールの作者、あるいはそれらの入力システムを普段使わないユーザにもかかってきます。
将来的にデスクトップ環境でSingle Sign Onの枠組やデスクトップバスなどが整備されれば、その上でクライアントサーバ方式の入力システムを作るのは良い方向だと思います。
m17nlib (Re:Hideki Hiura氏ってどんな人?) (スコア:1)
Input methodのドキュメントを見てみました。Doxygenのドキュメントがいくつか欠けていて分からないことが多いのですが、XIMの影響を受けつついくつかの問題に興味深い解決を図っているように思います。
いい加減な解析なので間違ってるかもしれませんが
後日ソースコードが出てくるのが楽しみです。日本語入力に関してはuimの方が充実しているのですが、多言語を同じ枠組の中できちんと扱えるようにして、そのノウハウが公開されるのは素晴らしいです。
こういった有用なソフトがフリーで公開されると、世界における日本文化のポジションが高まってくれるのではないかと期待します。
#役所の研究開発はこうでないといけないですね。
LGPL なのが残念 (スコア:0)
また経産の寄生虫か (スコア:0)
FSFの資金というのは、フリーなソフトを作るプログラマを資金的に援助するために集められているもので、予算を削られちゃった役所(モドキ)に開けやすい財布を提供するためではない。
研究費が足らないなら予算を増やすなり、予算が増えないなら予算に見合った研究費で済むように首切るなりすべきだろう。
国家機関(モドキ)がFSFから金もらうなんて恥晒しだな。
Re:また経産の寄生虫か (スコア:0)
Re:また経産の寄生虫か (スコア:0)
#いや、本当にそうみえるので
Re:また経産の寄生虫か (スコア:0)
基本的に、日本国の政府機関が国費を使って開発した物をタダ配り
することにすごい制約があるので、LGPL で公開したいがために、
資金援助を受けた「紐つき」プロジェクトの形を取っているのでは
ないかと推測しますが。
素朴な疑問 (スコア:0)
いまいちプロジェクトの位置づけがみえないです。