namazu 2.0.15、1年ぶりのリリース 6
ストーリー by yoosee
最近は選択肢も増えましたが 部門より
最近は選択肢も増えましたが 部門より
tamo曰く、"Namazu 安定板の最新バージョン 2.0.15 が公開されています。
- ISO-8859-* に関する文書の間違いを訂正
- RedHat ソフトウェア namazu.spec の不必要なパッチは削除
- File::MMagic 1.25 を同梱
- MeCab の正式対応
- mknmz に -b 及び --use-mecab オプションを追加
- mknmz および namazu に --norc オプションを追加
- mknmz に --decode-base64 オプションを追加
- 新しいフィルタ(Gnumeric, Koffice, Mainman/Pipermail, Zip, Visio)を追加
- mknmzrc に MECAB, DENY_DDN を追加
- ファイル名がDDN である時にスキップ。
- 日付フィールドによるソート機能の追加
- nmzcat, nmzegrep コマンドの追加
- フィルタの Windows 対応 (msword.pl, excel.pl, powerpoint.pl, postscript.pl, 等...)
- OLE コントロールフィルタ更新
- QUERY_STRING の区切りに';' 使用可能
- Perl版テストプログラム(pltests) を追加
- 各種バグフィックス
部門名じゃないが (スコア:1)
Re:部門名じゃないが (スコア:0)
「検索? とりあえずnamazu入れときゃいいだろ」
的なサイトにはウンザリしますな。
# あ、ここもだ。
Re:部門名じゃないが (スコア:1)
namazuもそうだが (スコア:1)
そのためのMeCab (スコア:4, 参考になる)
chasenには前から対応してましたけど、今回のMeCab対応により、namazu本体とkakasiの両方をメンテナンスするのではなく、特定の形態素解析器への依存を排除する方針を選択した、という意図がより鮮明になったと思います。
参考:ChasenとKakasiとMeCabの形態素解析・わかち書きの比較 [nomadscafe.jp]
まぁ、形態素解析を必要としないN-gram方式の全文検索もいろいろ出てきたので、kakasiのアップデートを期待するよりも、kakasiを使わない方法を模索した方が吉かと。
#「自分でkakasiをhackする」という選択肢もありますが。
Re:そのためのMeCab (スコア:1)
早速、和布蕪 [chasen.org]いれて、Namazuをupdateしてみました。
できたNMZ.wを見てみると、わかち書きの精度は確かに良くなっていますね。速度もあがってkakasi [namazu.org]よりは良いものの、namazu.cgiの分解とうまく合わない点はあまり変わらない。namazu.cgiの形態素分析はいまだに独自のままなのだろうか。
perl moduleがCPANにないのもちょっと。自分でMakeするのがたいした手間というわけではないけれど。