アカウント名:
パスワード:
タレコミ人が利用してみたところ、キーワードに日本語をサポートしていることを発見したのですが、インデックスされたソースコードが少ないのかキーワードがまずいのか結果は良くありません。
ところが、「オーディオをひとつのプロジェクトからもうひとつののプロジェクトに貼り付けするときに」で検索 [koders.com]すると上記ファイルがヒットします。
したがって、kodersのインデクサは日本語のような 分かち書きしない言語には対応していないと推測される、 ということですな。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
※ただしPHPを除く -- あるAdmin
(オープン)ソースコードに日本語を書く人は少ない (スコア:3, 興味深い)
「おまじない」とか「ねんのため」の英語表現(どんなだろう?)で検索したり、f*ck とか a**hole とか、汚い罵り文句で検索すると面白いかも。
Re:(オープン)ソースコードに日本語を書く人は少な (スコア:1)
# ニュースで見かけたときはFIXME [koders.com]とかifdef DEBUG [koders.com]を真っ先に検索に掛けたりしました。
Re:(オープン)ソースコードに日本語を書く人は少な (スコア:1)
Re:(オープン)ソースコードに日本語を書く人は少な (スコア:1)
> f*ck とか
fsck になりました。
なんで「汚い罵り文句」なの? って思った。
Re:(オープン)ソースコードに日本語を書く人は少な (スコア:1)
> タレコミ人さんの例でいえば、"ソート" ではなく "sort" で探さないとだめでしょう。
わかっちゃいたけどツッコミどころの無いタレコミ文もそれはそれでつまらなかったりするので。。。と言い訳してみる(w
作者の検索 [koders.com]なんか刺激的?(「コメントを当てにした検索は…」ってツッコミはなしで。)
日本語検索の問題 (スコア:0)
全文検索の主流ってなに? (スコア:1)
n-Gram とかはどうなってんだろうな~とか。
#無知をさらけ出したいのでID
屍体メモ [windy.cx]
Re:全文検索の主流ってなに? (スコア:1)
うろ覚えですが、例えばMitakeSearchがソレをやってるんじゃありませんでしたっけ?
辞書方式は限度が有ると思っています。
用語集をロクにメンテしてないプロジェクト(藁)でNamazuを使って、地獄を見ましたんです。
「業務で使ってる、あの単語が、全然ヒットしないやん!」というお叱りを頻繁に受けるんですが、
「じゃあ検索させたい単語を挙げてください。そうすれば辞書に追記しときますから」と返答したら、
相手はダンマリになってしまう、という…。とほほ。
#しかもNamazuって、ちょうど不味いことに、
#単語1つづつなら検索できるんだけど、複数の単語の所定の並びを検索できないんだよね。
#だから個々の単語が辞書に収録されてても、それの並びが出てくる個所を、狙い撃ちで検索できない。
#2つか3つの一般語の並びから成る業務用語とかが、全滅するんだ。
#いっぽうで人間は、一般語の並びから成る語を別途登録しないとならないという状況を、感覚的に受け入れにくいみたいで。
まあデスマなプロジェクトはどうでもいいんですが、
外向きの検索エンジンで、どんな単語を検索語とするか判ったものじゃないという状況では、
同じように辞書方式は破綻しやすいと思います。
N-Gram(どういうのか知らないけど)とか
SuffixArray(かな?)とか、
ああいう非辞書な方式のほうが、将来が有ると思ってます。
どうもそれっぽい (スコア:1, 興味深い)
ところが、「オーディオをひとつのプロジェクトからもうひとつののプロジェクトに貼り付けするときに」で検索 [koders.com]すると上記ファイルがヒットします。
つまり (スコア:1, 参考になる)
デリミタから次のデリミタまでの間の
「オーディオをひとつのプロジェクトからもうひとつのの
プロジェクトに貼り付けするときに」
をひとつの単語とみなしてしまっている。
したがって、kodersのインデクサは日本語のような
分かち書きしない言語には対応していないと推測される、
ということですな。
Re:つまり (スコア:1)
たしか、日本語プログラム言語「ひまわり」(だったと記憶していますが)は、
分かち書きしない「より自然な」日本語チックな文法に
傾倒しようとしてらっしゃるらしいですね。
個人的にはあまり好きでない方向性だと思っています。
ツールへの負担が大きすぎるから。
負担ってゆーか、(計算機の命である)確実性すら下がっちゃいませんかね。
最もインテリジェントで柔軟な人間ですら稀に単語の境界を読み違えて困るというのに、
計算機にそれをさせようなんて、無謀じゃないのか?と。
それよか、
むしろ人間は多少のスペースが入ろうが入るまいが支障なく読み書きできるんだから、
人間のほうが多少譲歩すりゃいいのに。
#やっぱりドリトルのほうが美しいと思うのでG7
閑話休題。
んでもって、今回また一つ、分かち書き無しに対応してない有力ツール(だよね)が出た、と。
ただまあ、さっきも書いたように、コメントとかは特別扱いしてくれると嬉しいんですけどね。
それこそ日本語とかにも。
あと、単語分割を前提としない検索方式を採用してくれると、もっと話は簡単だったかと。
#SuffixArrayくらいしか思いつかないのでG7。
#SAを運用するには、元のファイルの4倍ないし8倍のディスクを用意する「だけ」(定数倍って奴ね)でOKなのでしたよね。
Re:つまり (スコア:1)
>#SuffixArrayくらいしか思いつかないのでG7。
SuffixArrayは、このファイルのどこにソレがあるのかを高速検出するための
手法であって、ここで求められているのは、どのファイルにソレがあるのかを
検出する手法であるたべさ。
IN EARTH AND SKIE AND SEA STRANGE THYNGES THER BE.