どうもそれっぽい (#651475) | (オープン)ソースコードを検索!

「(オープン)ソースコードを検索!」記事へのコメント

記事ページを表示すべてのコメント取得

検索59コメント Log In/Create an Account

（オープン）ソースコードに日本語を書く人は少ない (スコア:3, 興味深い)

by Anonymous Coward

タレコミ人が利用してみたところ、キーワードに日本語をサポートしていることを発見したのですが、インデックスされたソースコードが少ないのかキーワードがまずいのか結果は良くありません。
ソースコードの中身を検索するものですから、日本語をキーワードにして探すのは得策ではないよ。タレコミ人さんの例でいえば、"ソート" ではなく "sort" で探
- 日本語検索の問題 (スコア:0)
  
  by Anonymous Coward
  
  日本語は分かち書きをしないから、単語抽出がうまくいってないんじゃないかなあ。中国語もそうだけど。
  - どうもそれっぽい (スコア:1, 興味深い)
    
    by Anonymous Coward on 2004年11月12日 14時39分 (#651475)
    
    例えば、「日本語」で検索 [koders.com]すると1.2.1-changes.php [koders.com] がヒットしますが、このファイル中に含まれている「オーディオ」で検索 [koders.com]してもヒットしません。
    ところが、「オーディオをひとつのプロジェクトからもうひとつののプロジェクトに貼り付けするときに」で検索 [koders.com]すると上記ファイルがヒットします。
    
    シェア
    
    親コメント
    - つまり (スコア:1, 参考になる)
      
      by Anonymous Coward on 2004年11月12日 18時37分 (#651549)
      
      「オーディオ」をひとつの単語とみなすことができず、
      デリミタから次のデリミタまでの間の
      「オーディオをひとつのプロジェクトからもうひとつのの
      プロジェクトに貼り付けするときに」
      をひとつの単語とみなしてしまっている。
      したがって、kodersのインデクサは日本語のような
      分かち書きしない言語には対応していないと推測される、
      ということですな。
      
      シェア
      
      親コメント
      - Re:つまり (スコア:1)
        
        by G7 (3009) on 2004年11月13日 15時23分 (#651983)
        
        >分かち書きしない言語には対応していないと推測される、
        
        たしか、日本語プログラム言語「ひまわり」(だったと記憶していますが)は、
        分かち書きしない「より自然な」日本語チックな文法に
        傾倒しようとしてらっしゃるらしいですね。
        
        個人的にはあまり好きでない方向性だと思っています。
        ツールへの負担が大きすぎるから。
        負担ってゆーか、(計算機の命である)確実性すら下がっちゃいませんかね。
        最もインテリジェントで柔軟な人間ですら稀に単語の境界を読み違えて困るというのに、
        計算機にそれをさせようなんて、無謀じゃないのか？と。
        それよか、
        むしろ人間は多少のスペースが入ろうが入るまいが支障なく読み書きできるんだから、
        人間のほうが多少譲歩すりゃいいのに。
        
        ＃やっぱりドリトルのほうが美しいと思うのでG7
        
        閑話休題。
        んでもって、今回また一つ、分かち書き無しに対応してない有力ツール(だよね)が出た、と。
        
        ただまあ、さっきも書いたように、コメントとかは特別扱いしてくれると嬉しいんですけどね。
        それこそ日本語とかにも。
        
        あと、単語分割を前提としない検索方式を採用してくれると、もっと話は簡単だったかと。
        ＃SuffixArrayくらいしか思いつかないのでG7。
        ＃SAを運用するには、元のファイルの4倍ないし8倍のディスクを用意する「だけ」(定数倍って奴ね)でOKなのでしたよね。
        
        シェア
        
        親コメント
        
        Re:つまり (スコア:1)
        
        by dorifer (514) on 2004年11月25日 12時03分 (#657373) 日記
        
        >あと、単語分割を前提としない検索方式を採用してくれると、もっと話は簡単だったかと。
        >＃SuffixArrayくらいしか思いつかないのでG7。
        
        SuffixArrayは、このファイルのどこにソレがあるのかを高速検出するための
        手法であって、ここで求められているのは、どのファイルにソレがあるのかを
        検出する手法であるたべさ。
        
        --
        IN EARTH AND SKIE AND SEA STRANGE THYNGES THER BE.
        
        シェア
        
        親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

(オープン)ソースコードを検索! More ログイン

「(オープン)ソースコードを検索!」記事へのコメント

（オープン）ソースコードに日本語を書く人は少ない (スコア:3, 興味深い)

日本語検索の問題 (スコア:0)

どうもそれっぽい (スコア:1, 興味深い)

つまり (スコア:1, 参考になる)

Re:つまり (スコア:1)

Re:つまり (スコア:1)

スラド