（オープン）ソースコードに日本語を書く人は少ない (#651320) | (オープン)ソースコードを検索!

「(オープン)ソースコードを検索!」記事へのコメント

記事ページを表示すべてのコメント取得

検索59コメント Log In/Create an Account

（オープン）ソースコードに日本語を書く人は少ない (スコア:3, 興味深い)

by Anonymous Coward on 2004年11月12日 3時39分 (#651320)

タレコミ人が利用してみたところ、キーワードに日本語をサポートしていることを発見したのですが、インデックスされたソースコードが少ないのかキーワードがまずいのか結果は良くありません。
ソースコードの中身を検索するものですから、日本語をキーワードにして探すのは得策ではないよ。タレコミ人さんの例でいえば、"ソート" ではなく "sort" で探さないとだめでしょう。適切なコメントが書かれている事を期待するのは難しいから、実質的な検索対象はクラス名や関数名やインクルードファイル名でしょう。

「おまじない」とか「ねんのため」の英語表現（どんなだろう？）で検索したり、f*ck とか a**hole とか、汚い罵り文句で検索すると面白いかも。
- Re:（オープン）ソースコードに日本語を書く人は少な (スコア:1)
  
  by .mjt (13150) <reversethis-{gro.ntlc} {ta} {tjm}> on 2004年11月12日 3時50分 (#651322) 日記
  
  せっかくだから適当な変数の名前 [srad.jp]もチェックしてみたいところ。
  
  # ニュースで見かけたときはFIXME [koders.com]とかifdef DEBUG [koders.com]を真っ先に検索に掛けたりしました。
  
  シェア
  
  親コメント
  - Re:（オープン）ソースコードに日本語を書く人は少な (スコア:1)
    
    by kogekoge (20427) on 2004年11月12日 4時03分 (#651324) 日記
    
    foo, bar, baz はテストコードみたいなものに良く使われているようです。
    
    シェア
    
    親コメント
- Re:（オープン）ソースコードに日本語を書く人は少な (スコア:1)
  
  by frea (6286) on 2004年11月12日 20時57分 (#651582)
  
  頭の中がプログラムのこと考えながら呼んでたから
  
  > f*ck とか
  
  fsck になりました。
  
  なんで「汚い罵り文句」なの？　って思った。
  
  シェア
  
  親コメント
- Re:（オープン）ソースコードに日本語を書く人は少な (スコア:1)
  
  by esus1 (20098) on 2004年11月13日 0時01分 (#651660)
  
  > ソースコードの中身を検索するものですから、日本語をキーワードにして探すのは得策ではないよ。
  > タレコミ人さんの例でいえば、"ソート" ではなく "sort" で探さないとだめでしょう。
  わかっちゃいたけどツッコミどころの無いタレコミ文もそれはそれでつまらなかったりするので。。。と言い訳してみる(ｗ
  
  作者の検索 [koders.com]なんか刺激的？(「コメントを当てにした検索は…」ってツッコミはなしで。)
  
  シェア
  
  親コメント
- 日本語検索の問題 (スコア:0)
  
  by Anonymous Coward
  
  日本語は分かち書きをしないから、単語抽出がうまくいってないんじゃないかなあ。中国語もそうだけど。
  - 全文検索の主流ってなに？ (スコア:1)
    
    by Livingdead (18685) on 2004年11月12日 10時44分 (#651383) ホームページ日記
    
    自分のマシンでは、Namazu とそのほかのGREP系のツールしか使ったことが無いのですが、今全文検索の手法といえばやっぱり単語抽出でインデックス作成、ってのが主流なんですか？
    
    n-Gram とかはどうなってんだろうな～とか。
    
    ＃無知をさらけ出したいのでID
    
    --
    屍体メモ [windy.cx]
    
    シェア
    
    親コメント
    - Re:全文検索の主流ってなに？ (スコア:1)
      
      by G7 (3009) on 2004年11月13日 0時13分 (#651664)
      
      >n-Gram とかはどうなってんだろうな～とか。
      
      うろ覚えですが、例えばMitakeSearchがソレをやってるんじゃありませんでしたっけ？
      
      辞書方式は限度が有ると思っています。
      用語集をロクにメンテしてないプロジェクト(藁)でNamazuを使って、地獄を見ましたんです。
      「業務で使ってる、あの単語が、全然ヒットしないやん！」というお叱りを頻繁に受けるんですが、
      「じゃあ検索させたい単語を挙げてください。そうすれば辞書に追記しときますから」と返答したら、
      相手はダンマリになってしまう、という…。とほほ。
      
      ＃しかもNamazuって、ちょうど不味いことに、
      ＃単語1つづつなら検索できるんだけど、複数の単語の所定の並びを検索できないんだよね。
      ＃だから個々の単語が辞書に収録されてても、それの並びが出てくる個所を、狙い撃ちで検索できない。
      ＃2つか3つの一般語の並びから成る業務用語とかが、全滅するんだ。
      ＃いっぽうで人間は、一般語の並びから成る語を別途登録しないとならないという状況を、感覚的に受け入れにくいみたいで。
      
      まあデスマなプロジェクトはどうでもいいんですが、
      外向きの検索エンジンで、どんな単語を検索語とするか判ったものじゃないという状況では、
      同じように辞書方式は破綻しやすいと思います。
      
      N-Gram(どういうのか知らないけど)とか
      SuffixArray(かな？)とか、
      ああいう非辞書な方式のほうが、将来が有ると思ってます。
      
      シェア
      
      親コメント
  - どうもそれっぽい (スコア:1, 興味深い)
    
    by Anonymous Coward on 2004年11月12日 14時39分 (#651475)
    
    例えば、「日本語」で検索 [koders.com]すると1.2.1-changes.php [koders.com] がヒットしますが、このファイル中に含まれている「オーディオ」で検索 [koders.com]してもヒットしません。
    ところが、「オーディオをひとつのプロジェクトからもうひとつののプロジェクトに貼り付けするときに」で検索 [koders.com]すると上記ファイルがヒットします。
    
    シェア
    
    親コメント
    - つまり (スコア:1, 参考になる)
      
      by Anonymous Coward on 2004年11月12日 18時37分 (#651549)
      
      「オーディオ」をひとつの単語とみなすことができず、
      デリミタから次のデリミタまでの間の
      「オーディオをひとつのプロジェクトからもうひとつのの
      プロジェクトに貼り付けするときに」
      をひとつの単語とみなしてしまっている。
      したがって、kodersのインデクサは日本語のような
      分かち書きしない言語には対応していないと推測される、
      ということですな。
      
      シェア
      
      親コメント
      - Re:つまり (スコア:1)
        
        by G7 (3009) on 2004年11月13日 15時23分 (#651983)
        
        >分かち書きしない言語には対応していないと推測される、
        
        たしか、日本語プログラム言語「ひまわり」(だったと記憶していますが)は、
        分かち書きしない「より自然な」日本語チックな文法に
        傾倒しようとしてらっしゃるらしいですね。
        
        個人的にはあまり好きでない方向性だと思っています。
        ツールへの負担が大きすぎるから。
        負担ってゆーか、(計算機の命である)確実性すら下がっちゃいませんかね。
        最もインテリジェントで柔軟な人間ですら稀に単語の境界を読み違えて困るというのに、
        計算機にそれをさせようなんて、無謀じゃないのか？と。
        それよか、
        むしろ人間は多少のスペースが入ろうが入るまいが支障なく読み書きできるんだから、
        人間のほうが多少譲歩すりゃいいのに。
        
        ＃やっぱりドリトルのほうが美しいと思うのでG7
        
        閑話休題。
        んでもって、今回また一つ、分かち書き無しに対応してない有力ツール(だよね)が出た、と。
        
        ただまあ、さっきも書いたように、コメントとかは特別扱いしてくれると嬉しいんですけどね。
        それこそ日本語とかにも。
        
        あと、単語分割を前提としない検索方式を採用してくれると、もっと話は簡単だったかと。
        ＃SuffixArrayくらいしか思いつかないのでG7。
        ＃SAを運用するには、元のファイルの4倍ないし8倍のディスクを用意する「だけ」(定数倍って奴ね)でOKなのでしたよね。
        
        シェア
        
        親コメント
        
        Re:つまり (スコア:1)
        
        by dorifer (514) on 2004年11月25日 12時03分 (#657373) 日記
        
        >あと、単語分割を前提としない検索方式を採用してくれると、もっと話は簡単だったかと。
        >＃SuffixArrayくらいしか思いつかないのでG7。
        
        SuffixArrayは、このファイルのどこにソレがあるのかを高速検出するための
        手法であって、ここで求められているのは、どのファイルにソレがあるのかを
        検出する手法であるたべさ。
        
        --
        IN EARTH AND SKIE AND SEA STRANGE THYNGES THER BE.
        
        シェア
        
        親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

(オープン)ソースコードを検索! More ログイン

「(オープン)ソースコードを検索!」記事へのコメント

（オープン）ソースコードに日本語を書く人は少ない (スコア:3, 興味深い)

Re:（オープン）ソースコードに日本語を書く人は少な (スコア:1)

Re:（オープン）ソースコードに日本語を書く人は少な (スコア:1)

Re:（オープン）ソースコードに日本語を書く人は少な (スコア:1)

Re:（オープン）ソースコードに日本語を書く人は少な (スコア:1)

日本語検索の問題 (スコア:0)

全文検索の主流ってなに？ (スコア:1)

Re:全文検索の主流ってなに？ (スコア:1)

どうもそれっぽい (スコア:1, 興味深い)

つまり (スコア:1, 参考になる)

Re:つまり (スコア:1)

Re:つまり (スコア:1)

スラド