パスワードを忘れた? アカウント作成
6137 story
プログラミング

Rで統計はじめませんか 93

ストーリー by wakatono
あらゆるデータを統計にせよ 部門より

Anonymous Coward 曰く、 "みなさん、統計ソフトは何をお使いでしょうか、Excel!と答えた方はその結果に誤りがある場合があることを御存じでしょうか。
この分野では古来からS言語が統計家や極限られた人々の間で人気がありましたが、価格的に一寸試すには困難がありました。しかし、GNU Sとも言うRがありました。でもこないだまでは、日本語が通らず、不便を強いられていましたが、先頃RjpWiki がスタート。またたくまにR日本語化プロジェクトが発足し、数々の使用例等、Rを使わないなんて馬鹿げていると思われるにまで成長しています。
データマイニング等で必要以上に対価を払っている企業の情報処理部門の方々、「統計とはデータを見やすくするもので、様々な角度から様々な手法で解析出来なければ無意味です。」
さあ、Rを始めてみませんか。"

統計処理パッケージって、確かに高いんだよなぁ…見てみる価値はあるかも。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by 37A (12754) on 2003年07月16日 11時12分 (#359926) ホームページ 日記
    ごめんなさい。一瞬、轟天号で颯爽と現れたがササニシキに釣られて統計計算を始める姿を思い浮かべてしまいました。
    などど、オフトピックで終わってしまうのはまことに申し訳ないので…

    >データマイニング等で必要以上に対価を払っている企業の情報処
    >理部門の方々、「統計とはデータを見やすくするもので、様々な
    >角度から様々な手法で解析出来なければ無意味です。」

    私の勤務先の場合、実際に、データマイニングをするのは、情報処理部門ではなく、現場かそれに近い部署であったり、企画課であったりします。そこで使えるようにするために、とりあえずテキトーに突っ込んでおいた(それもDBはACCESS(T_T)データの山の中からまさにマイニングする手法が必要になってくるのですが、その段階で使用できるツールって、現実的にはExcelしかないんですよね。
    曰く、「言語?ムズカシソー」
    曰く、「Excelですらやっとなのに…」

    でも、高価な統計処理パッケージを買う金は無い…
    気が付くと、情報処理部門が、DBから必要なデータを引き出すSQLスクリプト作成部隊の一歩手前になってしまっていたりします。
    --

    ----------------------------------------
    You can't always get what you want...
  • by SteppingWind (2654) on 2003年07月16日 13時49分 (#360072)

    Rに限らずどの統計解析システムでも言えることなのですが, 組織内部で使うには何を使ってもいいのですが, 対外的に出すデータとしては信頼性について実績の有るシステムしか使えないということがあると思います.

    例えば食品・医薬品の安全性に関する統計解析については以前は(最近はどうなっているか分からないのですが)事実上SASを使用して解析した結果以外は正式な結果としてFDAや厚生省に認められなかったため, 価格などは関係無しにSASを使わざるをえないという状況でした.

    本来こうした相互検証が必要な用途ではソースがオープンな物の方が良いと思うのですが, 実績の積み重ねにはまだ時間がかかるのかななどとも思っています.

    • Re:解析結果の信頼性 (スコア:1, すばらしい洞察)

      by Anonymous Coward on 2003年07月16日 15時34分 (#360132)
      統計って、分かっている人は分かっているんだけど、そうでない人の
      やっている「統計」は、民間療法とか呪術のレベルでしかないんだよなあ。
      特定のソフトを使うことに信頼性を求めるなんて、本当に呪術だよ。
      そんなもので天下国家を動かす意志決定がなされていると思うと・・・。
      極論すると、高校の文系数学から微積分は無くなってもいいけど、統計は
      みっちりやるべきだと思う。使える数学の知識が限られることで、かなりの
      制約が出てくるけど、その辺の誤魔化し方のノウハウは相当蓄積されているわけで、
      積分を全部足し算にしちゃうとか、極限は近似に置き換えるとか、一つ一つ
      うまく逃げて行けると思う。
      親コメント
      • by nobuhiro (5244) on 2003年07月17日 0時10分 (#360385) ホームページ
        ブランド盲信するのも問題だが、計算ライブラリの検証と実績という 意味でのブランドというのもあるのです。

        統計の計算自体は、割と簡単で定義式から簡単にプログラムにできると 思っちゃうのですが、実はノウハウの塊で信頼性の高い計算ライブラリを 蓄積するのには膨大な労力が必要なのです。 そういうのが如実に現れているのが Excel の統計機能の怪しさでしょう。

        統計パッケージと言われるものの価値の一つは、多くの検証に耐えてきた 信頼性の証としてのブランドなのです。いちいち結果を疑う必要のある ツールの計算結果使った論文など見てられない、というのも受ける側から 考えれば無理からぬことですし。

        --
        親コメント
  • by Anonymous Coward on 2003年07月16日 10時50分 (#359920)
    統計解析に興味を持っていますが、以下のURLによると
    日本語化はまだ途中みたいですね。今後に期待します。

    http://www.okada.jp.org/RWiki/index.php?%5B%5BR%A4%C8%C6%FC%CB%DC%B8%EC%5D%5D
  • そのためには「統計学」を再度勉強しなおす必要があり、現在様々な書籍を乱読中です。^_^;;

    その意味で本ページは素晴らしいと思います。

  • by saitoh (10803) on 2003年07月16日 12時48分 (#360017)
    以前計算センター的なところに勤務していたときに、「統計はSASで 処理しないと論文の信頼性が低いと見なされてしまうので、 他のソフトはだめ。絶対SASを買ってくれ」といわれて、SASを 入れていましたが。。。ほんとうのところはどうなの?識者の コメント求む。
    • Re:やっぱりSAS (スコア:2, 参考になる)

      by Anonymous Coward on 2003年07月16日 13時15分 (#360045)
      医学領域とかではそういう風潮はたしかにありますが、
      SASはオープンソースではないので、計算の妥当性は闇雲に信用する
      しかないです。そういう意味ではRのほうが信頼性が高いと思えます。

      また、「SASでないとできない手法がある」というのも良く言われますが、
      医学領域のペーパーで使われている統計手法のうち、
      SASでないとできないような高度なものは、その選択の理由は
      ほとんどが「他の論文でも使ってた方法だから」「査読者が
      それでやれって言ったから」という理由で決められているのではないか
      と疑われます。なぜなら、一般の臨床家、医学研究者の統計知識って、
      生存曲線とANOVAは知ってるけどt検定もχ2乗も知らない、っていうのが
      普通ですから...
      というわけで、SASをいれる理由はそのブランドイメージのみなのであって、
      (ブランドイメージも重要な要素ではありますが...)
      学術的なものではないと言ってよいと考えています。

      # あまりにやばいのでAC
      親コメント
    • by sakamoto (8009) on 2003年07月16日 16時05分 (#360143) 日記
      私が昔関係があった某有名文系大学では、統計分析には 必ず有名なツールを使わないとまずかったようです。 出てきた結果の検証や誤差がどうなっているか聞こうとすると、 「SAS だから」などの答が返ってきました。 で、さらにまずいことに「SAS で計算して出てきた結果」には 信憑性があるような雰囲気がありました。 「ホワイトノイズからは任意の統計結果が得られる」という定理 を聞いたことがありましたが、その辺どう考えているのかは 私には分かりませんでした。
      --
      -- 哀れな日本人専用(sorry Japanese only) --
      親コメント
      • by uxi (5376) on 2003年07月16日 20時43分 (#360272)
        >「ホワイトノイズからは任意の統計結果が得られる」という定理

        AR(Auto-Regressive: 自己回帰)モデルの事でしょうか?

        AR モデル:
        x[k] = \sum_{i=1}^{n}a[i]x[k-i] + e[k]
        # x 出力, a モデル係数, e 白色雑音, n モデル次数

        ARモデルは ARMA(Auto-Regressive Moving Average: 自己回帰移動平均)モデルの入力を
        ホワイトノイズとした場合に相当します。

        ARMA モデル:
        x[k] = \sum_{i=1}^{n}a[i]x[k-i] + \sum_{i=0}^{m}b[i]y[k-i]
        # x 出力, y 入力, a,b モデル係数, n,m モデル次数

        これらのモデルは、
        信号が過去の信号から線形予測できると仮定したモデルです。
        因みにスペクトルの推定法として有名な MEM (Maximum Entropy Method: 最大エントロピー法)は
        まさにARモデルの一種(と言うかそのもの)なんだそうです。

        GNU R の場合 ar とか spec.ar を参照。
        ?ar
        ?spec.ar
        でヘルプが引けます。

        # 微妙にオフトピ気味、、、(- -;;;)
        --
        uxi
        親コメント
        • by sakamoto (8009) on 2003年07月17日 15時03分 (#360788) 日記
          そう、それです。 スラツキー・ユール効果というらしく、ノイズを含んでいるデータからは 意のままの波形を取り出せるそうです。
          # 参考文献はアルベルト湯川「『超』勉強法『超』批判 Version 2」データハウス(1997) だ。
          --
          -- 哀れな日本人専用(sorry Japanese only) --
          親コメント
  • by matznaga (1672) on 2003年07月16日 13時24分 (#360053) ホームページ 日記
    S compatible ですよね。

    spss compatible な pspp というパッケージもあったと思うのですが
    どちらがよく使われているのでしょうか。

    あるいは両方使っている人はどう使いわけているのでしょうか。
    --
    信ずる者は掬われる。
  • by Anonymous Coward on 2003年07月16日 11時11分 (#359925)
    Excel!と答えた方はその結果に誤りがある場合があることを御存じでしょうか。
    ぜひ、こちらのソースを示して頂きたいのですが。
  • by Anonymous Coward on 2003年07月16日 11時47分 (#359953)
    s/RjpWiji/RjpWiki/
typodupeerror

「科学者は100%安全だと保証できないものは動かしてはならない」、科学者「えっ」、プログラマ「えっ」

読み込み中...