Rで統計はじめませんか 93
ストーリー by wakatono
あらゆるデータを統計にせよ 部門より
あらゆるデータを統計にせよ 部門より
Anonymous Coward 曰く、 "みなさん、統計ソフトは何をお使いでしょうか、Excel!と答えた方はその結果に誤りがある場合があることを御存じでしょうか。
この分野では古来からS言語が統計家や極限られた人々の間で人気がありましたが、価格的に一寸試すには困難がありました。しかし、GNU Sとも言うRがありました。でもこないだまでは、日本語が通らず、不便を強いられていましたが、先頃RjpWiki
がスタート。またたくまにR日本語化プロジェクトが発足し、数々の使用例等、Rを使わないなんて馬鹿げていると思われるにまで成長しています。
データマイニング等で必要以上に対価を払っている企業の情報処理部門の方々、「統計とはデータを見やすくするもので、様々な角度から様々な手法で解析出来なければ無意味です。」
さあ、Rを始めてみませんか。"
統計処理パッケージって、確かに高いんだよなぁ…見てみる価値はあるかも。
「Rで統計はじめませんか 」 (スコア:3, おもしろおかしい)
などど、オフトピックで終わってしまうのはまことに申し訳ないので…
>データマイニング等で必要以上に対価を払っている企業の情報処
>理部門の方々、「統計とはデータを見やすくするもので、様々な
>角度から様々な手法で解析出来なければ無意味です。」
私の勤務先の場合、実際に、データマイニングをするのは、情報処理部門ではなく、現場かそれに近い部署であったり、企画課であったりします。そこで使えるようにするために、とりあえずテキトーに突っ込んでおいた(それもDBはACCESS(T_T)データの山の中からまさにマイニングする手法が必要になってくるのですが、その段階で使用できるツールって、現実的にはExcelしかないんですよね。
曰く、「言語?ムズカシソー」
曰く、「Excelですらやっとなのに…」
でも、高価な統計処理パッケージを買う金は無い…
気が付くと、情報処理部門が、DBから必要なデータを引き出すSQLスクリプト作成部隊の一歩手前になってしまっていたりします。
----------------------------------------
You can't always get what you want...
Re:「Rで統計はじめませんか 」 (スコア:1)
基本的にプログラム言語ということで、いきなり事務屋が仕事に使えるほど簡単では無さそうですね。とりあえずマニュアルをダウンロードして眺めてました。
Accessですが、大切な業務データを管理するなんて使い方は危ないですが、データの集計を手軽にとるには便利ですね。SQLを覚えればいろいろできそうです。
R から DB を叩く (スコア:1)
GNU R で RODBC パッケージを使えば
ACCESS をはじめとした ODBC をサポートする DB へ
接続できます。
東京工業大学の間瀬茂教授が公開されている
統計言語 R の関連ドキュメントの和訳
の中にある
「R のデータ取り込み/出力(R Data Import/Export)」
を参照されると良いでしょう。 [titech.ac.jp]
uxi
Re:「Rで統計はじめませんか 」 (スコア:0)
重回帰分析やクラスタ分析等、それによって得られる意志決定 の方が企業経営には役立つと思います。この御時世、「高価な統計処理パッケージを買う金は無い…」と言うなら尚更では?。
部門間で不毛な線引き合戦するよりも、もっとアグレッシブに 提案を行いましょう。
解析結果の信頼性 (スコア:2, 興味深い)
Rに限らずどの統計解析システムでも言えることなのですが, 組織内部で使うには何を使ってもいいのですが, 対外的に出すデータとしては信頼性について実績の有るシステムしか使えないということがあると思います.
例えば食品・医薬品の安全性に関する統計解析については以前は(最近はどうなっているか分からないのですが)事実上SASを使用して解析した結果以外は正式な結果としてFDAや厚生省に認められなかったため, 価格などは関係無しにSASを使わざるをえないという状況でした.
本来こうした相互検証が必要な用途ではソースがオープンな物の方が良いと思うのですが, 実績の積み重ねにはまだ時間がかかるのかななどとも思っています.
Re:解析結果の信頼性 (スコア:1, すばらしい洞察)
やっている「統計」は、民間療法とか呪術のレベルでしかないんだよなあ。
特定のソフトを使うことに信頼性を求めるなんて、本当に呪術だよ。
そんなもので天下国家を動かす意志決定がなされていると思うと・・・。
極論すると、高校の文系数学から微積分は無くなってもいいけど、統計は
みっちりやるべきだと思う。使える数学の知識が限られることで、かなりの
制約が出てくるけど、その辺の誤魔化し方のノウハウは相当蓄積されているわけで、
積分を全部足し算にしちゃうとか、極限は近似に置き換えるとか、一つ一つ
うまく逃げて行けると思う。
Re:解析結果の信頼性 (スコア:2, 参考になる)
統計の計算自体は、割と簡単で定義式から簡単にプログラムにできると 思っちゃうのですが、実はノウハウの塊で信頼性の高い計算ライブラリを 蓄積するのには膨大な労力が必要なのです。 そういうのが如実に現れているのが Excel の統計機能の怪しさでしょう。
統計パッケージと言われるものの価値の一つは、多くの検証に耐えてきた 信頼性の証としてのブランドなのです。いちいち結果を疑う必要のある ツールの計算結果使った論文など見てられない、というのも受ける側から 考えれば無理からぬことですし。
の
日本語化はまだ途中? (スコア:1, 興味深い)
日本語化はまだ途中みたいですね。今後に期待します。
http://www.okada.jp.org/RWiki/index.php?%5B%5BR%A4%C8%C6%FC%CB%DC%B8%EC%5D%5D
Re:日本語化はまだ途中? (スコア:2, 興味深い)
Re:日本語化はまだ途中? (スコア:0)
Rは確かに高機能で素晴らしいのですが (スコア:1)
その意味で本ページは素晴らしいと思います。
補足 (スコア:2, すばらしい洞察)
R って1語なので検索エンジンで探しにくいのですよ。統計とか、いろんな言葉を混ぜる必要があります。ですから、リンク集も素晴らしいですね。
Re:補足 (スコア:1)
Re:補足 (スコア:1)
Re:補足 (スコア:1, 参考になる)
Re:Rは確かに高機能で素晴らしいのですが (スコア:1)
Re:Rは確かに高機能で素晴らしいのですが (スコア:1)
もうね、アホかと。馬鹿かと。こっちも脱力したので、小一時間とはいかず、2分間くらいだけお説教しましたが。
Re:Rは確かに高機能で素晴らしいのですが (スコア:1)
# なぜか、本家R Project [r-project.org]へのリンクがないので、はっておこう。
それほど使いこんでいるわけではないのですが、Rは、ブートストラップ [upenn.edu]のような計算機集約型の比較的あたらしい手法に強いような印象がありますね。
あと、Postscript形式のグラフ出力まで出来るので、RubyやPerlでデータ処理部分を書いて、計算手順をシェルスクリプト化しておくと、データの訂正があってもシェルスクリプト一発で再計算・出力ができるというのがありますね。
Re:Rは確かに高機能で素晴らしいのですが (スコア:1)
タレコミ文をよく読んだら、ありました。失礼しました。
やっぱりSAS (スコア:1)
Re:やっぱりSAS (スコア:2, 参考になる)
SASはオープンソースではないので、計算の妥当性は闇雲に信用する
しかないです。そういう意味ではRのほうが信頼性が高いと思えます。
また、「SASでないとできない手法がある」というのも良く言われますが、
医学領域のペーパーで使われている統計手法のうち、
SASでないとできないような高度なものは、その選択の理由は
ほとんどが「他の論文でも使ってた方法だから」「査読者が
それでやれって言ったから」という理由で決められているのではないか
と疑われます。なぜなら、一般の臨床家、医学研究者の統計知識って、
生存曲線とANOVAは知ってるけどt検定もχ2乗も知らない、っていうのが
普通ですから...
というわけで、SASをいれる理由はそのブランドイメージのみなのであって、
(ブランドイメージも重要な要素ではありますが...)
学術的なものではないと言ってよいと考えています。
# あまりにやばいのでAC
Re:やっぱりSAS (スコア:1)
-- 哀れな日本人専用(sorry Japanese only) --
Re:やっぱりSAS (スコア:1)
AR(Auto-Regressive: 自己回帰)モデルの事でしょうか?
AR モデル:
x[k] = \sum_{i=1}^{n}a[i]x[k-i] + e[k]
# x 出力, a モデル係数, e 白色雑音, n モデル次数
ARモデルは ARMA(Auto-Regressive Moving Average: 自己回帰移動平均)モデルの入力を
ホワイトノイズとした場合に相当します。
ARMA モデル:
x[k] = \sum_{i=1}^{n}a[i]x[k-i] + \sum_{i=0}^{m}b[i]y[k-i]
# x 出力, y 入力, a,b モデル係数, n,m モデル次数
これらのモデルは、
信号が過去の信号から線形予測できると仮定したモデルです。
因みにスペクトルの推定法として有名な MEM (Maximum Entropy Method: 最大エントロピー法)は
まさにARモデルの一種(と言うかそのもの)なんだそうです。
GNU R の場合 ar とか spec.ar を参照。
?ar
?spec.ar
でヘルプが引けます。
# 微妙にオフトピ気味、、、(- -;;;)
uxi
Re:やっぱりSAS (スコア:1)
# 参考文献はアルベルト湯川「『超』勉強法『超』批判 Version 2」データハウス(1997) だ。
-- 哀れな日本人専用(sorry Japanese only) --
R って (スコア:1)
spss compatible な pspp というパッケージもあったと思うのですが
どちらがよく使われているのでしょうか。
あるいは両方使っている人はどう使いわけているのでしょうか。
信ずる者は掬われる。
Re:R って (スコア:1)
#Sの1つ前だからRなんじゃなかった?
Kiyotan
ソースきぼんぬ (スコア:0)
Re:ソースきぼんぬ (スコア:3, 興味深い)
http://aoki2.si.gunma-u.ac.jp/Hanasi/excel/index.html
に詳しくまとめられています。
「Excelのひどさ」は統計関連の掲示板でもたびたび話題に
上りますし、注意して使うに越したことないと思います。
タレコみにあったようにR使えばいいということです。
「ソースきぼんぬ」って、検索したらすぐに出てきますよ・・・
クレクレ君ですみませんが (スコア:1)
あるのであれば)解決するための方法を提供してくれてもいいような。
Re:クレクレ君ですみませんが (スコア:1)
# いるかに難しい計算は無理?
-- 哀れな日本人専用(sorry Japanese only) --
Re:ソースきぼんぬ (スコア:1, 参考になる)
Re:ソースきぼんぬ (スコア:1)
--- show mpls ldp neighbor
Re:ソースきぼんぬ (スコア:1, 参考になる)
Re:ソースきぼんぬ (スコア:1, 参考になる)
http://www.pag1u.net/network/ftest_bug.html
http://www.shochian.com/exclfc.htm
もっとスゴいエラーがあったはずだけど、思い出せない。
Re:ソースきぼんぬ (スコア:1)
しかし、統計解析だけに使っているわけでもないので、問題を認識した上で、excelを使いつづけていくでしょう。
# Ver4からのexcelユーザー
Re:ソースきぼんぬ (スコア:0)
そもそもタレこみ文自体が少し妙な文章ですし。
統計ソフト? (スコア:0)
統計ソフトだったとは知らなかったな。
え? (スコア:3, すばらしい洞察)
Excelって仕様書を書くためのツールじゃなかったんですか?
Re:え? (スコア:2, おもしろおかしい)
#Wordは使いにくくていやです。
Re:え? (スコア:1)
真の文書作成のために生まれ変わったWord、って位置づけですよね :-)
教育実習の時、指導案作成にも活用したな...。
はい。 (スコア:1)
#まともなソフトだと思いますがねえ、Wordと比べたら。
"Make Love, Not War"
Re:統計ソフト? (スコア:0)
同感。
「(一部統計も出来る)表計算ソフト」ってのが一般認識では?
「表計算」=「統計」って認識は稀だと思うし...。
「統計用だともっと高いソフトを使うらしいよ」って事ぐらいは、
統計に関わらない職種でも認識されていると思う。
Re:統計ソフト? (スコア:1, 興味深い)
けれど、統計をする人の中でExcelを使う人の割合はかなり多いと思う。
表計算ソフトであって (スコア:0)
Re:そもそもね (スコア:1)
Typo (スコア:0)
訂正報告 (Re:Typo) (スコア:1)
Re:また直貼りかい (スコア:1)
こう書きゃいいじゃんよって事。
Re:また直貼りかい (スコア:1)
怠惰なプログラマ(藁)な俺といたしましては、
スラドにInterWiki [os-omicron.org]Nameの機能が実装されることを少し期待していたりします。
#え?俺には無理です。Perl書けないし(^^;
ええ。もちろん日本語(EUC/SJIS/云々)対応の奴をです。なんたってここはスラドJなので。
Re:Rですか。 (スコア:1)
-- 哀れな日本人専用(sorry Japanese only) --