①データが正規分布をしているときに用いるもの…ピアソンの相関係数
pwcorr 変数群(2つ以上でも可),オプション
例えば身長(ht)と体重(wt)の相関を求めたいときは、pwcorr ht wt
p値を求めたいときは、significantの略のsigをオプションとして付ける。
pwcorr ht wt,sig
結果の表で0.9233といったように表示されているのが、相関係数。さきほどのp値のオプションを付けた場合にはその下の行にp値が表示されている。
ピアソンの相関係数は、変数どうしの関係を直線にあてはめているので、本来の関係が例えばU字カーブを描くようなものだった場合は、適さない。また、はずれ値の影響を受けやすい。
⇒はじめに散布図を描いて、視覚的に確認してからピアソンの相関係数を用いるか考えたほうがよい。
②データが正規分布していないとき…スピアマンの相関係数
変数を順位に置き換えて関連性を見たもの。順位に置き換えたことによって、情報量としては減っている。
spearman 変数群(2つ以上でも可)
例えば身長(ht)、体重(wt)の相関をみたいときはspearman ht wt
pwcorrのときと違い、勝手にp値も表示してくれる。ただし変数が多いとp値は表示されないので、2つずつ求める必要がある。
③twoway: グラフを重ねたいときに用いる。
例えば身長と体重の散布図と回帰直線を重ねて表示したいとき
twoway (scatter ht wt)(lfit ht wt)
このようにtwoway (式1)(式2)とする。
④回帰分析、の中の線形回帰分析
回帰分析とはモデルにあてはめてアウトカム変数と要因変数の関係を調べる方法。要因の変数の型は基本的に自由で、連続変数でも2値変数(生存or死亡、病気の有りor無し、など)でもOKだが、アウトカム変数の型によって、使えるモデルが決まってくる。その対応は以下の通り。
アウトカム変数の型 | 回帰モデル |
連続変数 | 線形回帰 |
確率(割合):2値変数 | ロジスティック回帰 |
イベント発生率(時間の概念が入ってくる) | コックス回帰 |
線形回帰:regress
regress アウトカム変数 要因変数群
結果表示の見方:初めの段落は分散分析表。右上のブロックは、F値と、それに対応するp値。p値の下のR-squaredは決定変数。