EZR勉強3：相関と線形回帰

①連続変数の相関

2つの連続変数（例えば身長と体重とか）の相関の解析法としては、ピアソンの相関を用いる。これは、2変数のどちらも正規分布に従うという仮定のうえに成り立っている。なので、正規分布に従わないデータの場合には、スピアマンの相関を用いる。

②最小二乗直線を描いてみよう

　EZRで最小二乗直線を描くには「グラフと表」→「散布図」を選び、x変数に説明変数、y変数にアウトカム変数を入れる。つまり、例えば「身長が〇cmのとき体重は△kgになる」という関係を知りたいのであれば、身長が説明変数なのでx変数に身長を入れ、体重がアウトカム変数なのでy変数に体重を入れる。そして、「最小二乗直線」にチェックを入れる。

⇒散布図に最小二乗直線がひかれた図が得られる。この直線の切片（y軸と交わるところ）が0.08で、傾きが0.5だったとする。切片自体は、あまり知りたい情報を含んでいない。傾きの数値は、例えばこの場合、「身長が1cmのびるごとに、体重が平均0.5kg増加する」ということになる。

　ここで重要なのは、例えば、「身長と体重」「身長とWBC数」という2種類の直線を描いてみたとして、この2直線の傾きを比べて、「こちらの方が傾きが大きいから、より身長との相関が強い！」といった比較はできないということ。なぜ？それは、単位が全然ちがうから。体重は大体0～100kgぐらいの幅。それに対しWBC数は0～まあ、10000とかそれぐらいの幅かな？よって、この2つでは「1増加する」ことの重みが全然違う。

　これを比べられるようにするには？「標準化」が必要。標準化する方法の中で、よく用いられるものは、「観察された値からその変数の平均をひいて、それをその変数の標準偏差で割る」という方法。

　ピアソンの相関係数は、この標準化された変数を用いて線形回帰を行った場合の傾きとして解釈できる。

③線形回帰モデルを用いて解析を行う…その前に、残差の正規性の確認を！

　線形回帰モデルは、「残差（観察されたアウトカムの値と、モデルで予測した値との差）が正規分布に従っている」ことを前提としている。アウトカム自体の分布は正規分布に従っていなくても、残差が正規分布に従っていればＯＫ。

　残差の正規性を確認するには？→Normal Q-Q plot!

Stataの勉強のとき、出てきたなあ…。EZRでQ-Q plotを描くには、「統計解析」→「連続変数の解析」→「線形回帰（単回帰、重回帰）」で、目的変数・説明変数を選択したあとに、下のほうの「基本的診断プロットを表示する」を選択する。

　Q-Q plotでは、縦軸と横軸に、理論的に正規分布をもとに想定された残差と実際に標準化された残差がプロットされる。45度のラインの周りにランダムに点が散らばっていれば、残差は正規分布に従っていると判断できる。

　残差が正規分布に従っていないと判断される場合にはどうしたらよいのか？→残差が正規分布に従うようになるまで、アウトカムの数学的変換を行う。例えばアウトカムの値を対数変換するとか。

④残差の正規性が確認できれば、線形回帰分析を行う。「統計解析」→「連続変数の解析」→「線形回帰（単回帰、重回帰）」で、目的変数・説明変数を選択。結果の見方は、例えばアウトカムを体重にして、説明変数を身長(Height)にしたとして、interceptの回帰係数推定値が0.075、Heightの回帰係数推定値が0.064、P値が0.034となっていたとしたら、身長が1cm増加するごとに、体重が0.064kg増加する(P=0.034)」と解釈できる。