Stataのコマンドその5(推定値)

いよいよ付いていけなくなってきつつある…。自分レベルの人に、なんとか説明できる範囲で説明してみる。

①predict

前回、その4で取り上げた線形回帰分析は、以下のように行うのだった。

regress アウトカム変数 要因変数

例えば、収縮期血圧(sbp)をアウトカム変数、要因変数を年齢(age)、喫煙の有無(smoke)としたとすると、

regress sbp age smoke

で、年齢や喫煙の有無といった要因と、収縮期血圧の関係を回帰直線にあてはめて解析することができる。

このregressを実行したあとに、続けて

predict 新変数名, xb

と入力すると、回帰分析の推定値を求めることができる。

regress sbp age smoke

predict sbphat,xb

ここでもうつまずく…変数の後ろになぜ突然hatが付くのだろう…。調べて、理解できた範疇で以下説明。

線形回帰の式は、Yをアウトカム変数、Xを要因変数とすると以下の通りである。

yi=α+βxi+ei

(eiは誤差項、αは切片、βは傾き)

回帰式から予測したアウトカム変数をyhat(yの頭に山形の記号^が乗っているもの)といい、実際の変数との差を残差という。hat、ハット、^は、統計記号として「推定値」という意味。

ということで、アウトカム変数sbpの、推定値、ということで、突然sbphatになるのね。もうそのレベル。

この先はもはや、付いていけませんでしたので、まとめられません。

②てこ比

って何。サンプルごとに要因変数のデータを変えずにアウトカム変数yの値を1だけ変えたときの予測値の変化量のことです。英語では,leverage。だから

predict l,lev

で出せる。一般的な傾向から大きくはずれたデータは、それ1つでモデルに大きな影響を及ぼす。それで、支点から離れるほど小さい力でものを動かせるという“てこ”の名前がついている。

タイトルとURLをコピーしました