ダミー変数

統計の勉強中。本当に難しい、完全に分かるのは無理かも、ということが分かっただけでも収穫。

今日学んだこと…ダミー変数。

3値以上のカテゴリー変数を扱うときに登場する。

例えば、日本人、アメリカ人、ドイツ人。

これを0,1の組み合わせで表すために、このカテゴリー変数をダミー変数に分解する。それは、0,1の2区分の変数を複数作るということ。

複数とは…3値なら2つ。4値なら3つ。つまり、n値ならn-1個。

先の人種の場合、3値なので、2つのダミー変数を作る。ダミー変数1には、日本人を1、それ以外(アメリカ人とドイツ人)を0と割り振る。ダミー変数2には、ドイツ人を1、それ以外(日本人とアメリカ人)を0と割り振る。

すると、日本人は(ダミー変数1, ダミー変数2)の組み合わせでいうと(1,0)となる。アメリカ人は(0,0)、ドイツ人は(0,1)となる。つまり、2つのダミー変数の組み合わせのバリエーションで、3つの人種をすべて表現できたことになる。

具体的には、エクセルで、日本人=0、アメリカ人=1、ドイツ人=2、として、下記のように表を作成していたとする。

ID人種
10
21
31
42
52
61

これを、さきほどのようなダミー変数を使って書き換える。実際には、上記表の横に列を増やして、このように記入する。

ID人種ダミー変数1ダミー変数2
1010
2100
3100
4201
5201
6100

これで、3値のカテゴリー変数を、0と1とで扱えるようになった!

タイトルとURLをコピーしました