統計の勉強中。本当に難しい、完全に分かるのは無理かも、ということが分かっただけでも収穫。
今日学んだこと…ダミー変数。
3値以上のカテゴリー変数を扱うときに登場する。
例えば、日本人、アメリカ人、ドイツ人。
これを0,1の組み合わせで表すために、このカテゴリー変数をダミー変数に分解する。それは、0,1の2区分の変数を複数作るということ。
複数とは…3値なら2つ。4値なら3つ。つまり、n値ならn-1個。
先の人種の場合、3値なので、2つのダミー変数を作る。ダミー変数1には、日本人を1、それ以外(アメリカ人とドイツ人)を0と割り振る。ダミー変数2には、ドイツ人を1、それ以外(日本人とアメリカ人)を0と割り振る。
すると、日本人は(ダミー変数1, ダミー変数2)の組み合わせでいうと(1,0)となる。アメリカ人は(0,0)、ドイツ人は(0,1)となる。つまり、2つのダミー変数の組み合わせのバリエーションで、3つの人種をすべて表現できたことになる。
具体的には、エクセルで、日本人=0、アメリカ人=1、ドイツ人=2、として、下記のように表を作成していたとする。
ID | 人種 |
1 | 0 |
2 | 1 |
3 | 1 |
4 | 2 |
5 | 2 |
6 | 1 |
これを、さきほどのようなダミー変数を使って書き換える。実際には、上記表の横に列を増やして、このように記入する。
ID | 人種 | ダミー変数1 | ダミー変数2 |
1 | 0 | 1 | 0 |
2 | 1 | 0 | 0 |
3 | 1 | 0 | 0 |
4 | 2 | 0 | 1 |
5 | 2 | 0 | 1 |
6 | 1 | 0 | 0 |
これで、3値のカテゴリー変数を、0と1とで扱えるようになった!