Модели ancova (модели ковариационного анализа). фиктивные переменные
Модели, в которых объясняющие переменные носят как качественный, так и количественный характер, называются ANCOVA-модели.
Влияние качественного фактора обычно выражают в виде так называемой фиктивной переменной (или переменных, если таких факторов несколько). Такими факторами могут быть: пол, возрастная группа, сезон, национальность. Фиктивная переменная отражает два противоположных состояния качественного фактора: либо фактор действует, либо не действует D=0 или D=1. Фиктивную переменную иногда называют индикатором.
Рассмотрим простейшую модель с одним индикатором, принимающим два значения:
,
D=0, если сотрудник – женщина,
D=1, если сотрудник – мужчина,
y – размер заработной платы,
x – стаж работы.
Тогда ожидаемое значение заработной платы сотрудников при стаже х будет выражаться так:
что иллюстрируется рис. 6.1.
|
Рис. 6.1
Если свободные члены окажутся статистически значимыми, то обнаружится дискриминация по поводу полового признака: c > 0 – в пользу мужчин, c < 0 – в пользу женщин. В рассмотренном примере пол сотрудников имеет два альтернативных значения: женщины или мужчины, – и в модели это отражается одной фиктивной переменной.
Что будет, если вместо одной возьмём две фиктивные переменные?
Между фиктивными переменными D1 и D2 существует строгая функциональная (линейная) зависимость, а именно D2 = 1–D1 или D1 = 1–D2. Видно, что в этом случае имеет место совершенная мультиколлинеарность, следовательно, с1 и с2 в модели однозначно не определяются, и одну переменную нужно отбросить – это простейший способ борьбы с мультиколлинеарностью.
Существует общее правило: если качественная переменная имеет k альтернативных значений, то в модели следует использовать только (k-1) фиктивных переменных. Если этому правилу не следовать, то исследователь попадает в так называемую ловушку мультиколлинеарности (dummy trap).
Значение качественной переменной, для которой D = 0, называется базовым или сравнительным.
Рассмотрим модель при наличии у качественной переменной более двух альтернатив:
, где
у – расходы,
х – доходы.
Значения переменных в зависимости от альтернатив показаны в табл. 6.1.
D1 |
D2 | |
Дошкольник |
0 |
0 |
Младший школьник |
1 | |
Старший школьник |
1 |
Таблица 6.1
Образуются следующие зависимости:
Первое уравнение – это средний расход на дошкольника,
второе уравнение – это средний расход на младшего школьника,