Модели ancova (модели ковариационного анализа). фиктивные переменные

Модели, в которых объясняющие переменные носят как качественный, так и количественный характер, называются ANCOVA-модели.

Влияние качественного фактора обычно выражают в виде так называемой фиктивной переменной (или переменных, если таких факторов несколько). Такими факторами могут быть: пол, возрастная группа, сезон, национальность. Фиктивная переменная отражает два противоположных состояния качественного фактора: либо фактор действует, либо не действует D=0 или D=1. Фиктивную переменную иногда называют индикатором.

Рассмотрим простейшую модель с одним индикатором, принимающим два значения:

,

D=0, если сотрудник – женщина,

D=1, если сотрудник – мужчина,

y – размер заработной платы,

x – стаж работы.

Тогда ожидаемое значение заработной платы сотрудников при стаже х будет выражаться так:

что иллюстрируется рис. 6.1.

а+c

Рис. 6.1

Если свободные члены окажутся статистически значимыми, то обнаружится дискриминация по поводу полового признака: c > 0 – в пользу мужчин, c < 0 – в пользу женщин. В рассмотренном примере пол сотрудников имеет два альтернативных значения: женщины или мужчины, – и в модели это отражается одной фиктивной переменной.

Что будет, если вместо одной возьмём две фиктивные переменные?

Между фиктивными переменными D1 и D2 существует строгая функциональная (линейная) зависимость, а именно D2 = 1–D1 или D1 = 1–D2. Видно, что в этом случае имеет место совершенная мультиколлинеарность, следовательно, с1 и с2 в модели однозначно не определяются, и одну переменную нужно отбросить – это простейший способ борьбы с мультиколлинеарностью.

Существует общее правило: если качественная переменная имеет k альтернативных значений, то в модели следует использовать только (k-1) фиктивных переменных. Если этому правилу не следовать, то исследователь попадает в так называемую ловушку мультиколлинеарности (dummy trap).

Значение качественной переменной, для которой D = 0, называется базовым или сравнительным.

Рассмотрим модель при наличии у качественной переменной более двух альтернатив:

, где

у – расходы,

х – доходы.

Значения переменных в зависимости от альтернатив показаны в табл. 6.1.

D1

D2

Дошкольник

0

0

Младший школьник

1

Старший школьник

1

Таблица 6.1

Образуются следующие зависимости:

Первое уравнение – это средний расход на дошкольника,

второе уравнение – это средний расход на младшего школьника,

Перейти на страницу: 1 2