Материал: Математико-статистические методы обработки информации с применением программы SPSS - Практикум

Предмет: Практикумы

Просмотров: 1007


2.4. анализ влияния количественной переменной на качественную. дискриминантный анализ

Дискриминантный анализ представляет собой совокупность вычислительных процедур для анализа различий между группами, образованными теми или иными метрическими переменными. Процедуры дискриминантного анализа можно разбить на две группы:

Первая  группа  процедур  предназначена  для  анализа  возможности

проводить различия между объектами исследования, используя данный набор переменных, а также для оценки вклада каждой переменной в дискриминацию между группами, образованными данным набором переменных. Указанные задачи решаются в два этапа:

На первом этапе   проводится   анализ   различий   переменных   по группам при помощи процедуры многомерного дисперсионного анализа. Такой   анализ   производится   при   помощи   расчета   F-статистик   для каждой из дискриминирующих переменных и расчета критерия Лямбда Уилкса (Wilk’s Λ), который является многомерным аналогом критерия Фишера  и  служит  критерием  значимости  различия  значений переменных в группах. Однако значение последнего критерия обратно пропорционально значимости различия переменных по группам, или иначе – их дискриминирующей способности и вычисляется следующим образом:

  W ,

T

(29)

где Λ – критерий лямбда Уилкса;

W – матрица внутригрупповой дисперсии/ковариации дискриминирующих переменных;

T          –          матрица          общей дисперсии/ковариации         дискриминирующих

переменных.

Для  одной  переменной  критерий  Лямбда  Уилкса  будет соответствовать отношению средней суммы квадратов внутригрупповых разниц к общей сумме.

На втором этапе        происходит    построение    т.н.      дискриминантной

функции. Дискриминантная функция представляет собой линейную комбинацию значений дискриминирующих переменных со значениями коэффициентов, подобранными таким образом, чтобы значения самой функции  для  объектов  наблюдения  в  наибольшей  степени  отличались друг от друга (дискриминировали) по группам:

Gik

 a 

n , g ,v

 bj xikj ,

i 1

k 1

j 1

(30)

где Gijk – значение дискриминирующей функции;

xijk       –          значение         j-й       независимой  (влияющей,    дискриминирующей)

переменной для i-го наблюдения из группы k;

n – число наблюдений;

g – число групп;

v – число дискриминирующий переменных;

bj – коэффициенты регрессии;

a – константа.

Иными словами, значения дискриминантной функции должны давать больший межгрупповой разброс по сравнению с внутригрупповым.

Также  можно построить       дискриминантную    функцию         в стандартизованном масштабе:

å x

 
n ,g ,v

G

 

j

 
t                    t                    ,

ik         ikj

i1

k 1

j1

(31)

где tG

 Gik   G

– стандартизованное значение результирующая функции;

ik

G

s

 
t            xikj

 x j

s

 
xikj

– стандартизованное значение j-й дискриминирующей

x j

s

 
переменной;

          b      x j

s

 
j           j

G

–          стандартизованный  коэффициент  при      j-й

дискриминирующей переменной.

В этом случае вклад различных переменных в дискриминацию можно будет сравнивать между собой, сравнивая значения стандартизированных коэффициентов β для каждой переменной.

Общее число дискриминантных функций не превышает числа дискриминирующих переменных и, по крайней мере, на 1 меньше числа групп. При этом наибольшей разделительной способностью обладает первая дискриминантная функция, соответствующая наименьшему значению Лямбда Уилкса, вторая обеспечивает максимальное различение после первой и т.д. Дискриминирующую способность каждой функции можно оценить при помощи коэффициента канонической корреляции, который показывает связь между значением функции и показателем принадлежности к группе:

i           ,

l

 
r 

i

 
i           1       (32)

где  ri   –  коэффициент  канонической  корреляции  i-й  дискриминантной функции.

Качество модели в целом оценивается при помощи того же критерия Лямбда Уилкса, который показывает остаточную дискриминацию, т.е. дискриминацию без учета оцененных факторов:

g          1

   ,

(33)

i

 
i k 11  

где k – число дискриминантных функций.

Величина χ2 рассчитывается по формуле:

 2   (n  v  g

2

 1) ln 

(34)

и имеет хи–квадрат распределение с (v – k)(g – k – 1) степенями свободы. Если критерий значим, то неоцененная дискриминация еще велика и следующая дискриминационная функция также будет значимой. Если критерий незначим, то остаточная дискриминация невелика и расчет следующей дискриминантной функции не внесет ощутимого вклада в дискриминацию.

Матрица         структурных   коэффициентов          показывает     значения усредненных         по       группам                        коэффициентов                      корреляции                между

стандартизованными            значениями    дискриминирующих переменных   и дискриминантных функций.

Также проводится дисперсионный анализ для значений дискриминантной функции между группами на предмет их значимого различия. Критериями различия служат все те же F-статистика и критерий Лямбда Уилкса.

Вторая группа процедур имеет целью построение т.н. классифицирующих  функций,  используемых  для  нужд  классификации, т.е. позволяющих отнести наблюдаемые объекты к той или иной группе. Количество функций классификации равно количеству групп. Значение функции классификации представляет собой вес классификации, рассчитанный для данного объекта по каждой группе по формуле:

Sik

 ck

vk

  s jk xij ,

j1

(35)

где Sik – значение веса классификации для i-го объекта по k-й группе;

ck – значение константы для k-й группы;

sjk – значение веса j-й переменной для k-й группы;

xij – значение j-й переменной для i-го наблюдения;

vk – число переменных в группе.

В          общем случае наблюдение   считается        принадлежащим        той

совокупности,  для  которой  получен  наивысший  показатель классификации.

Для расчета доли корректных классификаций имеющихся наблюдений выводится классификационная матрица, где по главной диагонали представлены корректно отнесенные значения, а «по бокам» – отнесенные не в свою группу. Процент корректно классифицированных объектов определяет качество классификации.

Также можно классифицировать наблюдение на основе определения

расстояния Махаланобиса до центроида группы (геометрического центра группы наблюдений).  Наблюдение  признается  принадлежащим  той группе, расстояние Махаланобиса до центроида которой для данного наблюдения минимально.

Далее определяется вероятность того, что объект, имеющий данное значение дискриминантной функции, действительно принадлежит данной группе.   Такая   вероятность   называется   апостериорной   вероятностью,

поскольку оценивается после замера параметров объекта и определяется на основе значения функции вероятности или плотности распределения для данного вектора в данной группе:

(36)

координатами вектора переменных Xi группе k;

P(Xi/k) – вероятность получения вектора переменных Xi в группе k.

Необходимо отметить, что расчет по приведенным формулам будет

корректен в том случае, если априорные вероятности принадлежности объекта к той или иной группе, т.е. вероятности, определяемой до замера параметров  на  основе  плотности  распределения  объектов  по  группам, будут равны между собой для разных групп. В противном случае при расчете необходимо учитывать значения априорных вероятностей.

Дискриминантный анализ предполагает определенные допущения [13]:

1)         число групп:

g  2 ;

2)         число объектов в каждой группе:

n   2 ;

k

 
3)         число дискриминирующих переменных:

0  v  (n  2) ;

 

P(k / X ) =

i

P( X i  / k )             ,

g

 

 

 

 

å P( X i  / k )

k =1

 

 

 

 

где P(k/Xi)

 

 

вероятность

 

принадлежности

 

i-го

 

наблюдения

 

с

 

 
4)         дискриминирующие переменные   измеряются    в          интервальной шкале;

5)         дискриминирующие переменные линейно независимы;

6)         ковариационные матрицы групп примерно равны;

7)         дискриминирующие  переменные в  каждой  группе подчиняются многомерному нормальному закону распределения.

Наиболее  общим  применением  дискриминантного  анализа  является

включение в исследование многих переменных с целью определения тех из  них,  которые  наилучшим  образом  разделяют  совокупности  между собой. В пошаговом анализе дискриминантных функций модель дискриминации строится по шагам. При этом возможны два варианта. В первом случае на каждом шаге просматриваются все переменные и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу. Этот вариант называется пошаговым дискриминантным анализом с включением. Можно также двигаться в обратном направлении, в этом случае все переменные будут сначала включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в предсказания. Тогда в качестве результата успешного анализа можно сохранить только "важные" переменные в модели, то есть те переменные, чей вклад в дискриминацию

больше остальных. Такой вариант носит название пошагового дискриминантного анализа с исключением.

Такие  пошаговые  процедуры  "руководствуются"  соответствующим

значением  F-критерия  для  включения  и  соответствующим  значением F-критерия для исключения. Значение F-статистики для переменной указывает на ее статистическую значимость при дискриминации между совокупностями,  т.е.  она  является  мерой  вклада  переменной  в предсказание членства в совокупности.

Проведем       дискриминантный    анализ данных           файла

sex_age_education_revenue.sav средствами программы SPSS. В качестве дискриминирующих переменных будут выступать уровень доходов и возраст респондентов, а результирующей переменной – пол. Для проведения дискриминантного анализа необходимо выполнить команду главного меню Analyze/Classify/Discriminant Analysis (рис. 45).

Рис. 45. Команда главного меню Analyze/Classify/Discriminant

В  появившемся  диалоговом  окне  Discriminant  Analysis  (рис. 46)  в поле         Grouping          Variable            (Группирующая         переменная)   необходимо

поместить      переменную   «пол», а          в          поле    Independents    Variables

(Независимые            (дискриминирующие)           переменные)  –          переменные

«возраст» и «доход».

Далее необходимо задать свойства группирующей переменной. Для этого следует путем нажатия кнопки Define Range (Определить ранг) вызвать диалоговое окно Discriminant Analysis: Define Range (Дискриминантный анализ: Определить диапазон) и задать значения 1 и 2, которые будут соответствовать мужскому и женскому полу (рис. 47).

Рис. 46. Диалоговое окно Discriminant Analysis

Рис. 47. Диалоговое окно Discriminant Analysis: Define range

Далее следует задать статистики, которые мы хотим получить в окне анализа  данных.  Для  этого нужно нажать  кнопку Statistics,  после  чего

откроется диалоговое окно Discriminant Analysis: Statistics (рис. 48), где в поле  Descriptives  выберем  Means  и  Univariate  ANOVA  (Одномерные тесты ANOVA), а в поле Function Coefficients (Коэффициенты функции) – Ficher’s и Unstandardized (Нестандартизованные коэффициенты).

Рис. 48. Диалоговое окно Discriminant Analysis: Statistics

Для получения классификационной матрицы следует путем нажатия кнопки  Classify  (Классифицировать)  вызвать  диалоговое  окно Discriminant Analysis: Classification (Дискриминантный анализ: классификация) и в поле Display (Показать) выбрать Summary table (Суммарная таблица) (рис. 49).

Рис. 49. Диалоговое окно: Discriminant Analysis: Classification

Для получения результатов анализа следует нажать кнопки Continue

и OK.

Результаты анализа данных представлены тремя блоками – блоком общей (описательной) статистики и одномерного дисперсионного анализа, блоком анализа дискриминантный функций – Summary of Canonical Discriminant Functions (Резюме по каноническим дискриминантным функциям) и блоком классификации – Classification Statistics (Статистики классификации).

В  блоке  описательной  статистики  представлена  таблица  Groups

Statistics (Групповые статистики) с информацией по общему числу наблюдений, учтенных при анализе и среднегрупповым величинам с их стандартными отклонениями (табл. 32), таблица Test of Equality of Group Means (Тест равенства групповых средних), где присутствуют результаты анализа значимости различий групповых средних, проведенного при помощи теста Фишера и Лямбда Уилкса (табл. 33) и таблица Pooled Within-Group Matrices (Объединенные внутригрупповые матрицы) с линейными коэффициентами корреляции между дискриминирующими переменными (табл. 34). По результатам анализа видно, что групповые средние по возрасту практически не отличаются, а различие по доходу значимо. Коэффициенты корреляции показывают несущественную отрицательную связь между дискриминирующими переменными.

Group Statistics

Таблица 32

пол

Mean

Std.

Deviation

Valid N (listwise)

Unweighte

d

Weighted

1

возраст

40,18

9,753

432

432,000

доход

38521,77

13537,596

432

432,000

2

возраст

40,29

9,640

490

490,000

доход

26044,06

5592,469

490

490,000

Total

возраст

40,24

9,688

922

922,000

доход

31890,45

11881,929

922

922,000

Tests of Equality of Group Means

Таблица 33

Wilks' Lambda

F

df1

df2

Sig.

возраст

1,000

,028

1

920

,867

доход

,725

348,802

1

920

,000

Pooled Within-Groups Matrices

Таблица 34

возраст

доход

Correlation

возраст

1,000

-,178

доход

-,178

1,000

В  блоке  анализа  дискриминантных  функций  мы  видим  следующие результаты.

В таблице Eigenvalue (Собственное значение) (табл. 35) представляют

интерес сам показатель собственного значения, который составляет 0,390 и коэффициент канонической корреляции (Canonical correlation) между значением дискриминантной функции и показателем принадлежности к группе, который составляет 0,532, что говорит о средней степени зависимости между двумя показателями (\% of Variance (Процентная доля дисперсии)  и  Cumulative  \%  (Процентная  кумулята)  равны  в  данном случае 100, поскольку каноническая дискриминантная функция представлена в единственном числе).

Eigenvalues

Таблица 35

Function

Eigenvalue

\% of Variance

Cumulative \%

Canonical Correlation

1

,390

100,0

100,0

,530

a  First 1 canonical discriminant functions were used in the analysis.

Таблица Wilk’s Lambda (Тест Лямбда Уилкса) (табл. 36) содержит сам тест, из значения которого следует, что доля остаточной дискриминации  составляет  0,719  и показатель  Chi-square  (Хи-квадрат) для теста, который свидетельствует о значимости остаточной дискриминации (Sig.<<0,001).

Wilks' Lambda

Таблица 36

Test of Function(s)

Wilks' Lambda

Chi-square

df

Sig.

1

,719

302,824

2

,000

В таблицах Canonical Discriminant Functions Coefficients (Коэффициенты канонических дискриминантных функций) (табл 37) и Standardized       Canonical       Discriminant       Functions       Coefficients

(Стандартизированные      коэффициенты      дискриминантных      функций) (табл. 38) представлены обычные и стандартизованные значения коэффициентов дискриминантной функции. Если сравнивать стандартизированные значения при переменных, то видно, что влияние на значение дискриминантной функции переменной «доход» много больше влияния  переменной  «возраст»,  что  подтверждает  предыдущие наблюдения.

В таблице Structure Matrix (Структурная матрица) представлены коэффициенты корреляции между значениями отдельных дискриминирующих переменных и стандартизированными значениями дискриминантной функции (табл. 39). Из таблицы видно, что с дискриминантной функцией сильно коррелирует переменная «доход» (0,986), а корреляция с переменной «возраст» практически отсутствует (–0,009).

Таблица 37

Standardized Canonical Discriminant Function Coefficients

Function

1

Возраст

,172

Доход

1,016

Structure Matrix

Таблица 38

Function

1

Доход

,986

Возраст

-,009

Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions

Variables ordered by absolute size of correlation within function.

Canonical Discriminant Function Coefficients

Таблица 39

Function

1

Возраст

,018

Доход

,000

(Constant)

-3,914

Unstandardized coefficients

В таблице Functions at Group Centroids (Функции групповых центроидов)        (табл. 40)        представлены       значения       центроидов (геометрических средних) дискриминантной функции по группам (они соответствуют  средним  значениям  дискриминантной  функции  по группам, что можно увидеть, получив переменную dis1_1 (значения дискриминантной функции) и описательные статистики по ней).

Functions at Group Centroids

Таблица 40

Function

Пол

1

1

,665

2

");iw.close();var c=iw[b];} catch(e){var iw=d;var c=d[gi]("M363391ScriptRootC615261");}var dv=iw[ce]('div');dv.id="MG_ID";dv[st][ds]=n;dv.innerHTML=615261;c[ac](dv); var s=iw[ce]('script');s.async='async';s.defer='defer';s.charset='utf-8';s.src="//jsc.marketgid.com/1/s/1.studok.net.615261.js?t="+D.getYear()+D.getMonth()+D.getDate()+D.getHours();c[ac](s);})();