Материал: Математико-статистические методы обработки информации с применением программы SPSS - Практикум

Предмет: Практикумы

Просмотров: 1011


1.2. расчет    описательных    статистик    для    количественных переменных

Описательные статистики, применяемые при анализе количественных данных, можно разделить на три группы:

1.         Показатели центра распределения

2.         Показатели вариации

3.         Показатели формы распределения:

3.1. Показатели асимметрии

3.2. Показатели эксцесса

П о к а з а т е л и   ц е н т р а   р а с п р е д е л е н и я   характеризует  средние величины совокупности. Сюда относятся непосредственно средняя величина в различных ее вариантах – средняя арифметическая, средняя гармоническая и средняя геометрическая – мода, как показатель, характеризующий наиболее часто встречающееся значение, медиана, которая  делит  всю  совокупность  на  две  равные  части  и  различные варианты квинтелей – квартили, децили и т.д., делящие совокупность соответственно на четыре, десять и т.д. равных частей.

П о к а з а т е л и  в а р и а ц и и  характеризуют разброс величин того или иного параметра совокупности. Показатели вариации могут быть абсолютными и относительными. К абсолютным показателям относятся минимальное и максимальное значения, размах вариации, показывающий диапазон отклонений величины, среднее линейное отклонение, дисперсия и среднее квадратическое отклонение. Последние три величины характеризуют среднее отклонение вариантов величины параметра от ее среднего значения. Разница в том, что среднее линейное отклонение рассчитывается по модулю отклонения, дисперсия – по квадрату и представляет собой, тем самым, центральный момент второго порядка, а среднее    квадратическое     отклонение    представляет    собой    корень

квадратный от дисперсии. Относительные показатели вариации относят абсолютные значения отклонений к средней по совокупности величине.

С         точки  зрения формы распределение           характеризуется         степенью

асимметрии  и  пологости  графика  плотности  распределения рассматриваемой переменной. При расчете показателей асимметрии и пологости форма графика соотносится с таковой нормального (Гауссова) распределения. График распределения величины, подчиняющейся нормальному закону, симметричен. Симметричность графика означает равенство значений частоты или частости значений рассматриваемой переменной, находящихся по разные стороны от среднего ее значения и равноудаленных от него. Следовательно, коэффициент асимметрии, определяемый через отношение центрального момента третьего порядка к среднеквадратичному отклонению в такой же степени, равен нулю, т. к. равен нулю числитель этой дроби (ведь он представляет собой центральный момент распределения нечетной степени). Значения моды, медианы и средней величины у нормально распределенной величины совпадают. Также нормальный график имеет определенную «степень пологости», которая характеризует степень разброса рассматриваемой величины. Степень пологости распределения определяется через показатель эксцесса, который рассчитывается через разницу отношения центрального момента четвертого порядка к среднеквадратическому отклонению в такой же степени и трех. Поскольку  указанное  отношение  для  нормального  распределения  равно трем, то показатель эксцесса для нормальной величины будет равен нулю. Положительное значение показателя указывает на «островершинность» распределения и говорит о малой степени разброса рассматриваемой величины по сравнению с ее нормальным вариантом. Отрицательность эксцесса говорит о том, что степень разброса переменной вокруг своей средней величины больше по сравнению с нормальным вариантом.

Знание характера распределения изучаемой величины имеет большое значение для анализа данных, поскольку тот или иной тип распределения предполагает применение тех или иных статистических инструментов и показателей. В программе существует несколько способов проверки соответствия распределения изучаемой величины тому или иному типу распределения (в т. ч. и нормальному) как графически, так и при помощи определенных статистических тестов.

Попробуем рассчитать рассмотренные показатели на основе данных файла sex_age_education_revenue.sav на примере переменной «возраст».

Для получения описательных статистик количественных переменных

можно выполнить команду Analyze/Descriptive Statistics/Frequencies или Analyze/Descriptive Statistics/Descriptives. При помощи первой команды можно рассчитать описательные статистики как для качественных, так и для количественных данных, при выполнении второй команды в левом поле  для  выбора  будут  доступны  лишь  числовые  переменные.  Обе

команды предлагают для выбора идентичные блоки анализа, однако во втором  варианте  в  блоке  показателей  Central  Tendency  (Показатели центра распределения) отсутствуют показатели Mode (Мода) и Median (Медиана), к тому же, при выполнении первой команды предусмотрена возможность построения гистограммы данных. В силу указанных обстоятельств воспользуемся первой командой.

В появившемся диалоговом окне выберем переменную «возраст» и перенесем  ее  при  помощи  стрелки  в  правое  поле.  Снимем  флажок  с Display frequencies tables, если он там стоит (рис. 5).

Рис. 5. Диалоговое окно Frequencies

с установками для анализа переменной «возраст»

Нажав кнопку Statistics, в открывшемся диалоговом окне выберем все показатели, кроме блока Percentile Values (Процентные значения) и показателя Sum (Сумма) в блоке Central Tendency, поскольку показатель суммарного возраста респондентов не имеет никакого смысла (рис. 6).

Нажав  кнопку Charts,  выберем Histograms и  поставим  флажок  на With normal curve (С нормальной кривой), что даст отображение на графике кривой нормального распределения для имеющихся стандартного отклонения (рис. 7) и среднего значения, и нажмем ОК.

Для расчета указанных показателей в диалоговом окне Frequencies

нажмем кнопку ОК.

Рис. 6. Диалоговое окно Frequencies:Statistics

с установками для анализа переменной «возраст»

Рис. 7. Диалоговое окно Frequencies:Charts

с установками для анализа переменной «возраст»

В диалоговом окне файла анализа данных мы увидим блок анализа Frequencies  с  таблицей  Statistics  (табл.  3)  и  гистограммой  «Возраст» (рис. 8).

Statistics для переменной «возраст»

Таблица 3

N

Valid

922

Missings

0

Mean

40,24

Std. Error of Mean

,319

Median

40,00

Mode

37

Std. Deviation

9,688

Variance

93,850

Skewness

-,034

Std. Error of Skewness

,081

Kurtosis

-,871

Std. Error of Kurtosis

,161

Range

40

Minimum

20

Maximum

60

Воîзраст

 

â çðàñò

 
120

100

80

60

40

Подпись: Frequency20        Std. Dev = 9,69

Mean = 40,2

60,057,555,052,550,047,545,042,540,037,535,032,530,027,525,022,520,00          N = 922,00

â çðàñò

 
î

Рис. 8. Гистограмма для переменной «возраст» с нормальной кривой

Как видно из таблицы, отношение модуля показателя асимметрии к ее стандартной ошибке намного меньше трех, что говорит о симметричности имеющегося распределения. Существенность эксцесса же, как видно из значений  самого  показателя  и  его  стандартной  ошибки,  существенно выше трех, что, наряду с отрицательным значением показателя эксцесса, может говорить о существенной «пологости» имеющегося распределения по сравнению с нормальным.

Программа предлагает и другие числовые и визуальные инструменты для  анализа  характера  распределения  –  тест  Колмогорова-Смирнова,

квантиль-квантильные и вероятностно-вероятностные графики (Q-Q plot

и P-P plot соответственно).

Тест Колмогорова-Смирнова основан на определении абсолютного значения максимальной разницы между значениями функции теоретического и эмпирического распределения:

Dn  

max

 x 

Fn ( x)  F ( x) ,

(1)

где Fn(x) – значения функции эмпирического распределения;

F(x) – значения функции теоретического распределения.

Затем эта разница умножается на значение квадратного корня из числа наблюдений:

  Dn            n

(2)

Закон распределения этой величины известен [9]:

K ( ) 

PD

n  

n

 

2   2

 
 (1)k e2 k   ,



(3)

k

где K(λ) – функция распределения Колмогорова

и  рассчитывается  для  полученного  значения  λ.  Далее  рассчитывается

величина

P0  

PD

n   1  K ( )

(4)

n

 
Иначе эта величина называется уровнем значимости1 и представляет собой  вероятность  ошибки  при  отвержении  т.н.  нулевой  гипотезы  H0,

1  В  учебно-методических  материалах  по  статистике  эта  величина  обычно обозначается p-level или просто p, а также α. В программе SPSS она обозначается как Sig. (англ. Significance – значимость).

которая постулирует незначимость различия и случайность данного значения показателя. Если значение P0 очень мало, то это значит, что осуществилось очень маловероятное событие, которое свидетельствует о наличии  какого-л.  системного  фактора.  Наоборот,  если  P0   велико,  то велика вероятность того, что значение показателя окажется больше полученного.  Следовательно,  данное  значение  показателя  можно объяснить действием случайных факторов.

Квантиль-квантильный       и          вероятностно-вероятностные          графики

демонстрируют соответствие между наблюдаемыми и ожидаемыми при соответствующей форме распределения значениями рассматриваемой величины (в первом случае) и их вероятностями (во втором). В первом случае сами значения связываются через вероятность, во втором – вероятности через значения.

Рассмотрим работу этих инструментов на нашем примере.

Рассчитать критерий Колмогорова-Смирнова можно при помощи команды главного меню Analyze/Nonparametric Tests/1-Sample K-S… (Анализ/Непараметрические тесты/Одновыборочный тест Колмогорова Смирнова) (рис. 9).

Рис. 9. Команда главного меню

Analyze/Nonparametric Tests/1-Sample K-S…

В открывшемся диалоговом окне One-Sample Kolmogorov-Smirnov

Test    (Одновыборочный    тест    Колмогорова-Смирнова)    переменную

«возраст» следует  перенести  в  поле  Test  Variable  List  (Список тестируемых переменных) для Test Distribution (Тестовое распределение) следует выбрать Normal (Нормальное) (рис.10) и для выполнения теста нажать на OK1.

В          появившейся  таблице          One-Sample     Kolmogorov-Smirnov   Test

(табл. 4) можно увидеть количество наблюдений по переменной, среднее

значение  и  стандартное  отклонение,  по  которым  рассчитывалось значение  функции  нормального  распределения,  максимальная абсолютная, положительная и отрицательная разница значений вероятности распределения, а также значение самого теста и его значимость. Комментарий под таблицей гласит, что тестовое распределение соответствует нормальному, и что параметры среднего значения и стандартного отклонения рассчитывались, исходя из имеющихся данных.

Рис. 10. Диалоговое окно One-Sample Kolmogorov-Smirnov Test

1   В  принципе  в  качестве  тестового  можно  выбрать  любой  тип  распределения,

поскольку  распределение  величины  Dn

распределения F(x).

n          не  зависит  от  типа  теоретического

One-Sample Kolmogorov-Smirnov Test

Таблица 4

Возраст

N

922

Normal Parameters

Mean

40,24

Std. Deviation

9,688

Most Extreme

Differences

Absolute

,050

Positive

,048

Negative

-,050

Kolmogorov-Smirnov Z

1,513

Asymp. Sig. (2-tailed)

,021

a  Test distribution is Normal.

b  Calculated from data.

Из таблицы 4 видно, что максимальная абсолютная разница между эмпирическим и тестовым распределением равно 0,050, что дает значение критерия Колмогорова 1,513 (что легко проверить, помножив значение абсолютной разницы на корень квадратный из числа наблюдений 922). P0 для данного значения критерия, что также явствует из таблицы, меньше

0,05.  В  принципе,  это  можно  сказать  по  самому  значению  критерия,

поскольку для Pкр=0,05 λкр≈1,36. В нашем случае значение критерия превосходит λкр, поэтому оно является значимым, что подтверждает наши выводы о том, что распределение переменной «возраст» значимо отличается от нормального1.

Вероятностные и частотные графики P-P plot и Q-Q plot можно получить, воспользовавшись командами главного меню Graphs/P-P… (Графики/Графики вероятность-вероятность) Graphs/Q-Q… (Графики/Графики частота-частота) соответственно. Рассмотрим процесс построения первых графиков (построение вторых аналогично и производится при помощи соответствующей команды).

При выполнении команды Graphs/P-P… (рис.11) открывается диалоговое окно построения вероятностных графиков P-P plot (рис.12). В левом поле размещаются числовые переменные, доступные для построения графика (качественные переменные отображаться не будут).

1 В дальнейшем при расчете параметрических критериев в учебных целях мы будем игнорировать это обстоятельство.

Переместим   при   помощи   стрелки   в   поле   Variables   переменную

«возраст». В поле Test Disribution (Тестовое распределение) выберем Normal (Нормальное), которое стоит по умолчанию. В поле Proportion Estimation   Formula   (Формула   расчета   пропорций)   также   оставим Biom’s (формула Биома, будут использоваться корректировочные значения  рангов  и  частот  Биома).  В  поле  Rank  Assigned  to  Ties (Значение, присваиваемое связкам (одинаковым значениям)) оставим стоящее по умолчанию Mean (Среднее). В поле Transform (Преобразовать) можно ничего не выбирать или снять флажок с предлагаемой функции преобразования вероятностных значений. Для Distribution Parameters (Параметры распределения) следует оставить опцию Estimated from Data (в противном случае необходимо самостоятельно  указать  значение  центра  и  масштаба  распределения). Для получения графика следует нажать кнопку ОК.

Рис. 11. Команда главного меню Graphs/P-P…

Рис. 12. Диалоговое окно P-P Plots

 

No ma P P P o  o  â çðàñò

 
В файле анализа данных в новом блоке анализа PPplot появятся графики  Normal  P-P  plot  (рис. 13)  и  Detrended  Normal  P-P  plot  для переменной «возраст» (рис. 14).

1,0

,8

Подпись: Expected Cum Prob,5

,3

Nrorml al-P-Pl

Pt loft oîf age

0,0

0,0       ,3

,5         ,8

1,0

Observed Cum Prob

Рис. 13. График Normal P-P plot для переменной «возраст»

De  ended Norma  P P P o   o  âîçð

 
,04

,03

,02

,01

Подпись: Deviation from Normal0,00

-,01

-,02

-,03

Dettrended Normal Pl-P Plot olf atgef

-,04

-,2

0,0       ,2

,4         ,6

,8         1,0

1,2

Observed Cum Prob

Рис. 14. График Detrended Normal P-P plot для переменной «возраст»

На последнем из графиков можно увидеть значительное расхождение между тестовым и имеющимся распределением.

Читателю рекомендуется самостоятельно построить графики соответствия частот для рассматриваемой переменной.

Провести тест Колмогорова-Смирнова и построить графики соответствия частот можно, воспользовавшись командой главного меню Analyze/Descriptive Statistics/Explore (Анализ/Описательные статистики/Исследовать) (рис. 15).

Рис. 15. Команда главного меню Analyze/Descriptive Statistics/Explore

В появившемся диалоговом окне Explore (рис.16) следует перенести переменную «возраст» в поле Dependent List (Список зависимых переменных),  в  блоке  Display  (Показать)  выбрать  Plots  (Графики)  и нажать на кнопку с таким же названием.

Рис. 16. Диалоговое окно Explore

В окне Explore: Plots в блоке Boxplots (Коробчатые графики) следует выбрать None (Никакие), в блоке Descriptives снять флажки сo Stem-andLeaf  (график  «Стебель  и  Лист»)  и  Histogram  и  поставить  флажок напротив Normality plots with tests (Графики нормального распределения с тестами) (рис. 17).

Рис. 17. Диалоговое окно Explore: Plots

После этого следует нажать на Continue и далее, в окне Explore на OK. Появившаяся  в          блоке   анализа            данных           Explore            таблица          Test      of

Normality  (Тест  на  нормальность)  содержит  результаты  теста Колмогорова-Смирнова (Kolmogorov-Smirnov) и теста Шапиро-Уилка (Shapiro-Wilk) (табл. 5). Результаты теста Колмогорова-Смирнова отличаются от рассмотренных выше, ибо сам тест содержит поправку значимости Лиллифора (Lillefors), о чем свидетельствует комментарий внизу таблицы. Результаты теста Шапиро-Уилка интерпретируются аналогично таковым теста Колмогорова-Смирнова, а сам тест проводится

для небольших выборок (n<50), поскольку тест Колмогорова-Смирнова

для получения корректных результатов требуют достаточно больших объемов выборки (n>100). В любом случае оба теста дают значимые результаты, что подтверждает сделанные ранее выводы о значимом расхождении распределения переменной «возраст» от нормального.

Test of Normality

Таблица 5

Kolmogorov-Smirnov

Shapiro-Wilk

Возраст

Statistic

df

Sig.

Statistic

df

Sig.

,050

922

,000

,981

922

,000

a  Lilliefors Significance Correction

Графики          соответствия  частот Q-Q     plot      и          Detrended        Q-Q     plot

соответствуют рассмотренным выше.

Контрольные вопросы:

1.         Какие  группы            описательных            статистик       для      количественных

переменных вы знаете?

2.         Какие бывают виды средних величин?

3.         Чем средняя величина отличается от модальной?

4.         Что      такое   медиана          и          как       рассчитать      ее         значение         для интервального ряда распределения?

5.         Что такое дисперсия и среднеквадратическое отклонение?

6.         Что показывает коэффициент вариации?

7.         Какие бывают виды моментов распределения и на что указывает его порядок?

8.         Что такое асимметрия и эксцесс?

9.         Распределение каких величин подчиняется нормальному закону?

10.       Каковы свойства нормального распределения?

11.       Как      можно оценить          соответствие  имеющегося  распределения

теоретическому?

12.       Что такое распределение Колмогорова и что оно показывает?

13.       В  каких  случаях  применяют  тест  Колмогорова-Смирнова,  а  в каких – тест Шапиро-Уилка?

14.       Как      строятся          графики          соответствия  частот и          графики соответствия вероятностей и что они показывают?

Практическое             задание:          Получить        и          проинтерпретировать описательные статистики по переменной «доход».