Материал: Математико-статистические методы обработки информации с применением программы SPSS - Практикум

Предмет: Практикумы

Просмотров: 1007


2.1.3. регрессионный анализ

Регрессионный анализ состоит в приближении наблюденного ряда распределения результирующего показателя к некоему ряду, приблизительно описывающему соответствие между признакомрезультатом  и  признаками-факторами  притом,  что,  благодаря приближению по возможности исключается действие случайных (не включенных в анализ) факторов. Последовательность прохождения регрессионного анализа следующая:

1.  Построение     эмпирической     регрессии.     Данный     этап предполагает построение эмпирической линии регрессии на основе группировки (аналитической или комбинационной) наблюденной совокупности  по  признаку-фактору  с  расчетом  средневзвешенных значений по каждой группе:

1.1. Определение,  исходя  из  объема  статистически  устойчивой совокупности, количественного значения понятия статистически устойчивой группы (сколько значений должно быть в каждой группе, чтобы среднее значение было достоверным)

1.2. Группировка  по  признаку-фактору  единиц  статистической совокупности,  с  количеством  наблюдений  в  каждой  группе, определенном в п.1

1.3. Расчет      средних          значений        признака-фактора      и          признакарезультата

1.4. Графическое   отображение   соответствия   среднегрупповых значений признаков (построение эмпирической линии регрессии)

Эмпирическая регрессия не предполагает выведение аналитического выражения, описывающего соответствие значений признаков, в силу чего решение прогнозных задач затруднено. Здесь возможны две ситуации:

1)         Значение        признака-фактора      будет   находиться     в          пределах

наблюденного диапазона или на «разумном» расстоянии от него, то он будет относиться к той или иной группе значений, которой будет соответствовать среднее значение признака-результата. Но такие средние

значения зачастую очень грубо аппроксимируют действительные значения признака-результата, поскольку для получения статистически устойчивых групп требуется достаточно большое число наблюдений, принадлежащих широкому диапазону значений, поэтому групповые средние достаточно далеко  отстоят  друг  от  друга.  Поэтому  для  получения  прогнозного значения признака-результата потребуется применение методов экстраполяции или интерполяции, например, построение скользящей средней, где средние значения принадлежат перекрывающимся группам с последовательным сдвигом на одно значение вперед или экспоненциально сглаженной, где значения усредняются для всей совокупности с прибавлением каждого следующего наблюдения, вследствие чего имеем индивидуализацию среднего значения признака-результата для каждого индивидуального значения признака-фактора.

2) Значение признака-фактора является «выбросом» или требуется спрогнозировать значение признака-результата на достаточно далеко отстоящий момент времени. Эту задачу с применением только эмпирической регрессии не решить.

В силу указанных причин построение эмпирической регрессии позволяет выявить наличие и направленность зависимости и приблизительно определить ее вид. Далее следует расчет параметров зависимости методами аналитической регрессии.

2.         Построение аналитической регрессии

Построение аналитической регрессии предполагает выведении функциональной зависимости между признаками-факторами и признакомрезультатом:

y  f ( xi1 , xi 2 ,..., xij , ..., xim )   ,

(12)

где y – признак-результат;

x – признак-фактор;

m – число переменных;

ε – случайный член.

Первым этапом построения аналитической регрессии является выбор вида зависимости (спецификации модели).

На втором этапе определяют параметры зависимости для выбранной спецификации модели.

Надо сказать, что выбор вида функциональной зависимости является столь же важным, сколь и наименее теоретически обоснованным. Выбор вида   аналитической   зависимости   осуществляется   с   использованием одного из следующих методов:

—        графический – на основе визуального анализа корреляционного поля (графика рассеяния данных);

—        аналитический – на основе анализа накопленной информации по изучаемому явлению;

—        экспериментальный  –  методом  перебора  различных  моделей  и сравнения таких их качественных показателей как остаточная дисперсия

 2   и средняя ошибка аппроксимации A .

В  зависимости  от  вида  спецификации  модели  различают  линейную

регрессию и нелинейные регрессионные модели. Линейная регрессионная модель  представлена  полиномом  первой  степени  (будет  рассмотрена ниже). Что касается нелинейности, то она может проявляться как в отношении объясняющих переменных, так и в отношении оцениваемых параметров.

Параметры зависимости чаще всего оценивают на основании выборочных данных с применением метода наименьших квадратов, который  состоит  в  минимизации  функции  суммы  квадратов  разницы между функциональными и эмпирическими значениями зависимой переменной (т.н. остатков):

n

i

 
F   e2

1

n

  ( yi

i 1

2

 
 yˆi )

 min,

(13)

i

где  F  –  минимизируемая  функция  суммы  квадратов  разницы  между теоретическими и наблюденными значениями признака-результата;

yi – наблюденное (реальное) значение для i-го наблюдения;

i

 
yˆ  – рассчитываемое (теоретическое) значение зависимой переменной

на  основании  выбранной  формы  аналитической  зависимости  для  i-го наблюдения;

2

 

i

 
e          –          разница          между  наблюдаемым           и          теоретическим           (расчетным)

значением признака результата для i-го наблюдения.

n – количество наблюденных значений в выборке.

В зависимости от того, сколько признаков-факторов включают в анализ, различают парную и множественную регрессию (в первом случае рассматривается один признак-фактор, во втором их может быть несколько),  а  от  вида  функциональной  зависимости,  к  которой приближают наблюденный ряд – линейную и нелинейные регрессии.

Мы ограничимся линейной моделью, в рамках которой рассмотрим парную и множественную регрессии.

Контрольные вопросы:

1. Для чего применяют регрессионный анализ?

2. Что такое эмпирическая регрессия и аналитическая регрессия?

3. Из каких этапов состоит аналитическая регрессия?

4. Какие методы можно применить при выборе вида аналитической зависимости?

5. Какие виды регрессионных моделей вы знаете?

2.1.3.1. Парная линейная регрессия

В случае парной линейной регрессии зависимость между признакомрезультатом и признаком-фактором (оба из которых представлены в метрической шкале) в генеральной совокупности представляют в виде линейной функции:

0

 
y  

  x   ,

(14)

1

 
где y – признак-результат;

x – признак-фактор;

α0 и α1 – параметры уравнения регрессии, где α0 – свободный член регрессии, отражающий пересечение регрессионной прямой с осью ординат, а α1 – угловой коэффициент или тангенс угла наклона прямой к оси абсцисс;

ε – ошибка регрессии (случайный член), связанный с неучтенными факторами,   возможной   нелинейностью   зависимости   или   ошибками

измерения.

На основе выборочных данных оцениваются параметры выборочного уравнения регрессии:

yˆi

 a0

 a1 xi ,

(15)

где

yˆ  – теоретическое значение признака-результата для i-го наблюдения;

i

 
xi – значение признака-фактора для i-го наблюдения;

a

 

a

 

и

 
a0        и          a1        –          оценки            параметров    уравнения      регрессии       0          1

соответственно.

Рассчитав параметры уравнения регрессии, следует оценить его качество, то есть степень, в которой реальные (наблюденные) значения признака-результата соответствуют теоретическим, рассчитанным по аналитическому выражению. Таким образом, можно оценить прогнозную силу  получившейся  модели,  т.е.  насколько  по  поведению  признакафактора на основе нашей  модели  можно  оценить поведение признака-

результата. Такая оценка основана на разложении общей вариации зависимой переменной на две составляющие – вариацию, обусловленную поведением (изменением) признака-фактора и случайную вариацию. Эти вариации   оцениваются   при   помощи   таких   показателей   как   общая

дисперсия

         ,           факторная       дисперсия

         и          остаточная     дисперсия  

Y

 

F

 
соответственно. В реальной ситуации эти параметры неизвестны, но их можно оценить на основе аналогичных выборочных показателей.

Несмещенные            оценки  генеральных            параметров    получаются  путем

деления  соответствующей  суммы  квадратов  отклонений  на  число степеней свободы данного выражения

Оценка вариации зависимой переменной производится при помощи таких показателей, как средняя ошибка аппроксимации, или модуль среднего    линейного    отклонения    и    коэффициент    детерминации,

показывающий долю дисперсии, объясняемую действием признакафактора.  В  случае  парной  линейной  регрессии  коэффициент детерминации  представляет  собой  квадрат  коэффициента  корреляции.

При этом следует учитывать, что расчет коэффициента детерминации корректен, если в уравнение регрессии включена константа.

Поскольку коэффициент детерминации рассчитывается на основании только выборочных данных, то необходимо оценить его значимость для всей совокупности, т.е. рассчитать уровень его значимости на основании

данных об объеме выборки. Значимость коэффициента детерминации оценивается при помощи F-критерия Фишера.

Для      совокупностей           с          объемом         n<30    помимо           анализа           вариации

зависимой переменной проводят анализ вариации параметров регрессии, т.е. оценивают, насколько их выборочные оценки отклоняются от действительных значений и насколько такие оценки значимы. Действительно, оценки параметров регрессии, так же как и величину признака-результата в модели, можно представить в виде суммы двух составляющих – случайной и неслучайной. Неслучайная будет соответствовать истинному значению параметра, случайная – отклонению от этого истинного значения. На основе оценок стандартных отклонений параметров регрессии и их индивидуальных значений можно проверять гипотезы равенства коэффициентов регрессии заданным величинам. Для проверки равенства коэффициента регрессии заданной величине γ определяется значение t-критерия, рассчитываемого как отношение разницы имеющейся оценки коэффициента и заданной величины к оценке стандартного отклонения коэффициента.

Если полученная величина t-критерия больше tкр для заданного уровня значимости Pкр, или, в случае расчета P0, P0<Pкр, то разность является значимой и гипотеза равенства данного параметра регрессии заданной величине γ отвергается.

Существуют определенные условия применения МНК при построении линейной модели, выполнение которых необходимо для того, чтобы выведенная регрессионная модель наилучшим образом (т.е. максимально приближенно к действительности) описывала поведение признакарезультата:

1. Математическое ожидание случайного члена в любом наблюдении должно быть равно нулю:

i

 
M ( )  0

(16)

2. Дисперсия  случайного  члена  должна  быть  постоянной  для  всех наблюдений:

i

 
D( ) 

M ( 2 )   2

(17)

i

 
3. Случайные члены должны          быть    статистически            независимы

(некоррелированы) между собой:

i      j

 
M (            )  0

i ≠ j      (18)

4. Объясняющие переменные xj есть величины неслучайные. Перечисленные условия носят название условий Гаусса-Маркова, при

выполнении  которых  модель  называется  классической  нормальной линейной регрессионной моделью.

Первое условие означает, что случайный член не должен иметь систематического смещения. Данное условие выполняется автоматически при включении в уравнение постоянного члена.

Второе            условие           означает         независимость           разброса         значений

случайного члена от номера наблюдения и называется гомоскедастичностью. Если имеется такая зависимость, то говорят о гетероскедастичности.

Проверку условия гомоскедастичности можно оценить при помощи

определенных  тестов,  например,  коэффициента  ранговой  корреляции

Спирмена, теста Гольдфельда-Квандта и теста Глейзера.

Третье условие означает, что величины остатков должны быть независимы друг от друга. При несоблюдении данного условия говорят об автокорреляции остатков.

Автокорреляция – это взаимосвязь последовательных элементов временного или пространственного ряда данных. Т.е. получается, что значение  каждого  последующего  наблюдения  в  какой-то  мере определяется   значением   предыдущего   при   том,   что   сама   величина разброса (измеряемая дисперсией) не меняется.

В эконометрических исследованиях часто возникают такие ситуации, когда дисперсия остатков постоянная, но наблюдается их ковариация. Автокорреляция остатков чаще всего наблюдается тогда, когда эконометрическая модель строится на основе временных рядов. Если существует  корреляция  между  последовательными  значениями некоторой независимой переменной, то будет наблюдаться и корреляция последовательных значений остатков. Автокорреляция может быть также следствием ошибочной спецификации эконометрической модели. Кроме того, наличие автокорреляции остатков может означать, что необходимо ввести   в   модель   новую   независимую   переменную,   которая   была упущена.

Автокорреляцию можно оценить при помощи коэффициента автокорреляции Андерсона. Другой используемый в этих целях критерий – статистика Дурбина-Ватсона, имеющаяся в SPSS. Значение последней меняется от 0 до 4. При отсутствии автокорреляции тест дает значение, близкое к 2, при положительной автокорреляции – близкое к 0, при отрицательной – близкое к 4.

Нарушение четвертого условия о неслучайности объясняющей переменной приводит к тому, что оценки, рассчитанные на основе МНК, оказываются смещенными и неэффективными. Т.о. соблюдение этого условия является крайне важным.

Проведем       регрессионный          анализ данных           файла

sex_age_education_revenue.sav, рассматривая в качестве фактора переменную «возраст», а в качестве результата – переменную «доход». Для этого необходимо выполнить команду главного меню Analyze/Regression/Linear    (Анализ/Регрессия/Линейная)    (рис. 25).    В открывшемся диалоговом окне Linear Regression (Линейная регрессия) в поле Dependent (зависимая переменная) следует поместить переменную

«доход», а в поле Independent(s) (Независимая/ые переменная/ые) – переменную «возраст». В поле Method (Метод включения переменных в уравнение регрессии) можно оставить Enter (одновременное включение всех переменных в уравнение). В данном случае выбор метода непринципиален, поскольку рассматривается лишь один фактор.

Рис. 25. Команда главного меню Analyze/Regression/Linear

В диалоговом окне Linear Regression: Statistics (Линейная регрессия: статистики) для Regression Coefficients (Коэффициенты регрессии) выберем Estimates (Оценки коэффициентов регрессии) и Confidence intervals (Доверительные интервалы), для Residulas (Остатки) – DurbinWatson (Тест Дурбина-Ватсона), также активируем опции Model Fit (Приближение модели), что позволит рассчитать коэффициент множественной корреляции, коэффициент детерминации, исправленный коэффициент детерминации и стандартную ошибку и Descriptives (Описательные статистики) (рис. 26).

В диалоговом окне Linear Regression: Options (Линейная регрессия:

опции) (рис. 27) оставим активированной по умолчанию Include constant in equation (Включить константу в уравнение).

Рис. 26. Диалоговое окно Linear Regression

Рис. 27. Диалоговое окно Linear Regression: Statistics

По возвращении в диалоговое окно Linear Regression нажмем на кнопку OK для получения результатов анализа.

Таблица 11 – Descriptive Statistics содержит информацию о средних значениях, стандартных отклонениях и числе наблюдений по каждой переменной.

Таблица 12 – Correlations содержит значения парных коэффициентов корреляции, их значимость и число наблюдений. Парный коэффициент корреляции между переменными дает значимый результат (Sig.<<0,001), однако  само  значение  коэффициента  (–0,154)  говорит  о  слабой  связи между переменными.

Descriptive Statistics

Таблица 11

Mean

Std. Deviation

N

Доход

31890,45

11881,929

922

Возраст

40,24

9,688

922

Correlations

Таблица 12

Доход

Возраст

Pearson Correlation

доход

1,000

-,154

возраст

-,154

1,000

Sig. (1-tailed)

доход

,

,000

возраст

,000

,

N

доход

922

922

возраст

922

922

Значение  коэффициентов  корреляции  и  детерминации  в  таблице Model Summary (Суммарная информация по модели) также говорит о незначительной  доле  факторной  вариации  (табл. 13).  Значение  теста Дурбина-Ватсона, близкое к двум (2,003) свидетельствует о практическом отсутствии автокорреляции остатков.

Model Summary

Таблица 13

Model

R

R Square

Adjusted R Square

Std. Error

of the Estimate

Durbin-

Watson

1

,154

,024

,023

11746,053

2,003

a  Predictors: (Constant), возраст

b  Dependent Variable: доход

Значимость  F-критерия  в  таблице  14  –  ANOVA  (дисперсионный анализ) говорит о качестве модели в целом.

ANOVA

Таблица 14

Model

Sum of Squares

df

Mean Square

F

Sig.

1

Regression

3094826019,527

1

3094826019,527

22,431

,000

Residual

126932171926,369

920

137969752,094

Total

130026997945,896

921

a  Predictors: (Constant), возраст

b  Dependent Variable: доход

Наконец, таблица 15 – Coefficients (Коэффициенты) свидетельствует о значимости параметров регрессии. Стандартизованный коэффициент β в данном случае представляет собой парный линейный коэффициент корреляции Пирсона.

Coefficients

Таблица 15

Model

Unstandardized

Coefficients

Standardized

Coefficients

t

Sig.

95\% Confidence

Interval for B

B

Std. Error

Beta

Lower

Bound

Upper

Bound

1

(Constant)

39504,667

1653,564

23,891

,000

36259,472

42749,861

возраст

-189,222

39,953

-,154

-4,736

,000

-267,630

-110,813

a  Dependent Variable: доход

В целом, на основании результатов анализа можно сделать вывод о том, что, во-первых, линейная модель достаточно хорошо подходит для описания взаимосвязи между переменными, а, во-вторых, о влияние переменной «возраст» на переменную «доход» незначительно.

Контрольные вопросы:

1.         Как выглядит уравнение регрессии для парной линейной модели?

2.         Что показывает угловой коэффициент в модели парной линейной регрессии?

3.         Что дает включение свободного члена в регрессионное уравнение?

4.         Чем     объясняется    наличие          случайного     члена  в          уравнении регрессии? Чем случайный член отличается от остатка?

5.         Какой метод применяется для оценки параметров регрессии?

6.         Перечислите свойства коэффициентов регрессии?

7.         При     помощи          какого критерия         оценивается   значимость

коэффициентов регрессии? Как он строится?

8.         На        какие   составляющие            раскладывается          вариация        зависимой переменной?

9.         Что такое качество регрессионной модели и как его оценить?

10.  Что такое доверительный интервал?

11.  Какие допущения предполагает регрессионный анализ?

12.  Что           такое   гетероскедастичность           и          какие   последствия   в

регрессионной модели она может иметь?

13.  Что такое автокорреляция остатков и как ее оценить?

Практическое задание: Провести по указанной схеме регрессионный анализ для данных файла adv_sales_funds.xls, рассматривая в качестве признака-результата переменную «объем продаж», а в качестве признакафактора – переменную «расходы на рекламу».

2.1.3.2.  Множественная линейная регрессия

В случае множественной линейной регрессии признак-результат представляется линейной функцией некоторого множества переменных:

y  0

  x   x

 ...   j x j

 ...   m xm

  ,

(19)

1   1              2     2

 
где xj – j-я факторная переменная;

αj – коэффициент переменной Xj;

m – число переменных.

На основе выборочных данных составляется выборочное уравнение регрессии:

yˆi

 a0

 a1 xi1

 a2 xi 2

 ... 

a j xij

 ... 

am xim ,

(20)

где xij – значение i-го наблюдения j-й переменной;

aj – коэффициент при j-й переменной;

m – число переменных.

Анализ вариации зависимой переменной в модели множественной регрессии проводится как в целом по модели, так и для каждой независимой переменной.

Коэффициент множественной корреляции позволит оценить степень совместного  влияния  факторов  на  результирующую  переменную. Значение коэффициента множественной корреляции должно быть больше или равно максимальному парному коэффициенту корреляции.

Частные  коэффициенты  корреляции  позволяют  оценить  тесноту связи отдельных факторов и результирующей переменной.

Коэффициент множественной детерминации, оценивающей качество построенной многофакторной модели, рассчитывается как квадрат коэффициента множественной корреляции.

Скорректированный коэффициент детерминации содержит поправку на число степеней свободы.

F-критерий Фишера оценивает значимость модели в целом. представляет собой отношение факторной дисперсии к случайной с поправкой на число степеней свободы.

Частные F-критерии Фишера оценивают значимость присутствия в модели каждой переменной.

Значимость коэффициентов регрессии оценивается при помощи tкритерия Стьюдента.

Помимо гетероскедастичности и автокоррелированности данных в случае множественной регрессии может возникнуть уже упоминавшаяся

проблема линейной зависимости факторных переменных, называемая мультиколлинеарностью факторов. Оценить степень зависимости факторов можно на основе коэффициентов парной корреляции, например,

по  шкале  Чеддока.  Оценить  степень  зависимости  факторов  в  целом можно, рассчитав определитель матрицы межфакторной корреляции. При этом  определитель  будет  принимать  значения  от  0  до  1.  Значение

определителя, близкое к нулю, будет говорить о сильной взаимной коррелированности факторных переменных.

На практике используют следующие способы избавления от мультиколлинеарности факторов [15]:

1. Исключение           из        уравнения      тех       переменных,  которые          сильно

коррелируют между собой. Сильно коррелирующие переменные целесообразно объединять между собой.

2. Использование      для      объединения  какой-л.          функции,        например,

линейной комбинации переменных.

3. Переход к совмещенным уравнениям регрессии. Такие уравнения

отражают не только влияние факторов на результирующую переменную, но и их взаимодействие между собой. Также при отборе факторов при построении модели множественной регрессии рекомендуется соблюдать определенное соотношение числа факторных переменных и единиц наблюдения. Так, если n – число единиц наблюдения (совокупности), а m – число переменных, то

рекомендуется, чтобы

n / m  6,7 .

Включение факторов в регрессионную модель может осуществляться на основе процедур, использующих различные методы. Можно включить в уравнение сразу несколько переменных единым блоком и определить значимость   уравнения   на   основе   критерия   Фишера.   Если   значение критерия неудовлетворительно, то можно также поблочно их исключать.

Можно также использовать один из пошаговых методов. Программа SPSS предлагает на выбор один из следующих методов построения регрессионной модели:

Метод включения (Enter)

Процедура выбора переменных, при которой все переменные единым блоком включаются в уравнение регрессии.

Метод исключения (Remove)

Процедура выбора переменных, при которой все переменные единым

блоком исключаются из уравнения регрессии.

Пошаговый метод (Stepwise)

На каждом шаге независимая переменная, не включенная в уравнение,

с наименьшим показателем Signum для F-критерия, включается в уравнение. Переменные, уже включенные в уравнение регрессии, исключаются из него, если их Signum для F-критерия становиться больше принятого порогового значения для включения/исключения. Так продолжается до тех пор, пока не останется переменных для включения/исключения по выбранному значению Signum для F-критерия.

Метод включения (Forward)

Пошаговая процедура выбора переменных, при которой переменные последовательно  включаются  в  уравнение.  Критерием  для  включения

служит коэффициент частичной корреляции с зависимой переменной. Сначала включается переменная с наибольшим модульным значением коэффициента, если оно удовлетворяет принятому пороговому значению.

Затем  в  уравнение  включается  следующая  переменная,  имеющая наибольшее значение коэффициента частичной корреляции из оставшихся переменных  в  том  случае,  есл


Загрузка...