Мультиколлинеарность

Одним из условий классической линейной регрессионной модели является предположение о линейной независимости объясняющих переменных, что означает линейную независимость столбцов матрицы или (эквивалентно), что матрица не вырождена. При нарушении этого условия, т.е. когда один из столбцов матрицы есть линейная комбинация остальных столбцов, говорят, что имеет место полная коллинеарность. В этой ситуации нельзя построить МНК-оценку вектора параметров , поскольку .

На практике полная коллинеарность встречается исключительно редко. Гораздо чаще приходится сталкиваться с ситуацией, когда матрица имеет полный ранг, но между регрессорами имеется высокая степень корреляции, что приводит к тому, что матрица близка к вырожденной. Тогда говорят о наличии мультиколлинеарности. В этом случае МНК-оценка существует, но обладает «плохими» свойствами.

Мультиколлинеарность может возникнуть в силу разных причин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания.

Признаки мультиколлинеарности:

1) Небольшое изменение исходных данных (например, добавление новых наблюдений) приводит к существенному изменению оценок коэффициентов регрессии.

2) Оценки имеют большие стандартные ошибки (и, следовательно, большие доверительные интервалы), малую значимость (т.е. малые t -статистики ) в то время как модель в целом является значимой (т.е. высокое значение коэффициента детерминации и соответствующей F -статистики )

3) Оценки коэффициентов имеют неоправданные с точки зрения теории знаки или неоправданно большие значения.

4) Парная корреляция между малозначимыми объясняющими переменными достаточно высока.

5) Высокие частные коэффициенты корреляции.

Напомним, что выборочный коэффициент (парной) корреляции между переменными и находится по формуле:

(1)

Выборочный частный коэффициент корреляции находится следующим образом.

Пусть даны переменные , .

Обозначим .

Пусть , .

Построим регрессии и на :

(2)

(3)

Найдем остатки для этих регрессий:

Частный коэффициент корреляции между и без учета влияния переменных – это коэффициент парной корреляции между остатками и :

Таким образом, коэффициент частной корреляции позволяет исключить влияние других факторов на взаимосвязь между рассматриваемыми переменными.

Например, равен коэффициенту парной корреляции между остатками и следующих регрессий:

(6)

(7)

Последствия мультиколлинеарности

1) Большие стандартные ошибки затрудняют нахождение истинных значений определяемых величин и расширяют их интервальные оценки, ухудшая их точность.



2) Ухудшается качество прогноза.

3) Малые t -статистики коэффициентов могут привести к неоправданному выводу о их малой значимости, т.е. о слабом влиянии соответствующей объясняющей переменной на зависимую переменную.

4) Оценки коэффициентов и их стандартные ошибки становятся очень чувствительными к малейшим изменениям данных, т.е. они становятся неустойчивыми.

Методы устранения мультиколлинеарности

1) Исключение переменных из модели. Исключается из модели одна или несколько коррелированных объясняющих переменных. Например, можно последовательно исключать из модели объясняющие переменные с наименьшими незначащими t -статистиками коэффициентов регрессии (причем после каждого исключения из модели объясняющей переменной следует производить пересчет t -статистик для оставшихся объясняющих переменных).

2) Можно использовать описанный в предыдущей теме алгоритм оптимального отбора объясняющих переменных, основанный на использовании скорректированного коэффициента детерминации .

3) Получение дополнительных данных или новой выборки

4) Изменение спецификации модели

5) Преобразование переменных.

Например, вместо переменной можно включить в модель переменную .

Гетероскедастичность и автокорреляция остатков

Гетероскедастичность означает, что дисперсии случайных отклонений зависят от , т.е. нарушается гипотеза классической модели о постоянстве этих дисперсий.

Автокорреляция остатков означает, что ковариации не равны нулю при разных значениях и .

Суть и причины гетероскедастичности

Гетероскедастичность означает, что зависит от номера наблюдения . Обычно эта зависимость возникает вследствие зависимости от . Например, если – уровень дохода семьи, а – ее потребление, естественно ожидать что для семей с высоким доходом разброс в их потреблении больше, чем для семей с низким доходом.

Проблема гетероскедастичности характерна для перекрестных данных и довольно редко встречается при рассмотрении временных рядов.

Последствия гетероскедастичности

1) Оценки коэффициентов регрессии, оставаясь линейными и несмещенными, перестают быть эффективными, что (в частности) ухудшает прогноз.

2) Дисперсии и ковариации оценок являются смещенными. Это приводит к искажению значений статистик Стъюдента и Фишера, что негативным образом сказывается на результаты проверки гипотез и построении интервальных оценок.

Обнаружение гетероскедастичности

Графический анализ остатков.

По оси абсцисс откладываются либо номера наблюдений , либо значения объясняющей переменной , либо линейная комбинация объясняющих переменных, либо прогнозные значения объясняемой переменной. По оси ординат – либо отклонения , либо их квадраты . При наличии гетероскедастичности можно визуально заметить зависимость значений от .

Тест Уайта (White)

Сначала к исходной модели применяется обычный метод наименьших квадратов и находятся остатки регрессии , . Затем осуществляется регрессия квадратов этих остатков на все регрессоры исходной модели, их квадраты , попарные произведения и константу (если ее не было в составе исходных регрессоров). Для этой регрессии находится коэффициент детерминации . Тогда при выполнении нулевой гипотезы о постоянстве дисперсий случайных отклонений величина:

асимптотически (т.е. при большом количестве наблюдений ) имеет распределение , где – число регрессоров второй регрессии.

Напомним, что распределение «хи квадрат» с степенями свободы – это распределение следующей случайной величины:

где – независимые стандартные нормальные случайные величины.

Следовательно, при выполнении нулевой гипотезы имеет место равенство:

где – -квантиль распределения «хи квадрат» с степенями свободы.

В случае, если нулевая гипотеза отвергается (и, следовательно, можно сделать вывод о наличии гетероскедастичности); если , нет оснований отвергать нулевую гипотезу (и, она принимается).

Тест ранговой корреляции Спирмана

Этот тест применяется, когда есть предположение о прямой зависимости дисперсии ошибки от величины некоторой независимой переменной. Значения такой независимой переменной и абсолютные величины отклонений ранжируются (упорядочиваются по величинам). Затем определяется коэффициент ранговой корреляции:

, (11)

где – разность между рангами и . (Например, если при значение является 25-м по величине среди всех наблюдений , а является 32-м, то .)

Доказано, что если коэффициент корреляции равен нулю, то статистика:

(12)

имеет распределение Стъюдента с числом степеней свободы . Следовательно, если

(13)

(где двусторонняя квантиль распределения Стъюдента с степенями свободы при уровне значимости ), то нулевая гипотеза о равенстве нулю коэффициента корреляции отклоняется, и, следовательно, можно сделать вывод о присутствии гетероскедастичности.

Тест Голфельда-Куандта (Goldfeld-Quandt)

Этот тест также применяется, когда есть предположение о прямой зависимости дисперсии ошибки от величины некоторой независимой переменной.

1) упорядочить данные по убыванию той независимой переменной, относительно которой есть подозрение на гетероскедастичность;

2) исключить средних (в этом упорядочении) наблюдений ( должно быть примерно равно четверти общего количества наблюдений);

3) провести две независимые регрессии первых наблюдений и последних наблюдений и построить соответствующие остатки и ;

4) составить статистику .

Если верна нулевая гипотеза (8) о постоянстве дисперсий случайных отклонений, то построенная статистика имеет распределение Фишера с степенями свободы.

В случае, если нулевая гипотеза отвергается и, следовательно, можно сделать вывод о присутствии гетероскедастичности; если , нет оснований отвергать нулевую гипотезу.

Суть и причины автокорреляции

Автокорреляция остатков (отклонений) в подавляющем большинстве случаев встречается в регрессионном анализе при использовании данных временных рядов. В экономических задачах значительно чаще встречается положительная автокорреляция (т.е. когда ), нежели отрицательная.

Регрессионная модель МНК позволяет получить несмещенную оценку с минимальной дисперсией только тогда, когда остатки независимы друг от друга. Нарушение условия независимости остатков () называется автокорреляцией. Если имеет место автокорреляция остатков, то коэффициенты регрессии не смещены, но стандартные ошибки недооценены, а проверка статистической значимости коэффициентов ненадежна. Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих наблюдений. Автокорреляция остатков обычно встречается в регрессионном анализе при использовании данных временных рядов. В силу этого в дальнейших выкладках вместо символа i порядкового номера наблюдения будем использовать символ t, отражающий момент наблюдения. Объем выборки при этом будем обозначать T.

Причины автокорреляции:

Ошибки спецификации – неучет в модели важной объясняющей переменной или неправильный выбор формы зависимости;

Эффект паутины – многие экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом).

Методы обнаружения автокорреляции

В силу неизвестности значений параметров уравнения регрессии неизвестными будут также и истинные значения отклонений ,t= 1, 2, ..., Т. Поэтому выводы об их независимости осуществляются на основе оценок ε t ,t= 1, 2, ..., Т, полученных из эмпирического уравнения регрессии. Рассмотрим возможные методы определения автокорреляции.

Метод рядов.

Последовательно определяются знаки отклонений ,t= 1, 2, ..., Т.

Например, (- - - - -)(+++++++)(- - -)(++++)(-),

т.е. 5 «-», 7 «+», 3 «-», 4 «+», 1 «-».

Ряд определяется как непрерывная последовательность одинаковых знаков. Количество знаков в ряду называетсядлиной ряда .

Визуальное распределение знаков свидетельствует о неслучайном характере связей между отклонениями. Если рядов слишком мало по сравнению с количеством наблюдений п , то вполне вероятна положительная автокорреляция. (В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов). Если же рядов слишком много, то вероятна отрицательная автокорреляция. Для более детального анализа предлагается следующая процедура. Пусть

п - объем выборки;

п 1 - общее количество знаков «+» прип наблюдениях;

п 2 - общее количество знаков «-» прип наблюдениях; .

k- количество рядов.

Если при достаточно большом количестве наблюдений (n 1 >10,п 2 >10) количество рядовkлежит в пределах

то гипотеза об отсутствии автокорреляции не отклоняется.

Для небольшого числа наблюдений (n 1 <20,n 2 <20) Свед и Эйзенхарт разработали таблицы критических значенийk 1 ,k 2 отn 1 ,n 2 .

Если , то говорят об отсутствии автокорреляции;

если , говорят о положительной автокорреляции остатков;

если , говорят об отрицательной автокорреляции остатков.

В нашем примере: n=20,n 1 =11,n 2 =9,k=5. По таблицамk 1 =6,k 2 =16. Пронимается предположение о наличии положительной автокорреляции на уровне значимости 0,05.

Для проверки автокорреляции первого порядка (для регрессии временных рядов) необходимо рассчитать критерий Дарбина-Уотсона . Он определяется так:

.

Эмпирическое правило гласит, что если критерий Дарбина- Уотсона равен двум, то не существует положительной автокорреляции, если он равен нулю, то имеет место совершенная положительная автокорреляция, а если он равен четырем, то имеет место совершенная отрицательная автокорреляция. Критерий Дарбина-Уотсона имеет выборочное распределение, которое обладает двумя критическими значениями: d L – нижняя границаиd U – верхняя граница.

Введение

1. Суть и причины автокорреляции

2. Обнаружение автокорреляции

3. Последствия автокорреляции

4. Методы устранения

4.1 Определение

на основе статистики Дарбина-Уотсона

Заключение

Список использованной литературы

Введение

Модели, построенные по данным, характеризующим один объект за ряд последовательных моментов (периодов), называются моделями временных рядов. Временной ряд – это совокупность значений какого-либо показателя за несколько последовательных моментов или периодов. Применение традиционных методов корреляционно-регрессионного анализа для изучения причинно-следственных зависимостей переменных, представленных в форме временных рядов, может привести к ряду серьезных проблем, возникающих как на этапе построения, так и на этапе анализа эконометрических моделей. В первую очередь эти проблемы связаны со спецификой временных рядов как источника данных в эконометрическом моделировании.

Предполагается, что в общем случае каждый уровень временного ряда содержит три основные компоненты: тенденцию (Т), циклические или сезонные колебания (S) и случайную компоненту (E). Если временные ряды содержат сезонные или циклические колебания, то перед проведением дальнейшего исследования взаимосвязи необходимо устранить сезонную или циклическую компоненту из уровней каждого ряда, поскольку ее наличие приведет к завышению истинных показателей силы и связи изучаемых временных рядов в случае, если оба ряда содержат циклические колебания одинаковой периодичности, либо к занижению этих показателей в случае, если сезонные или циклические колебания содержит только один из рядов или периодичность колебаний в рассматриваемых временных рядах различна. Устранение сезонной компоненты из уровней временных рядов можно проводить в соответствии с методикой построения аддитивной и мультипликативной моделей. Если рассматриваемые временные ряды имеют тенденцию, коэффициент корреляции по абсолютной величине будет высоким, что в данном случае есть результат того, что х и у зависят от времени, или содержат тенденцию. Для того чтобы получить коэффициенты корреляции, характеризующие причинно-следственную связь между изучаемыми рядами, следует избавиться от так называемой ложной корреляции, вызванной наличием тенденции в каждом ряде. Влияние фактора времени будет выражено в корреляционной зависимости между значениями остатков

за текущий и предыдущие моменты времени, которая получила название «автокорреляция в остатках».

1.Суть и причины автокорреляции

Автокорреляция - это взаимосвязь последовательных элементов временного или пространственного ряда данных. В эконометрических исследованиях часто возникают и такие ситуации, когда дисперсия остатков постоянная, но наблюдается их ковариация. Это явление называют автокорреляцией остатков.

Автокорреляция остатков чаще всего наблюдается тогда, когда эконометрическая модель строится на основе временных рядов. Если существует корреляция между последовательными значениями некоторой независимой переменной, то будет наблюдаться и корреляция последовательных значений остатков. Автокорреляция может быть также следствием ошибочной спецификации эконометрической модели. Кроме того, наличие автокорреляции остатков может означать, что необходимо ввести в модель новую независимую переменную.

Автокорреляция в остатках есть нарушение одной из основных предпосылок МНК – предпосылки о случайности остатков, полученных по уравнению регрессии. Один из возможных путей решения этой проблемы состоит в применении к оценке параметров модели обобщенного МНК.

Среди основных причин, вызывающих появление автокорреляции, можно выделить ошибки спецификации, инерцию в изменении экономических показателей, эффект паутины, сглаживание данных.

Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводит к системным отклонениям точек наблюдений от линии регрессии, что может обусловить автокорреляцию.

Инерция. Многие экономические показатели (например, инфляция, безработица, ВНП и т.п.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Действительно, экономический подъем приводит к росту занятости, сокращению инфляции, увеличению ВНП и т.д. Этот рост продолжается до тех пор, пока изменение конъюктуры рынка и ряда экономических характеристик не приведет к замедлению роста, затем остановке и движению вспять рассматриваемых показателей. В любом случае эта трансформация происходит не мгновенно, а обладает определенной инертностью.

Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом). Например, предложение сельскохозяйственной продукции реагирует на изменение цены с запаздыванием (равным периоду созревания урожая). Большая цена сельскохозяйственной продукции в прошедшем году вызовет (скорее всего) ее перепроизводство в текущем году, а следовательно, цена на нее снизится и т.д.

Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его подынтервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может послужить причиной автокорреляции.

2.Обнаружение автокорреляции

В силу неизвестности значений параметров уравнения регрессии неизвестными будут также и истинные значения отклонений

,t=1,2…T. Поэтому выводы об их независимости осуществляются на основе оценок ,t=1,2…T, полученные из эмпирического уравнения регрессии. Рассмотрим возможные методы определения автокорреляции.

2.1.Графический метод

Существует несколько вариантов графического определения автокорреляции. Один из них, указывающий отклонения

с моментами t их получении (их порядковыми номерами i), приведен на рис. 2.1.Это так называемые последовательно-временные графики. В этом случае по оси абсцисс обычно откладывают либо время (момент) получения статистических данных, либо порядковый номер наблюдения, а по оси ординат- отклонения (либо оценки отклонений )
Рис.2.1.

Естественно предположить, что на рис 2.1. а-г имеются определенные связи между отклонениями, т.е. автокорреляция имеет место. Отсутствие зависимости на рис. д скорее всего свидетельствует об отсутствии автокорреляции.

Например, на рис. 2.1.б отклонения вначале в основном отрицательные, затем положительные, потом снова отрицательные. Это свидетельствует о наличии между отклонениями определенной зависимости.

2.2. Метод рядов

Этот метод достаточно прост: последовательно определяются знаки отклонений

,t=1,2…T. Например,

(-----)(+++++++)(---)(++++)(-),

Т.е. 5 «-», 7 «+», 3 «-», 4 «+», 1 «-» при 20 наблюдениях.

Ряд определяется как непрерывная последовательность одинаковых знаков. Количество знаков в ряду называется длиной ряда.

Визуальное распределение знаков свидетельствует о неслучайном характере связей между отклонениями. Если рядов слишком мало по сравнению с количеством наблюдений n, то вполне вероятна положительная автокорреляция. Если же рядов слишком много, то вероятна отрицательная автокорреляция.

2.3 Критерий Дарбина-Уотсона

Наиболее известным критерием обнаружения автокорреляции первого порядка является критерий Дарбина- Уотсона и расчет величины

(2.3.1)

Согласно (2.3.1) величина d есть отношение суммы квадратов разностей последовательных значений остатков к остаточной сумме квадратов по модели регрессии. Значение критерия Дарбина – Уотсона указывается наряду с коэффициентом детерминации, значениями t- и F- критериев.

Рассматривая последовательность остатков как временной ряд, можно построить график их зависимости от времени. В соответствии с предпосылками МНК остатки должны быть случайными. Однако при моделировании временных рядов нередко встречается ситуация, когда остатки содержат тенденцию или циклические колебания. Это свидетельствует о том, что каждое следующее значение остатков зависит от предшествующих. В этом случае говорят об автокорреляции остатков.

Автокорреляция в остатках может быть вызвана несколькими причинами, имеющими различную природу.

  • 1. Она может быть связана с исходными данными и вызвана наличием ошибок измерения в значениях результативного признака.
  • 2. В ряде случаев автокорреляция может быть следствием неправильной спецификации модели. Модель может не включать фактор, который оказывает существенное воздействие на результат и влияние которого отражается в остатках, вследствие чего последние могут оказаться автокоррелированными.

Существуют два наиболее распространенных метода определения автокорреляции остатков:

  • 1) построение графика зависимости остатков от времени и визуальное определение наличия или отсутствия автокорреляции.
  • 2) использование критерия Дарбина -- Уотсона и расчет величины:

Таким образом, d есть отношение суммы квадратов разностей последовательных значений остатков к остаточной сумме квадратов по модели регрессии.

Алгоритм выявления автокорреляции остатков на основе критерия Дарбина -- Уотсона следующий. Выдвигается гипотеза Н0 об отсутствии автокорреляции остатков. Альтернативные гипотезы Н1 и Н1* состоят, соответственно, в наличии положительной или отрицательной автокорреляции в остатках.

Далее по специальным таблицам определяются критические значения критерия Дарбина -- Уотсона dL и dU для заданного числа наблюдений n, числа независимых переменных модели k и уровня значимости б . По этим значениям числовой промежуток разбивают на пять отрезков. Принятие или отклонение каждой из гипотез с вероятностью осуществляется следующим образом:

есть положительная автокорреляция. Принимается гипотеза H1 с вероятностью (1- б ).

зона неопределенности.

автокорреляция остатков нет.

зона неопределенности.

есть отрицательная автокорреляция. Принимается гипотеза H1* с вероятностью (1-б).

Если фактическое значение критерия Дарбина -- Уотсона попадает в зону неопределенности, то на практике предполагают существование автокорреляции остатков и отклоняют гипотезу Hо.

Есть несколько существенных ограничений на применение критерия Дарбина -- Уотсона:

  • 1. Он неприменим к моделям, включающим в качестве независимых переменных лаговые значения результативного признака, т.е. к моделям авторегрессии.
  • 2. Методика расчета и использования критерия Дарбина-Уотсона направлена только на выявление автокорреляции остатков первого порядка.
  • 3. Критерий Дарбина-Уотсона дает достоверные результаты только для больших выборок.

В эконометрических исследованиях часто возникают ситуации, когда дисперсия остатков постоянна, но наблюдается статистическая зависимость остатков эконометрической модели между собой. Это явление называют автокорреляцией остатков .

В общем случае автокорреляция (последовательная корреляция) – это взаимосвязь упорядоченных во времени или в пространстве последовательных элементов соответственно временного или пространственного ряда данных.

На рис.5.5 показана зависимость Y от X , а также линия оцененного по этим данным уравнения парной линейной регрессии. Уже по рисунку видно, что оцененная регрессия не очень хороша: зависимость Y от X явно нелинейна. Если использовать проведенную регрессионную прямую, скажем, для прогнозирования дальнейшей динамики Y , результат будет неудовлетворительным.

Рис.5.5. К вопросу об автокорреляции остатков

Как же можно выразить формально неудовлетворительность полученного уравнения регрессии?

Мы видим, например, на рис.5.5, что в этом случае отклонения от линии регрессии не случайно распределены вокруг нее, а обладают определенной закономерностью. Эта закономерность, в частности, выражается в одинаковом, как правило, знаке каждых двух соседних отклонений . Это может являться следствием:

Неверной спецификации модели (ввиду нелинейного характера связи переменных);

Воздействием какого-то фактора, не включенного в модель в качестве объясняющей переменной. Величина такого неучтенного фактора может менять свою динамику в рассматриваемый период, отклоняясь в достаточно длительные промежутки времени в ту или иную сторону от своего среднего значения. Это, очевидно, может служить причиной длительных устойчивых отклонений зависимой переменной от линии регрессии.

Обе указанные причины свидетельствуют о том, что существует возможность улучшить уравнение регрессии путем оценивания какой-то новой нелинейной формулы или включения некоторой новой объясняющей переменной.

Зависимость, показанная на рис.5.5, очевидно, нелинейна. Но это – крайний случай. Далеко не всегда бывает столь же очевидно, что отклонения от регрессионной прямой имеют неслучайный, закономерный характер. Для оценки степени такой неслучайности необходимо ввести количественную меру .

Итак, одним из основных предполагаемых свойств отклонений наблюдаемых значений от регрессионной формулы является их статистическая независимость между собой .

Мы рассмотрим наиболее простую модель, в которой ошибки образуют так называемый авторегрессионный процесс первого порядка , т.е. когда ошибки зависят только от ошибок предыдущего периода. Применение обычного метода наименьших квадратов в этом случае дает несмещенные и состоятельные оценки параметров, однако можно показать, что оценка дисперсии оказывается смещенной вниз , что может отрицательно сказаться при проверке гипотез о значимости оценок параметров. Образно говоря, МНК рисует более оптимистичную картину, чем есть на самом деле.



Следовательно, последствия автокорреляции состоят в том, что:

- оценка дисперсии при использовании МНК является заниженной .

Большинство тестов на наличие автокорреляции в ошибках модели (наиболее широко используется тест Дарбина-Уотсона ) используют следующую идею: если корреляция есть у ошибок , то она присутствует и в остатках , получаемых после применения к модели обычного метода наименьших квадратов.

То есть, поскольку значения ошибок остаются неизвестными ввиду неизвестности истинных значений параметров модели, то проверяется статистическая независимость их аналогов – отклонений . При этом проверяется обычно их некоррелированность (являющаяся необходимым, но недостаточным атрибутом независимости ), причем некоррелированность не любых, а соседних величин .

- соседние во времени значения (в случае временных рядов);

- соседние по возрастанию переменной Х значения (в случае перекрестных выборок).

Первого порядка ” означает, что остатки зависят только от остатков предыдущего периода.



Практически, однако, используют тесно связанную с статистику Дарбина-Уотсона, обозначаемую как DW-статистика или как d‑статистика , и рассчитываемую по формуле:

. (5.13)

.