Оценка значимости параметров уравнения регрессии

Оценка значимости параметров уравнения линейной регрессии производится с помощью критерия Стьюдента:

если t расч. > t кр, то принимается основная гипотеза (H o ), свидетельствующая о статистической значимости параметров регрессии;

если t расч. < t кр, то принимается альтернативная гипотеза (H 1 ), свидетельствующая о статистической незначимости параметров регрессии.

где m a , m b – стандартные ошибки параметров a и b:

(2.19)

(2.20)

Критическое (табличное) значение критерия находится с помощью статистических таблиц распределения Стьюдента (приложение Б) или по таблицам Excel (раздел мастера функций «Статистические»):

t кр = СТЬЮДРАСПОБР(α=1-P; k=n-2 ), (2.21)

где k=n-2 также представляет собой число степенейсвободы.

Оценка статистической значимости может быть применена и к линейному коэффициенту корреляции

где m r – стандартная ошибка определения значений коэффициента корреляции r yx

(2.23)

Ниже представлены варианты заданий для практических и лабораторных работ по тематике второго раздела.

Вопросы для самопроверки по 2 разделу

1. Укажите основные составляющие эконометрической модели и их сущность.

2. Основное содержание этапов эконометрического исследования.

3. Сущность подходов по определению параметров линейной регрессии.

4. Сущность и особенность применения метода наименьших квадратов при определении параметров уравнения регрессии.

5. Какие показатели используются для оценки тесноты взаимосвязи исследуемых факторов?

6. Сущность линейного коэффициента корреляции.

7. Сущность коэффициента детерминации.

8. Сущность и основные особенности процедур оценки адекватности (статистической значимости) регрессионных моделей.

9. Оценка адекватности линейных регрессионных моделей по коэффициенту аппроксимации.

10. Сущность подхода оценки адекватности регрессионных моделей по критерию Фишера. Определение эмпирических и критических значений критерия.

11. Сущность понятия «дисперсионный анализ» применительно к эконометрическим исследованиям.

12. Сущность и основные особенности процедуры оценки значимости параметров линейного уравнения регрессии.

13. Особенности применения распределения Стьюдента при оценке значимости параметров линейного уравнения регрессии.

14. В чем состоит задача прогноза единичных значений исследуемого социально-экономического явления?

1. Построить поле корреляции и сформулировать предположение о форме уравнения взаимосвязи исследуемых факторов;

2. Записать основные уравнения метода наименьших квадратов, произвести необходимые преобразования, составить таблицу для промежуточных расчетов и определить параметры линейного уравнения регрессии;

3. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

4. Провести анализ результатов, сформулировать выводы и рекомендации.

1. Расчет значения линейного коэффициента корреляции;

2. Построение таблицы дисперсионного анализа;

3. Оценка коэффициента детерминации;

4. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

5. Провести анализ результатов, сформулировать выводы и рекомендации.

4. Провести общую оценку адекватности выбранного уравнения регрессии;

1. Оценка адекватности уравнения по значениям коэффициента аппроксимации;

2. Оценка адекватности уравнения по значениям коэффициента детерминации;

3. Оценка адекватности уравнения по критерию Фишера;

4. Провести общую оценку адекватности параметров уравнения регрессии;

5. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

6. Провести анализ результатов, сформулировать выводы и рекомендации.

1. Использование стандартных процедур мастера функций электронных таблиц Excel (из разделов «Математические» и «Статистические»);

2. Подготовка данных и особенности применения функции «ЛИНЕЙН»;

3. Подготовка данных и особенности применения функции «ПРЕДСКАЗ».

1. Использование стандартных процедур пакета анализа данных электронных таблиц Excel;

2. Подготовка данных и особенности применения процедуры «РЕГРЕССИЯ»;

3. Интерпретация и обобщение данных таблицы регрессионного анализа;

4. Интерпретация и обобщение данных таблицы дисперсионного анализа;

5. Интерпретация и обобщение данных таблицы оценки значимости параметров уравнения регрессии;

При выполнении лабораторной работы по данным одного из вариантов необходимо выполнить следующие частные задания:

1. Осуществить выбор формы уравнения взаимосвязи исследуемых факторов;

2. Определить параметры уравнения регрессии;

3. Провести оценку тесноты взаимосвязи исследуемых факторов;

4. Провести оценку адекватности выбранного уравнения регрессии;

5. Провести оценку статистической значимости параметров уравнения регрессии.

6. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

7. Провести анализ результатов, сформулировать выводы и рекомендации.

Задания для практических и лабораторных работ по теме «Парная линейная регрессия и корреляция в эконометрических исследованиях».

Вариант 1 Вариант 2 Вариант 3 Вариант 4 Вариант 5
x y x y x y x y x y
Вариант 6 Вариант 7 Вариант 8 Вариант 9 Вариант 10
x y x y x y x y x y

По территориям региона приводятся данные за 200Х г.

Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х Среднедневная заработная плата, руб., у
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Задание:

1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.

2. Рассчитайте параметры уравнения линейной регрессии

4. Дайте с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.

7. Рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости .

Решение:

Решим данную задачу с помощью Excel.

1. Сопоставив имеющиеся данные х и у, например, ранжировав их в порядке возрастания фактора х, можно наблюдать наличие прямой зависимости между признаками, когда увеличение среднедушевого прожиточного минимума увеличивает среднедневную заработную плату. Исходя из этого, можно сделать предположение, что связь между признаками прямая и её можно описать уравнением прямой. Этот же вывод подтверждается и на основе графического анализа.

Чтобы построить поле корреляции можно воспользоваться ППП Excel. Введите исходные данные в последовательности: сначала х, затем у.

Выделите область ячеек, содержащую данные.

Затем выберете: Вставка / Точечная диаграмма / Точечная с маркерами как показано на рисунке 1.

Рисунок 1 Построение поля корреляции

Анализ поля корреляции показывает наличие близкой к прямолинейной зависимости, так как точки расположены практически по прямой линии.

2. Для расчёта параметров уравнения линейной регрессии
воспользуемся встроенной статистической функцией ЛИНЕЙН .

Для этого:

1) Откройте существующий файл, содержащий анализируемые данные;
2) Выделите область пустых ячеек 5×2 (5 строк, 2 столбца) для вывода результатов регрессионной статистики.
3) Активизируйте Мастер функций : в главном меню выберете Формулы / Вставить функцию .
4) В окне Категория выберете Статистические , в окне функция - ЛИНЕЙН . Щёлкните по кнопке ОК как показано на Рисунке 2;

Рисунок 2 Диалоговое окно «Мастер функций»

5) Заполните аргументы функции:

Известные значения у

Известные значения х

Константа - логическое значение, которое указывает на наличие или на отсутствие свободного члена в уравнении; если Константа = 1, то свободный член рассчитывается обычным образом, если Константа = 0, то свободный член равен 0;

Статистика - логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет. Если Статистика = 1, то дополнительная информация выводится, если Статистика = 0, то выводятся только оценки параметров уравнения.

Щёлкните по кнопке ОК ;

Рисунок 3 Диалоговое окно аргументов функции ЛИНЕЙН

6) В левой верхней ячейке выделенной области появится первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, нажмите на клавишу , а затем на комбинацию клавиш ++ .

Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме:

Значение коэффициента b Значение коэффициента a
Стандартная ошибка b Стандартная ошибка a
Стандартная ошибка y
F-статистика
Регрессионная сумма квадратов

Рисунок 4 Результат вычисления функции ЛИНЕЙН

Получили уровнение регрессии:

Делаем вывод: С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб.

Означает, что 52% вариации заработной платы (у) объясняется вариацией фактора х - среднедушевого прожиточного минимума, а 48% - действием других факторов, не включённых в модель.

По вычисленному коэффициенту детерминации можно рассчитать коэффициент корреляции: .

Связь оценивается как тесная.

4. С помощью среднего (общего) коэффициента эластичности определим силу влияния фактора на результат.

Для уравнения прямой средний (общий) коэффициент эластичности определим по формуле:

Средние значения найдём, выделив область ячеек со значениями х, и выберем Формулы / Автосумма / Среднее , и то же самое произведём со значениями у.

Рисунок 5 Расчёт средних значений функции и аргумент

Таким образом, при изменении среднедушевого прожиточного минимума на 1% от своего среднего значения среднедневная заработная плата изменится в среднем на 0,51%.

С помощью инструмента анализа данных Регрессия можно получить:
- результаты регрессионной статистики,
- результаты дисперсионного анализа,
- результаты доверительных интервалов,
- остатки и графики подбора линии регрессии,
- остатки и нормальную вероятность.

Порядок действий следующий:

1) проверьте доступ к Пакету анализа . В главном меню последовательно выберите: Файл/Параметры/Надстройки .

2) В раскрывающемся списке Управление выберите пункт Надстройки Excel и нажмите кнопку Перейти.

3) В окне Надстройки установите флажок Пакет анализа , а затем нажмите кнопку ОК .

Если Пакет анализа отсутствует в списке поля Доступные надстройки , нажмите кнопку Обзор , чтобы выполнить поиск.

Если выводится сообщение о том, что пакет анализа не установлен на компьютере, нажмите кнопку Да , чтобы установить его.

4) В главном меню последовательно выберите: Данные / Анализ данных / Инструменты анализа / Регрессия , а затем нажмите кнопку ОК .

5) Заполните диалоговое окно ввода данных и параметров вывода:

Входной интервал Y - диапазон, содержащий данные результативного признака;

Входной интервал X - диапазон, содержащий данные факторного признака;

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Константа - ноль - флажок, указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

6) Новый рабочий лист - можно задать произвольное имя нового листа.

Затем нажмите кнопку ОК .

Рисунок 6 Диалоговое окно ввода параметров инструмента Регрессия

Результаты регрессионного анализа для данных задачи представлены на рисунке 7.

Рисунок 7 Результат применения инструмента регрессия

5. Оценим с помощью средней ошибки аппроксимации качество уравнений. Воспользуемся результатами регрессионного анализа представленного на Рисунке 8.

Рисунок 8 Результат применения инструмента регрессия «Вывод остатка»

Составим новую таблицу как показано на рисунке 9. В графе С рассчитаем относительную ошибку аппроксимации по формуле:

Рисунок 9 Расчёт средней ошибки аппроксимации

Средняя ошибка аппроксимации рассчитывается по формуле:

Качество построенной модели оценивается как хорошее, так как не превышает 8 - 10%.

6. Из таблицы с регрессионной статистикой (Рисунок 4) выпишем фактическое значение F-критерия Фишера:

Поскольку при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана).

8. Оценку статистической значимости параметров регрессии проведём с помощью t-статистики Стьюдента и путём расчёта доверительного интервала каждого из показателей.

Выдвигаем гипотезу Н 0 о статистически незначимом отличии показателей от нуля:

.

для числа степеней свободы

На рисунке 7 имеются фактические значения t-статистики:

t-критерий для коэффициента корреляции можно рассчитать двумя способами:

I способ:

где - случайная ошибка коэффициента корреляции.

Данные для расчёта возьмём из таблицы на Рисунке 7.

II способ:

Фактические значения t-статистики превосходят табличные значения:

Поэтому гипотеза Н 0 отклоняется, то есть параметры регрессии и коэффициент корреляции не случайно отличаются от нуля, а статистически значимы.

Доверительный интервал для параметра a определяется как

Для параметра a 95%-ные границы как показано на рисунке 7 составили:

Доверительный интервал для коэффициента регрессии определяется как

Для коэффициента регрессии b 95%-ные границы как показано на рисунке 7 составили:

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры a и b, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

7. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:

Тогда прогнозное значение прожиточного минимума составит:

Ошибку прогноза рассчитаем по формуле:

где

Дисперсию посчитаем также с помощью ППП Excel. Для этого:

1) Активизируйте Мастер функций : в главном меню выберете Формулы / Вставить функцию .

3) Заполните диапазон, содержащий числовые данные факторного признака. Нажмите ОК .

Рисунок 10 Расчёт дисперсии

Получили значение дисперсии

Для подсчёта остаточной дисперсии на одну степень свободы воспользуемся результатами дисперсионного анализа как показано на Рисунке 7.

Доверительные интервалы прогноза индивидуальных значений у при с вероятностью 0,95 определяются выражением:

Интервал достаточно широк, прежде всего, за счёт малого объёма наблюдений. В целом выполненный прогноз среднемесячной заработной платы оказался надёжным.

Условие задачи взято из: Практикум по эконометрике: Учеб. пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; Под ред. И.И. Елисеевой. - М.: Финансы и статистика, 2003. - 192 с.: ил.

Линейная регрессия сводится к нахождению уравнения вида:

Первое выражение позволяет по заданным значениям фактора х рассчитать теоретические значения результативного признака, подставляя в него фактические значения факторах. На графике (рис. 1.2) теоретические значения лежат на прямой, которая представляет собой линию регрессии.

Построение линейной регрессии сводится к оценке ее параметров - а и Ь. Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

МНК позволяет получить такие оценки параметров а и Ь, при которых сумма квадратов отклонений фактических значений у от теоретических у х минимальна:

Рис. 1.2.

Для нахождения минимума надо вычислить частные производные суммы (1.4) по каждому из параметров (а и ft) и приравнять их к нулю:

После преобразования получаем систему нормальных уравнений:

В системе п - объем выборки, суммы легко рассчитываются из исходных данных. Решая систему относительно а и Ь, получаем:

Выражение (1.7) можно записать в другом виде:

где cov(x, у) - ковариация признаков; су* - дисперсия фактора х.

Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с увеличением фактора на одну единицу. Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение парной регрессии достаточно распространенным в эконометрических исследованиях.

Формально а - значение у при х = 0. Если х не имеет и не может иметь нулевого значения, то такая трактовка свободного члена а не имеет смысла. Параметр а чаще всего не имеет экономического содержания. Попытки экономически интерпретировать его могут привести к абсурду, особенно при а 0. Интерпретировать можно лишь знак при параметре а. Если а > 0, то относительное изменение результата происходит медленнее, чем изменение фактора. Сравним эти относительные изменения:

Иногда линейное уравнение парной регрессии записывают для отклонений от средних значений:

где

При этом свободный член равен нулю, что и отражено в выражении (1.10). Этот факт следует из геометрических соображений: уравнению регрессии отвечает та же прямая (1.3), но при оценке регрессии в отклонениях начало координат перемещается в точку с координатами (Зс, у). При этом в выражении (1.8) обе суммы будут равны нулю, что и повлечет равенство нулю свободного члена. Выражения (1.7) и (1.9) при этом также упрощаются.

В качестве примера рассмотрим на группе предприятий, выпускающих один вид продукции, регрессионную зависимость издержек от выпуска продукции у = а + Ьх + е (табл. 1.1).

Система нормальных уравнений будет иметь вид

Решая ее, получаем а - -5,79, b - 36,84.

Уравнение регрессии имеет вид

Таблица 1.1

Исходные данные для оценки параметров парной линейной модели

Выпуск продукции (х), тыс. ед.

Затраты на производство (у), млн руб.

Подставив в уравнение регрессии значения х, найдем теоретические значения у (последняя колонка табл. 1.1).

Величина а не имеет экономического смысла. Если переменные х и у выразить через отклонения от средних уровней, то линия регрессии на графике пройдет через начало координат. Оценка коэффициента регрессии при этом не изменится: у" = 36,84х", где у" = у-у, х" = х-х.

В качестве другого примера рассмотрим функцию потребления в виде:

где С - потребление; у - доход; К, L - параметры.

Данное уравнение линейной регрессии обычно используется в увязке с балансовым равенством

где / - размер инвестиций; г - сбережения.

Для простоты предположим, что доход расходуется на потребление и инвестиции. Таким образом, рассматривается система уравнений

Наличие балансового равенства накладывает ограничения на величину коэффициента регрессии, которая не может быть больше единицы, т.е. К 1.

Предположим, что функция потребления составила С = 1,9 + 0,65у.

Коэффициент регрессии характеризует склонность к потреблению. Он показывает, что из каждой тысячи рублей дохода на потребление расходуется в среднем 650 руб., а 350 руб. инвестируется. Если рассчитать регрессию размера инвестиций от дохода, т.е. I = а + by, то уравнение регрессии будет I = -1,9 + 0,35у. Его можно и не определять, поскольку оно выводится из функции потребления. Коэффициенты регрессии этих двух уравнений связаны равенством 0,65 + 0,35 = 1. Если коэффициент регрессии оказывается больше единицы, то у и на потребление расходуются не только доходы, но и сбережения.

Коэффициент регрессии К в функции потребления используется для расчета мультипликатора:

где т » 2,86, поэтому дополнительные вложения 1 тыс. руб. на длительный срок приведут при прочих равных условиях к дополнительному доходу 2,86 тыс. руб.

При линейной регрессии в качестве показателя тесноты связи выступает линейный коэффициент корреляции г.

Его значения находятся в границах: - 1 r 1. Если 6>0,то0 г b 0-1 г 0. По данным примера расчет выражения (1.11) дает г = 0,991, что означает очень тесную зависимость затрат на производство от величины объема выпускаемой продукции.

Для оценки качества подбора линейной функции рассчитывается коэффициент детерминации как квадрат линейного коэффициента корреляции I 2 . Он характеризует долю дисперсии результативного признака у, объясняемую регрессией, в общей дисперсии результативного признака:

Величина 1 - г 2 характеризует долю дисперсии у, вызванную влиянием остальных, не учтенных в модели факторов.

В примере г 2 = 0,982. Уравнением регрессии объясняется 98,2% дисперсии у, а на прочие факторы приходится 1,8% - это остаточная дисперсия.

ГЛАВА 3. МОДЕЛЬ МНОЖЕСТВЕННОЙ

ЛИНЕЙНОЙ РЕГРЕССИИ

Основные понятия и уравнения множественной регрессии

На любой экономический показатель чаще всего оказывает влияние не один, а несколько совокупно действующих факторов. Например, объем реализации (Y ) для предприятий оптовой торговли может определяться уровнем цен (Х 1), числом видов товаров (Х 2), размером торговой площади (Х 3) и товарных запасов (Х 4). В целом объем спроса на какой-либо товар определяется не только его ценой (Х 1), но и ценой на конкурирующие товары (Х 2), располагаемым доходом потребителей (Х 3), а также некоторыми другими факторами. Показатель инновационной активности современных предприятий зависит от затрат на исследования и разработки (Х 1), на приобретение новых технологий (Х 2), на приобретение программных продуктов и средств (Х 3) и обучение и переподготовку кадров . В этих случаях возникает необходимость рассмотрения моделей множественной (многофакторной, многомерной) регрессии .

Модель множественной линейной регрессии является естественным обобщением парной (однофакторной) линейной регрессионной модели. В общем случае ее теоретическое уравнение имеет вид:

где Х 1 , Х 2 ,…, Х m – набор независимых переменных (факторов-аргументов); b 0 , b 1 , …, b m – набор (m + 1) параметров модели, подлежащих определению; ε – случайное отклонение (ошибка); Y – зависимая (объясняемая) переменная.

Для индивидуального i -го наблюдения (i = 1, 2, …, n ) имеем:

. (3.3)

Здесь b j называется j -м теоретическим коэффициентом регрессии (частичным коэффициентом регрессии).

Аналогично случаю парной регрессии, истинные значения параметров (коэффициентов) b j по выборочным данным получить невозможно. Поэтому для определения статистической взаимосвязи переменных Y и Х 1 , Х 2 , …, Х m оценивается эмпирическое уравнение множественной регрессионной модели

в котором , – оценки соответствующих теоретических коэффициентов регрессии; е – оценка случайного отклонения ε.

Оцененное уравнение (3.4) в первую очередь должно описывать общий тренд (направление, тенденцию) изменения зависимой переменной Y . При этом необходимо иметь возможность рассчитать отклонения от этого тренда.

Для решения задачи определения оценок параметров множественной линейной регрессии по выборке объема n необходимо выполнение неравенства n ³ m + 1 (m – число регрессоров). В данном случае число v = n - m - 1 будет называться числом степеней свободы. Отсюда для парной регрессии имеем v = n - 2. Нетрудно заметить, что если число степеней свободы невелико, то и статистическая надежность оцениваемой формулы невысока. На практике принято считать, что достаточная надежность обеспечивается в том случае, когда число наблюдений по крайней мере в три раза превосходит число оцениваемых параметров k = m + 1. Обычно, статистическая значимость парной модели наблюдается при n ≥ 7.

Самым распространенным методом оценки параметров уравнения множественной линейной регрессионной модели является метод наименьших квадратов (МНК) . Напомним (см. раздел 2.4.1), что надежность оценок и статистических выводов, полученных с использованием МНК, обеспечивается при выполнении предпосылок Гаусса-Маркова. В случае множественной линейной регрессии к предпосылкам 1–4 необходимо добавить еще одну (пятую) – отсутствие мультиколлинеарности , что означает отсутствие линейной зависимости между объясняющими переменными в функциональной или статистической форме. Более подробно мультиколлинеарность объясняющих переменных будет рассмотрена в разделе (3.4). Модель, удовлетворяющая предпосылкам МНК, называется классической нормальной моделью множественной регрессии .

На практике часто бывает необходимо оценить силу влияния на зависимую переменную различных объясняющих (факторных) переменных. В этом случае используют стандартизованные коэффициенты регрессии и средние коэффициенты эластичности .

Стандартизированный коэффициент регрессии определяется по формуле:

(3.5)

где S (x j ) и S (y ) – выборочные средние квадратичные отклонения (стандарты) соответствующей объясняющей и зависимой переменных.

Средний коэффициент эластичности

(3.6)

показывает, на сколько процентов (от средней) изменится в среднем зависимая переменная Y при увеличении только j -й объясняющей переменной на 1 %.

Для модели с двумя объясняющими (факторными) переменными , после нахождения оценок , уравнение определяет плоскость в трехмерном пространстве. В общем случае m независимых переменных геометрической интерпретацией модели является гиперплоскость в гиперпространстве.

Оценка параметров регрессионной модели

Для нахождения оценок параметров b j множественной линейной регрессионной модели (коэффициентов эмпирического уравнения регрессии) используется метод наименьших квадратов (МНК). Суть МНК заключается в минимизации суммы квадратов отклонений наблюдаемых выборочных значений y i зависимой переменной Y от их модельных оценок . Отклонение е i , соответствующее уравнению регрессии в i -м наблюдении (i = 1, 2, …, n ), рассчитывается по формуле:

Тогда для нахождения коэффициентов по МНК минимизируется следующая функция m + 1 переменных:

. (3.8)

Необходимым условием минимума функции G является равенство нулю всех ее частных производных по Частные производные квадратичной функции (3.8) являются линейными функциями относительно параметров:

. (3.9)

Приравнивая (3.9) к нулю, получаем систему m + 1 линейных нормальных уравнений с m + 1 неизвестными для определения параметров модели:

(3.10)

где j = 1, 2, …, m – определяет набор регрессоров.

Следует заметить, что включение в модель новых объясняющих переменных усложняет расчет коэффициентов множественной линейной регрессии путем решения системы (3.10) по сравнению с парной моделью. Система из трех уравнений, соответствующая модели с двумя объясняющими переменными , может быть легко решена методом определителей. Однако в общем виде решение системы (3.10) и анализ множественной регрессионной модели наиболее целесообразно проводить в векторно-матричной форме .

Тогда, вводя матричные обозначения, запишем:

, , .

Здесь Y n -мерный вектор-столбец наблюдений зависимой переменной; Х – матрица размерности n · (m + 1) значений объясняющих переменных x ij , в которой единица соответствует переменной при свободном члене ; – вектор-столбец размерности m + 1 оценок параметров модели (коэффициентов уравнения регрессии); е – вектор-столбец размерности n отклонений выборочных (реальных) значений y i зависимой переменной, от значений оценок , получаемых по уравнению регрессии.

В матричной форме модель (3.1) примет вид:

Y = XB + e. (3.11)

Оценкой этой модели по выборочным данным является уравнение (эмпирическая модель)

Предпосылки МНК (см. раздел 2.4.1.) в матричной форме можно записать следующим образом:

1. M (e) = 0; 2. D (e) = σ 2 I ; 3. Матрица ковариаций V (e) = M (e · e T ) = σ 2 E,

где e = – вектор-столбец случайных отклонений (ошибок);

I = – (n · 1) вектор;

E = E n × n = – единичная матрица;

– матрица ковариаций или ковариационная матрица вектора случайных отклонений, которая является многомерным аналогом дисперсии одной переменной и в которой, если предпосылка о некоррелированности отклонений e i и e j выполняется, все элементы, не лежащие на главной диагонали, равны нулю, а элементы главной диагонали равны одной и той же дисперсии D (e i ) = σ 2 ; 4. e – нормально распределенный случайный вектор, т. е. e ~ N (0, σ 2 Е); 5. r (X ) = m + 1 > n – детерминированная матрица объясняющих переменных (регрессоров) имеет ранг r , равный числу определяемых параметров модели m + 1, кроме того, число имеющихся наблюдений каждой из объясняющих переменных и зависимой переменной превосходит ранг матрицы Х .

Выполнение пятой предпосылки означает линейную независимость объясняющих переменных (линейную независимость столбцов матрицы Х ), т. е. отсутствие функциональной мультиколлинеарности.

Наша задача заключается в нахождении вектора оценок по МНК, который, при выполнении предпосылок 1–5, обладает наименьшим рассеянием относительно параметра B .

Воспользовавшись известными соотношениями матричной алгебры и правилами дифференцирования по векторному аргументу, получим необходимое условие минимума функции G (равенство нулю вектор-столбца частных производных )

Введение

В эконометрике широко используются методы статистики. Ставя цель дать количественное описание взаимосвязей между экономическими переменными, эконометрика, прежде всего, связана с методами регрессии и корреляции.

В зависимости от количества факторов, включенных в уравнение регрессии, принято различать простую (парную) и множественную регрессии.

Простая регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной у рассматривается как функция одной независимой (объясняющей) переменной х, т.е. это модель вида

Множественная регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной у рассматривается как функция нескольких независимых (объясняющих) переменных х 1 , х 2 ,..., т.е. это модель вида

У = ѓ (х 1 , х 2 …, х k).

Методам простой или парной регрессии и корреляции, возможностям их применения в эконометрике посвящена данная работа.

Линейная регрессия и корреляция: смысл и оценка параметров

Линейная регрессия находит широкое применение в эконометрике ввиду четкой экономической интерпретации ее параметров. Линейная регрессия сводится к нахождению уравнения вида

y x = a + b * x или y = a + b * x + е. (1)

Уравнение вида y x = a + b * x позволяет по заданным значениям фактора x иметь теоретические значения результативного признака подстановкой в него фактических значений фактора x (рис 1)

Построение линейной регрессии сводится к оценке ее параметров - a и b. Оценки параметров линейной регрессии могут быть найдены разными методами. Можно обратиться к полю корреляции и, выбрав на графике две точки, провести через них прямую линию (см. рис.1), затем по графику найти значения параметров. Параметр a определим, как точку пересечения линии регрессии с осью oy а параметр b оценим исходя из угла наклона линии регрессии как dy/dx, где dy - приращение результата y, а dx - приращение фактора x т. е.

Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

Метод наименьших квадратов позволяет получить такие оценки параметров а и b, при которых сумма квадратов отклонений фактических значений результативного признака у от расчетных (теоретических) у х минимальна:

У(yi - yx i) 2 > min (2)

Иными словами, из всего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной (рис. 2.):

е i = y i - y x ,

следовательно,

Для того чтобы найти минимум функции (2), надо вычислить частные производные по каждому из параметров a и b и приравнять их к нулю.

Обозначим У е i 2 через S, тогда:

S = У(y i - y x)2 = У(y - a - b *x)2 ;

dS / da = - 2Уy + 2 * n*a + 2 *bУx= 0; (3)

dS / da = - 2Уy * x + 2 *a Уx + 2 * b Уx 2 = 0.

Преобразовывая формулу (3), получим следующую систему нормальных уравнений для оценки параметров a и b:

N *a + bУx = Уy,

aУx + b Уx 2 = Уy * x. (4)

Решая систему нормальных уравнений (4) либо методом последовательного исключения переменных, либо методом определителей, найдем искомые оценки параметров а и Ь. Можно воспользоваться следующими формулами для a и b:

a = y - b * x (5)

Формула (5) получена из первого уравнения системы (4), если всего его члены разделить на n:

b = cov(x,y) / у 2 x

где cov(x,y) - ковариация признаков; у 2 x - дисперсия признака х.

Поскольку cov(x,y) = yx - y * x , а у 2 x = x 2 - x -2 , получим следующую формулу расчета оценки параметра b:

b = yx - y * x / x 2 - x 2 (6)

Формула (6) получается также при решении системы (4) методом определителей, если все элементы расчета разделить на n 2 .

Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. Так, если функция издержек (y, тыс. руб.) выражается как y x = 3000 + 2 * x , (x - количество единиц продукции), то, следовательно, с увеличением объема продукции x на одну единицу издержки производства возрастают в среднем на 2 тыс. руб., т. е. дополнительный прирост продукции на одну единицу потребует увеличения затрат в среднем на 2 тыс. руб.

Знак при коэффициенте регрессии b показывает направление связи: при b > 0 - связь прямая, а при b < 0 - связь обратная.

Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение регрессии достаточно распространенным в эконометрических исследованиях.

Формально a - значение y при x = 0. Если признак-фактор x не имеет и не может иметь нулевого значения, то трактовка свободного члена a не имеет смысла. Параметр a может не иметь экономического содержания. Попытки экономически интерпретировать параметр a могут привести к абсурду, особенно при a < 0.

Интерпретировать можно лишь знак при параметре a. Если a < 0, то относительное изменение результата происходит медленнее, чем изменение фактора. Иными словами, вариация результата меньше вариации фактора - коэффициент вариации по фактору x выше коэффициента вариации для результата y: Vx > Vy. Для доказательства данного положения сравнимо относительные изменения фактора x и результата y:

Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такого показателя выступает линейный коэффициент корреляции r xy . Имеются разные модификации формулы линейного коэффициента корреляции, например:

к чн = и * у ч. у н = сщм(чбн) . у ч * у н = нч - н * ч. у ч * у н (7)

Как известно, линейный коэффициент корреляции находиться в границах - 1 ? r xy ? 0.

Если коэффициент регрессии b > 0, то 0 ? r xy ? 1, и, наоборот, при b < 0 - 1 ? r xy ? 0.

Следует иметь в виду, что величина линейного коэффициента корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость абсолютной величины линейного коэффициента корреляции к нулю еще не означает отсутствия связи между признаками. При иной спецификации модели связь между признаками может оказаться достаточно тесной.

Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции r 2 xy , называемый коэффициентом детерминации. Коэффициент детерминации характеризует долю дисперсии результативного признака у, объясняемую регрессией, в общей дисперсии результативного признака:

r 2 xy = у 2 y объясн. / у 2 y общ (8)

Соответственно величина 1 - r 2 характеризует долю дисперсии у, вызванную влиянием остальных, не учтенных в модели факторов.

Величина коэффициента детерминации является одним из критериев оценки качества линейной модели. Чем больше доля объясненной вариации, тем соответственно меньше роль прочих факторов и, следовательно, линейная модель хорошо аппроксимирует исходные данные, и ею можно воспользоваться для прогноза значений результативного признака. Линейный коэффициент корреляции по содержанию отличается от коэффициента регрессии. Выступая показателем силы связи, коэффициент регрессии b на первый взгляд может быть использован как измеритель ее тесноты. Величина коэффициента регрессии зависит от единиц измерения переменных, от размерности признаков. Кроме того, коэффициенты регрессии - величины именованные, и потому несравнимы для разных признаков.

Сделать коэффициенты регрессии сопоставимыми по разным признакам позволяет определение аналогичного показателя в стандартизованной системе единиц, где в качестве единицы измерения признака используется его среднее квадратическое отклонение (у). Поскольку коэффициент регрессии b имеет единицы измерения дробные (результат/фактор), то умножив, его на среднее квадратическое отклонение фактора х (у x) и разделив на среднее квадратическое отклонение результата (у y), получим показатель, пригодный для сравнения интенсивности изменения результата под влиянием разных факторов. Иными словами, мы придем к формуле линейного коэффициента корреляции:

r xy = b y/x * у x / у y

Его величина выступает в качестве стандартизованного коэффициента регрессии и характеризует среднее в сигмах (у y) изменение результата с изменением фактора на одну у x .

Линейный коэффициент корреляции как измеритель тесноты линейной связи признаков логически связан не только с коэффициентом регрессии b, но и с коэффициентом эластичности, который является показателем силы связи, выраженным в процентах. При линейной связи признаков х и у средний коэффициент эластичности в целом по совокупности определяется как

Э y/x = b y/x * x / y,

т.е. его формула по построению близка к формуле линейного коэффициента корреляции

r xy = b y/x * у x / у y ,

Как и линейный коэффициент корреляции, коэффициент эластичности сравним по разным признакам.

Если Э y/x = 0,8 %, а Э y/z = 0,2 % , то можно заключить, что фактор х в большей мере влияет на результат у, чем фактор z, ибо с ростом х на 1% у возрастает на 0,8 %, а с ростом z на 1 % - только на 0,2 %.

Несмотря на схожесть этих показателей, измерителем тесноты связи выступает линейный коэффициент корреляции (r xy), а коэффициент регрессии (b y/x) и коэффициент эластичности (Э y/x) - показатели силы связи: коэффициент регрессии является абсолютной мерой, ибо имеет единицы измерения, присущие изучаемым признакам у и х, а коэффициент эластичности - относительным показателем силы связи, потому что выражает в процентах.

Для пояснения тесноты связи рассмотрим рисунок 3. Несмотря на всю важность измерения тесноты связи, в эконометрике больший практический интерес приобретает коэффициент детерминации r 2 xy , ибо он дает относительную меру влияния фактора на результат, фиксируя одновременно и роль ошибок, т.е. случайных составляющих в формировании моделируемой переменной. Чем ближе коэффициент детерминации к 1 , тем в большей степени уравнение регрессии пригодно для прогнозирования.

Рис. 3 Типы корреляции

а - полная корреляция: r xy = 1; б - сильная корреляция: r xy ? 0,8: 0,9;

в - слабая корреляция: r xy ? 0,2

корреляция линейный нелинейный регрессия