Как уже было сказано выше, в случае линейной зависимости уравнение регрессии является уравнением прямой линии.

Различают

У = а у/х + b у/х Х

Х = а х/у + b х/у Y

Здесь а и b – коэффициенты, или параметры, которые определяются по формулам. Значение коэффициента b вычисляется

Из формул видно, что коэффициенты регрессии b у/х и b х/у имеют тот же знак, что и коэффициент корреляции, размерность, равную отношению размерностей изучаемых показателей Х и У , и связаны соотношением:

Для вычисления коэффициента а достаточно подставить в уравнения регрессии средние значения коррелируемых переменных



График теоретических линий регрессии (рис. 17) имеет вид:

Рис 17. Теоретические линии регрессии

Из приведённых выше формул легко доказать, что угловые коэффициенты прямых регрессии равны соответственно


Так как
, то
. Это означает, что прямая регрессииY на Х имеет меньший наклон к оси абсцисс, чем прямая регрессии Х на Y .

Чем ближе к единице, тем меньше угол между прямыми регрессии. Эти прямые сливаются только тогда, когда
.

При
прямые регрессии описываются уравнениями
,
.

Таким образом, уравнения регрессии позволяют:

    определить, насколько изменяется одна величина относительно другой;

    прогнозировать результаты.

2. Методика выполнения расчётно-графической работы №2

Расчётно-графическая работа содержит 4 раздела.

В первом разделе:

    Формулируется тема;

    Формулируется цель работы.

Во втором разделе:

    Формулируется условие задачи;

    Заполняется таблица исходных данных выборки.

В третьем разделе:

    Результаты измерений представляются в виде вариационного ряда;

    Даётся графическое представление вариационного ряда.

    Формулируется вывод.

В четвёртом разделе:

    Рассчитываются основные статистические характеристики ряда измерений;

    По итогам расчётов формулируется вывод.

Оформление работы:

    Работа выполняется в отдельной тетради или на форматных листах.

    Титульный лист заполняется по образцу.

Российский Государственный Университет

физической культуры, спорта, молодёжи и туризма

Кафедра естественнонаучных дисциплин

Корреляционный и регрессионный анализы

Расчётно-графическая работа №2

по курсу математики

Выполнил: студент 1 к. 1 пот. 1гр.

Иванов С.М.

Преподаватель:

доц. кафедры ЕНД и ИТ

Москва – 2012

(Пример оформления титульного листа)

Пример выполнения расчётно-графической работы №2.

Тема работы: Корреляционный и регрессионный анализы.

Цель работы: Определить взаимосвязь показателей двух выборок.

Ход выполнения работы:

    Придумать две выборки из своего вида спорта с одинаковым объемом n.

    Нарисовать корреляционное поле, сделать предварительный вывод.

    Определить достоверность коэффициента корреляции и сделать окончательный вывод.

    Построить теоретические линии регрессии на корреляционном поле и показать точку их пересечения.

1. Условие задачи: У группы спортсменов определяли результаты в беге на 100 м с барьерами X i (с) и прыжках в длину Y i (м) (табл.). Проверить, существует ли корреляционная связь между исследуемыми признаками и определить достоверность коэффициента корреляции.

Таблица исходных данных выборки: Результаты приведены в таблице исходных данных.

Таблица 6

Результаты бега и прыжка

п/п

X i , с

Y i , м

п/п

X i , с

Y i , м

Решение:

2 . Построим корреляционное поле (диаграмму рассеяния) и сделаем предварительный вывод относительно связи между исследуемыми признаками.

Рис 18. Корреляционное поле

Предварительный вывод:

Связь между показателями результатов в беге на 100 м с барьерами X i (с) и прыжками в длину Y i (см):

    линейная;

    отрицательная;

3 . Рассчитаем парный линейный коэффициент корреляции Бравэ – Пирсона, предварительно рассчитав основные статистические показатели двух выборок. Для их расчёта составим таблицу, в которой предпоследний и последний столбцы необходимы для расчёта стандартных отклонений, если они неизвестны. Для нашего примера эти значения рассчитаны в первой расчётно-графической работе, но для наглядности покажем расчёт дополнительно.

Таблица 7

Вспомогательная таблица для расчета коэффициента

корреляции Бравэ – Пирсона

X i , с

Y i , см

13,59

x =
,

y =
,

.

Полученное значение коэффициента корреляции позволяет подтвердить предварительный вывод и сделать окончательное заключение – связь между исследуемыми признаками:

    линейная;

    отрицательная;

4 . Определим достоверность коэффициента корреляции.

Предположим, что связь между результатом в беге на 100 м и прыжком в длину отсутствует (Н о : r = 0).

Вывод: существует сильная, отрицательная статистически достоверная (р =0,95) связь между бегом с препятствиями на дистанцию 100 м и прыжком в длину. Это означает, что с улучшением результата в прыжке в длину уменьшается время пробега дистанции 100 м.

5 . Вычислим коэффициент детерминации:

Следовательно, только 96% взаимосвязи результатов в беге на 100 м с барьерами и в прыжке в длину объясняется их взаимовлиянием, а остальная часть, т. е. 4% объясняется влиянием других неучтённых факторов.

6. Рассчитаем коэффициенты прямого и обратного уравнений регрессии, воспользовавшись формулами, подставим значения рассчитанных коэффициентов в соответствующую формулу и запишем прямое и обратное уравнения регрессии:

Y = а 1 + b 1 Х - прямое уравнение регрессии;

Х = а 2 + b 2 Y - обратное уравнение регрессии.

Воспользуемся результатами расчёта, приведёнными выше:

x =
; y =
;
;
13,59;
6,4,

Рассчитаем коэффициент b 1 , воспользовавшись формулой:

Для расчета коэффициента а 1 b 1 Х и Y

а 1 и b 1

Y = 22 - 1,15Х

Рассчитаем коэффициент b 2 , воспользовавшись формулой:

Для расчета коэффициента а 2 подставим в прямое уравнение регрессии вместо b 2 рассчитанное значение, а вместо Х и Y средние арифметические значения двух выборок из таблицы:

Подставим полученные значения коэффициентов а 1 и b 1 в прямое уравнение регрессии и запишем уравнение прямой линии:

Х = 18,92 - 0,83Y

Таким образом, мы получили прямое и обратное уравнения регрессии:

Y = 22 - 1,15Х - прямое уравнение регрессии;

Х = 18,92 - 0,83Y - обратное уравнение регрессии.

Для проверки правильности расчётов достаточно подставить в прямое уравнение среднее значение и определить значениеY . Полученное значение Y должно быть близким или равным среднему значению .

Y = 22 - 1,15 = 22 - 1,1513,59 = 6,4 =.

При подстановке в обратное уравнение регрессии среднего значения , полученное значение Х должно быть близким или равным среднему значению .

Х = 18,92 - 0,83= 18,92 - 0,83 6,4 = 13,6 = .

7. Построим линии регрессии на корреляционном поле.

Для графического построения теоретических линий регрессии, как и для построения любой прямой, необходимо иметь две точки из диапазона значений Х и Y .

Причём, в прямом уравнении регрессии независимая переменная Х , а зависимая Y , а в обратном – независимая переменная Y , а зависимая Х.

Y = 22 - 1,15Х

X

Y

Х = 18,92 - 0,83Y

Y

X

Координатами точки пересечения линий прямого и обратного уравнений регрессии являются значения средних арифметических двух выборок (с учётом погрешностей округлений при приближённых расчётах).

Вывод: зная результат бега с препятствиями на дистанцию 100 м, по прямому уравнению регрессии, можно теоретически определить результат прыжка в длину; и наоборот, зная результат прыжка в длину по обратному уравнению регрессии, можно определить результат бега с препятствиями.


Рис. 2.1. График линии регрессии

Первое выражение позволяет по заданным значениям фактора x рассчитать теоретические значения результативного признака, подставляя в него фактические значения фактора x . На графике теоретические значения лежат на прямой, которые представляют собой линию регрессии (рис. 2.1).

Построение линейной регрессии сводится к оценке ее параметров а и b . Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

МНК позволяет получить такие оценки параметров а и b, при которых сумма квадратов отклонений фактических значений от теоретических минимальна:

Для нахождения минимума надо вычислить частные производные суммы (4) по каждому из параметров – а и b – и приравнять их к нулю.

(5)

Преобразуем, получаем систему нормальных уравнений:

(6)

В этой системе n - объем выборки, суммы легко рассчитываются из исходных данных. Решаем систему относительно а и b , получаем:

(7)

. (8)

Выражение (7) можно записать в другом виде:

(9)

где ковариация признаков, дисперсия фактора x.

Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение парной регрессии достаточно распространенным в эконометрических исследованиях.

Формально a – значение y при x = 0. Если x не имеет и не может иметь нулевого значения, то такая трактовка свободного члена a не имеет смысла. Параметр a может не иметь экономического содержания. Попытки экономически интерпретировать его могут привести к абсурду, особенно при a < 0. Интерпретировать можно лишь знак при параметре a. Если a > 0, то относительное изменение результата происходит медленнее, чем изменение фактора. Сравним эти относительные изменения:

< при > 0, > 0 <

Иногда линейное уравнение парной регрессии записывают для отклонений от средних значений:

где , . При этом свободный член равен нулю, что и отражено в выражении (10). Этот факт следует из геометрических соображений: уравнению регрессии отвечает та же прямая (3), но при оценке регрессии в отклонениях начало координат перемещается в точку с координатами . При этом в выражении (8) обе суммы будут равны нулю, что и повлечет равенство нулю свободного члена.

Рассмотрим в качестве примера по группе предприятий, выпускающих один вид продукции, регрессионную зависимость издержек от выпуска продукции .

Таблица 2.1

Выпуск продукции тыс.ед.() Затраты на производство, млн.руб.()
31,1
67,9

Продолжение таблицы 2.1

141,6
104,7
178,4
104,7
141,6
Итого: 22 770,0

Система нормальных уравнений будет иметь вид:

Решая её, получаем a = -5,79, b = 36,84.

Уравнение регрессии имеет вид:

Подставив в уравнение значения х , найдем теоретические значения y (последняя колонка таблицы).

Величина a не имеет экономического смысла. Если переменные x и y выразить через отклонения от средних уровней, то линия регрессии на графике пройдет через начало координат. Оценка коэффициента регрессии при этом не изменится:

, где , .

При линейной регрессии в качестве показателя тесноты связи выступает линейный коэффициент корреляции r:

Величина характеризует долю дисперсии y , вызванную влиянием остальных, не учтенных в модели факторов.

2.3. Предпосылки МНК (условия Гаусса-Маркова)

Связь между y и x в парной регрессии является не функциональной, а корреляционной. Поэтому оценки параметров a и b являются случайными величинами, свойства которых существенно зависят от свойств случайной составляющей ε. Для получения по МНК наилучших результатов необходимо выполнение следующих предпосылок относительно случайного отклонения (условия Гаусса-Маркова):

1. Математическое ожидание случайного отклонения равно нулю для всех наблюдений: .

2. Дисперсия случайных отклонений постоянна: .

Выполнимость данной предпосылки называется гомоскедастичностью - постоянством дисперсии отклонений. Невыполнимость данной предпосылки называется гетероскедастичностью - непостоянством дисперсии отклонений.

3. Случайные отклонения ε i и ε j являются независимыми друг от друга для :

Выполнимость этого условия называется отсутствием автокорреляции .

4. Случайное отклонение должно быть независимо от объясняющих переменных. Обычно это условие выполняется автоматически, если объясняющие переменные в данной модели не являются случайными. Кроме того, выполнимость данной предпосылки для эконометрических моделей не столь критична по сравнению с первыми тремя.

При выполнимости указанных предпосылок имеет место теорема Гаусса-Маркова : оценки (7) и (8), полученные по МНК, имеют наименьшую дисперсию в классе всех линейных несмещенных оценок .

Таким образом, при выполнении условий Гаусса- Маркова оценки (7) и (8) являются не только несмещенными оценками коэффициентов регрессии, но и наиболее эффективными, т. е. имеют наименьшую дисперсию по сравнению с любыми другими оценками данных параметров, линейными относительно величин y i .

Именно понимание важности условий Гаусса- Маркова отличает компетентного исследователя, использующего регрессионный анализ, от некомпетентного. Если эти условия не выполнены, исследователь должен это сознавать. Если корректирующие действия возможны, то аналитик должен быть в состоянии их выполнить. Если ситуацию исправить невозможно, исследователь должен быть способен оценить, насколько серьезно это может повлиять на результаты.

2.4. Оценка существенности параметров линейной
регрессии и корреляции

После того, как найдено уравнение линейной регрессии (3), проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения регрессии в целом дается с помощью F -критерия Фишера. При этом выдвигается нулевая гипотеза о том, что коэффициент регрессии равен нулю и, следовательно, фактор х не оказывает влияния на результат y.

Перед расчетом критерия проводятся анализ дисперсии. Можно показать, что общая сумма квадратов отклонений (СКО) y от среднего значения раскладывается на две части – объясненную и необъясненную:


(Общая СКО) =

Здесь возможны два крайних случая: когда общая СКО в точности равна остаточной и когда общая СКО равна факторной.

В первом случае фактор х не оказывает влияния на результат, вся дисперсия y обусловлена воздействием прочих факторов, линия регрессии параллельна оси Ох и .

Во втором случае прочие факторы не влияют на результат, y связан с x функционально, и остаточная СКО равна нулю.

Но на практике в правой части (13) присутствуют оба слагаемых. Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации y приходится на объясненную вариацию. Если объясненная СКО будет больше остаточной СКО, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат y . Это равносильно тому, что коэффициент детерминации будет приближаться к единице.

Число степеней свободы. (df-degrees of freedom ) - это число независимо варьируемых значений признака.

Для общей СКО требуется независимых отклонений, т. к. что позволяет свободно варьировать значений, а последнее n -е отклонение определяется из общей суммы, равной нулю. Поэтому .

Факторную СКО можно выразить так:

Эта СКО зависит только от одного параметра b, поскольку выражение под знаком суммы к значениям результативного признака не относится. Следовательно, факторная СКО имеет одну степень свободы, и

Для определения воспользуемся аналогией с балансовым равенством (11). Так же, как и в равенстве (11), можно записать равенство и между числами степеней свободы:

Таким образом, можем записать . Из этого баланса определяем, что

Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений, или дисперсию на одну степень свободы:

. (15)

. (16)

. (17)

Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим F -критерий для проверки нулевой гипотезы, которая в данном случае записывается как

Если справедлива, то дисперсии не отличаются друг от друга. Для необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз.

Английским статистиком Снедекором разработаны таблицы критических значений F при разных уровнях существенности Снедекором и различных числах степеней свободы. Табличное значение F -критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы.

При нахождении табличного значения F -критерия задается уровень значимости (обычно 0,05 или 0,01) и две степени свободы – числителя (она равна единице) и знаменателя, равная

Вычисленное значение F признается достоверным (отличным от единицы), если оно больше табличного, т. е. (α;1; ). В этом случае отклоняется и делается вывод о существенности превышения D факт над D остат. , т. е. о существенности статистической связи между y и x.

Если , то вероятность выше заданного уровня (например: 0,05), и эта гипотеза не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи между y и x. Уравнение регрессии считается статистически незначимым, не отклоняется.

Величина F -критерия связана с коэффициентом детерминации.

, (19)

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров.

Стандартная ошибка коэффициента регрессии определяется по формуле:

, (20)

Остаточная дисперсия на одну степень свободы (то же, что и ).

Величина стандартной ошибки совместно с t- распределением Стьюдента при степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительных интервалов.

Величина коэффициента регрессии сравнивается с его стандартной ошибкой; определяется фактическое значение t- критерия Стьюдента

которое затем сравнивается с табличным значением при определенном уровне значимости α и числе степеней свободы . Здесь проверяется нулевая гипотеза в виде также предполагающая несущественность статистической связи между y и х , но только учитывающая значение b , а не соотношение между факторной и остаточной дисперсиями в общем балансе дисперсии результативного признака. Но общий смысл гипотез один и тот же: проверка наличия статистической связи между y и х или её отсутствия.

Если (α; ), то гипотеза должна быть отклонена, а статистическая связь y с х считается установленной. В случае (α; ) нулевая гипотеза не может быть отклонена, и влияние х на y признается несущественным.

Существует связь между и F :

Отсюда следует, что

Доверительный интервал для b определяется как

где – рассчитанное (оцененное) по МНК значение коэффициента регрессии.

Стандартная ошибка параметра определяется по формуле:

Процедура оценивания существенности a не отличается от таковой для параметра b . При этом фактическое значение t -критерия вычисляется по формуле:

Процедура проверки значимости линейного коэффициента корреляции отличается от процедур, приведенных выше. Это объясняется тем, что r как случайная величина распределена по нормальному закону лишь при большом числе наблюдений и малых значениях |r |. В этом случае гипотеза об отсутствии корреляционной связи между y и х проверяется на основе статистики

, (26)

которая при справедливости приблизительно распределена по закону Стьюдента с () степенями свободы. Если , то гипотеза отвергается с вероятностью ошибиться, не превышающей α . Из (19) видно, что в парной линейной регрессии . Кроме того, , поэтому . Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Но при малых выборках и значениях r , близких к , следует учитывать, что распределение r как случайной величины отличается от нормального, и построение доверительных интервалов для r не может быть выполнено стандартным способом. В этом случае вообще легко прийти к противоречию, заключающемуся в том, что доверительный интервал будет содержать значения, превышающие единицу.

Чтобы обойти это затруднение, используется так называемое
z -преобразование Фишера:

, (27)

которое дает нормально распределенную величину z , значения которой при изменении r от –1 до +1 изменяются от -∞ до +∞. Стандартная ошибка этой величины равна:

. (28)

Для величины z имеются таблицы, в которых приведены её значения для соответствующих значений r .

Для z выдвигается нуль-гипотеза , состоящая в том, что корреляция отсутствует. В этом случае значения статистики

которая распределена по закону Стьюдента с () степенями свободы, не превышает табличного на соответствующем уровне значимости.

Для каждого значения z можно вычислить критические значения r . Таблицы критических значений r разработаны для уровней значимости 0,05 и 0,01 и соответствующего числа степеней свободы. Если вычисленное значение r превышает по абсолютной величине табличное, то данное значение r считается существенным. В противном случае фактическое значение несущественно.

2.5. Нелинейные модели регрессии
и их линеаризация

До сих пор мы рассматривали лишь линейную модель регрессионной зависимости y от x (3). В то же время многие важные связи в экономике являются нелинейными . Примерами такого рода регрессионных моделей являются производственные функции (зависимости между объемом произведенной продукции и основными факторами производства – трудом, капиталом и т. п.) и функции спроса (зависимости между спросом на какой-либо вид товаров или услуг, с одной стороны, и доходом и ценами на этот и другие товары – с другой).

При анализе нелинейных регрессионных зависимостей наиболее важным вопросом применения классического МНК является способ их линеаризации. В случае линеаризации нелинейной зависимости получаем линейное регрессионное уравнение типа (3), параметры которого оцениваются обычным МНК, после чего можно записать исходное нелинейное соотношение.

Несколько особняком в этом смысле стоит полиномиальная модель произвольной степени:

к которой обычный МНК можно применять без всякой предварительной линеаризации.

Рассмотрим указанную процедуру применительно к параболе второй степени:

. (31)

Такая зависимость целесообразна в случае, если для некоторого интервала значений фактора возрастающая зависимость меняется на убывающую или наоборот. В этом случае можно определить значение фактора, при котором достигается максимальное или минимальное значение результативного признака. Если исходные данные не обнаруживают изменение направленности связи, параметры параболы становятся трудно интерпретируемыми, и форму связи лучше заменить другими нелинейными моделями.

Применение МНК для оценки параметров параболы второй степени сводится к дифференцированию суммы квадратов остатков регрессии по каждому из оцениваемых параметров и приравниванию полученных выражений нулю. Получается система нормальных уравнений, число которых равно числу оцениваемых параметров, т. е. трем:

(32)

Решать эту систему можно любым способом, в частности, методом определителей.

Экстремальное значение функции наблюдается при значении фактора, равном:

Если , то имеет место максимум, т. е. зависимость сначала растет, а затем падает. Такого рода зависимости наблюдаются в экономике труда при изучении заработной платы работников физического труда, когда в роли фактора выступает возраст. При парабола имеет минимум, что обычно проявляется в удельных затратах на производство в зависимости от объема выпускаемой продукции.

В нелинейных зависимостях, неявляющихся классическими полиномами, обязательно проводится предварительная линеаризация, которая заключается в преобразовании или переменных, или параметров модели, или в комбинации этих преобразований. Рассмотрим некоторые классы таких зависимостей.

Зависимости гиперболического типа имеют вид:

. (33)

Примером такой зависимости является кривая Филлипса , констатирующая обратную зависимость процента прироста заработной платы от уровня безработицы. В этом случае значение параметра b будет больше нуля.

Другим примером зависимости (33) являются кривые Энгеля , формулирующие следующую закономерность: с ростом дохода доля доходов, расходуемых на продовольствие, уменьшается, а доля доходов, расходуемых на непродовольственные товары, будет возрастать. В этом случае а результативный признак в (33) показывает долю расходов на непродовольственные товары.

Линеаризация уравнения (33) сводится к замене фактора , и уравнение регрессии имеет вид (3), в котором вместо фактора х используем фактор z :

К такому же линейному уравнению сводится полулогарифмическая кривая:

, (35)

которая может быть использована для описания кривых Энгеля. Здесь ln(x ) заменяется на z и получается уравнение (34).

Достаточно широкий класс экономических показателей характеризуется приблизительно постоянным темпом относительного прироста во времени. Этому соответствуют зависимости показательного (экспоненциального) типа, которые записываются в виде:

или в виде

. (37)

Возможна и такая зависимость:

. (38)

В регрессиях типа (36) – (38) применяется один и тот же способ линеаризации – логарифмирование. Уравнение (36) приводится к виду:

. (39)

Замена переменной сводит его к линейному виду:

, (40)

где . Если Е удовлетворяет условиям Гаусса-Маркова, параметры уравнения (36) оцениваются по МНК из уравнения (40). Уравнение (37) приводится к виду:

который отличается от (39) только видом свободного члена, и линейное уравнение выглядит так:

, (42)

где . Параметры А и b получаются обычным МНК, затем параметр a в зависимости (37) получается как антилогарифм А . При логарифмировании (38) получаем линейную зависимость:

, (43)

где , а остальные обозначения те же, что и выше. Здесь также применяется МНК к преобразованным данным, а параметр b для (38) получается как антилогарифм коэффициента В .

Широко распространены в практике социально-экономических исследований степенные зависимости. Они используются для построения и анализа производственных функций. В функциях вида:

особенно ценным является то обстоятельство, что параметр b равен коэффициенту эластичности результативного признака по фактору х . Преобразуя (44) путем логарифмирования, получаем линейную регрессию:

, (45)

Еще одним видом нелинейности, приводимым к линейному виду, является обратная зависимость:

. (46)

Проводя замену , получим.

Во время учебы студенты очень часто сталкиваются с разнообразными уравнениями. Одно из них - уравнение регрессии - рассмотрено в данной статье. Такой тип уравнения применяется специально для описания характеристики связи между математическими параметрами. Данный вид равенств используют в статистике и эконометрике.

Определение понятия регрессии

В математике под регрессией подразумевается некая величина, описывающая зависимость среднего значения совокупности данных от значений другой величины. Уравнение регрессии показывает в качестве функции определенного признака среднее значение другого признака. Функция регрессии имеет вид простого уравнения у = х, в котором у выступает зависимой переменной, а х - независимой (признак-фактор). Фактически регрессия выражаться как у = f (x).

Какие бывают типы связей между переменными

В общем, выделяется два противоположных типа взаимосвязи: корреляционная и регрессионная.

Первая характеризуется равноправностью условных переменных. В данном случае достоверно не известно, какая переменная зависит от другой.

Если же между переменными не наблюдается равноправности и в условиях сказано, какая переменная объясняющая, а какая - зависимая, то можно говорить о наличии связи второго типа. Для того чтобы построить уравнение линейной регрессии, необходимо будет выяснить, какой тип связи наблюдается.

Виды регрессий

На сегодняшний день выделяют 7 разнообразных видов регрессии: гиперболическая, линейная, множественная, нелинейная, парная, обратная, логарифмически линейная.

Гиперболическая, линейная и логарифмическая

Уравнение линейной регрессии применяют в статистике для четкого объяснения параметров уравнения. Оно выглядит как у = с+т*х+Е. Гиперболическое уравнение имеет вид правильной гиперболы у = с + т / х + Е. Логарифмически линейное уравнение выражает взаимосвязь с помощью логарифмической функции: In у = In с + т* In x + In E.

Множественная и нелинейная

Два более сложных вида регрессии - это множественная и нелинейная. Уравнение множественной регрессии выражается функцией у = f(х 1 , х 2 ...х с)+E. В данной ситуации у выступает зависимой переменной, а х - объясняющей. Переменная Е - стохастическая, она включает влияние других факторов в уравнении. Нелинейное уравнение регрессии немного противоречиво. С одной стороны, относительно учтенных показателей оно не линейное, а с другой стороны, в роли оценки показателей оно линейное.

Обратные и парные виды регрессий

Обратная - это такой вид функции, который необходимо преобразовать в линейный вид. В самых традиционных прикладных программах она имеет вид функции у = 1/с + т*х+Е. Парное уравнение регрессии демонстрирует взаимосвязь между данными в качестве функции у = f (x) + Е. Точно так же, как и в других уравнениях, у зависит от х, а Е - стохастический параметр.

Понятие корреляции

Это показатель, демонстрирующий существование взаимосвязи двух явлений или процессов. Сила взаимосвязи выражается в качестве коэффициента корреляции. Его значение колеблется в рамках интервала [-1;+1]. Отрицательный показатель говорит о наличии обратной связи, положительный - о прямой. Если коэффициент принимает значение, равное 0, то взаимосвязи нет. Чем ближе значение к 1 - тем сильнее связь между параметрами, чем ближе к 0 - тем слабее.

Методы

Корреляционные параметрические методы могут оценить тесноту взаимосвязи. Их используют на базе оценки распределения для изучения параметров, подчиняющихся закону нормального распределения.

Параметры уравнения линейной регрессии необходимы для идентификации вида зависимости, функции регрессионного уравнения и оценивания показателей избранной формулы взаимосвязи. В качестве метода идентификации связи используется поле корреляции. Для этого все существующие данные необходимо изобразить графически. В прямоугольной двухмерной системе координат необходимо нанести все известные данные. Так образуется поле корреляции. Значение описывающего фактора отмечаются вдоль оси абсцисс, в то время как значения зависимого - вдоль оси ординат. Если между параметрами есть функциональная зависимость, они выстраиваются в форме линии.

В случае если коэффициент корреляции таких данных будет менее 30 %, можно говорить о практически полном отсутствии связи. Если он находится между 30 % и 70 %, то это говорит о наличии связей средней тесноты. 100 % показатель - свидетельство функциональной связи.

Нелинейное уравнение регрессии так же, как и линейное, необходимо дополнять индексом корреляции (R).

Корреляция для множественной регрессии

Коэффициент детерминации является показателем квадрата множественной корреляции. Он говорит о тесноте взаимосвязи представленного комплекса показателей с исследуемым признаком. Он также может говорить о характере влияния параметров на результат. Уравнение множественной регрессии оценивают с помощью этого показателя.

Для того чтобы вычислить показатель множественной корреляции, необходимо рассчитать его индекс.

Метод наименьших квадратов

Данный метод является способом оценивания факторов регрессии. Его суть заключается в минимизировании суммы отклонений в квадрате, полученных вследствие зависимости фактора от функции.

Парное линейное уравнение регрессии можно оценить с помощью такого метода. Этот тип уравнений используют в случае обнаружения между показателями парной линейной зависимости.

Параметры уравнений

Каждый параметр функции линейной регрессии несет определенный смысл. Парное линейное уравнение регрессии содержит два параметра: с и т. Параметр т демонстрирует среднее изменение конечного показателя функции у, при условии уменьшения (увеличения) переменной х на одну условную единицу. Если переменная х - нулевая, то функция равняется параметру с. Если же переменная х не нулевая, то фактор с не несет в себе экономический смысл. Единственное влияние на функцию оказывает знак перед фактором с. Если там минус, то можно сказать о замедленном изменении результата по сравнению с фактором. Если там плюс, то это свидетельствует об ускоренном изменении результата.

Каждый параметр, изменяющий значение уравнения регрессии, можно выразить через уравнение. Например, фактор с имеет вид с = y - тх.

Сгруппированные данные

Бывают такие условия задачи, в которых вся информация группируется по признаку x, но при этом для определенной группы указываются соответствующие средние значения зависимого показателя. В таком случае средние значения характеризуют, каким образом изменяется показатель, зависящий от х. Таким образом, сгруппированная информация помогает найти уравнение регрессии. Ее используют в качестве анализа взаимосвязей. Однако у такого метода есть свои недостатки. К сожалению, средние показатели достаточно часто подвергаются внешним колебаниям. Данные колебания не являются отображением закономерности взаимосвязи, они всего лишь маскируют ее «шум». Средние показатели демонстрируют закономерности взаимосвязи намного хуже, чем уравнение линейной регрессии. Однако их можно применять в виде базы для поиска уравнения. Перемножая численность отдельной совокупности на соответствующую среднюю можно получить сумму у в пределах группы. Далее необходимо подбить все полученные суммы и найти конечный показатель у. Чуть сложнее производить расчеты с показателем суммы ху. В том случае если интервалы малы, можно условно взять показатель х для всех единиц (в пределах группы) одинаковым. Следует перемножить его с суммой у, чтобы узнать сумму произведений x на у. Далее все суммы подбиваются вместе и получается общая сумма ху.

Множественное парное уравнение регрессии: оценка важности связи

Как рассматривалось ранее, множественная регрессия имеет функцию вида у = f (x 1 ,x 2 ,…,x m)+E. Чаще всего такое уравнение используют для решения проблемы спроса и предложения на товар, процентного дохода по выкупленным акциям, изучения причин и вида функции издержек производства. Ее также активно применяют в самых разнообразным макроэкономических исследованиях и расчетах, а вот на уровне микроэкономики такое уравнение применяют немного реже.

Основной задачей множественной регрессии является построение модели данных, содержащих огромное количество информации, для того чтобы в дальнейшем определить, какое влияние имеет каждый из факторов по отдельности и в их общей совокупности на показатель, который необходимо смоделировать, и его коэффициенты. Уравнение регрессии может принимать самые разнообразные значения. При этом для оценки взаимосвязи обычно используется два типа функций: линейная и нелинейная.

Линейная функция изображается в форме такой взаимосвязи: у = а 0 + a 1 х 1 + а 2 х 2 ,+ ... + a m x m . При этом а2, a m , считаются коэффициентами «чистой» регрессии. Они необходимы для характеристики среднего изменения параметра у с изменением (уменьшением или увеличением) каждого соответствующего параметра х на одну единицу, с условием стабильного значения других показателей.

Нелинейные уравнения имеют, к примеру, вид степенной функции у=ах 1 b1 х 2 b2 ...x m bm . В данном случае показатели b 1 , b 2 ..... b m - называются коэффициентами эластичности, они демонстрируют, каким образом изменится результат (на сколько %) при увеличении (уменьшении) соответствующего показателя х на 1 % и при стабильном показателе остальных факторов.

Какие факторы необходимо учитывать при построении множественной регрессии

Для того чтобы правильно построить множественную регрессию, необходимо выяснить, на какие именно факторы следует обратить особое внимание.

Необходимо иметь определенное понимание природы взаимосвязей между экономическими факторами и моделируемым. Факторы, которые необходимо будет включать, обязаны отвечать следующим признакам:

  • Должны быть подвластны количественному измерению. Для того чтобы использовать фактор, описывающий качество предмета, в любом случае следует придать ему количественную форму.
  • Не должна присутствовать интеркорреляция факторов, или функциональная взаимосвязь. Такие действия чаще всего приводят к необратимым последствиям - система обыкновенных уравнений становится не обусловленной, а это влечет за собой ее ненадежность и нечеткость оценок.
  • В случае существования огромного показателя корреляции не существует способа для выяснения изолированного влияния факторов на окончательный результат показателя, следовательно, коэффициенты становятся неинтерпретируемыми.

Методы построения

Существует огромное количество методов и способов, объясняющих, каким образом можно выбрать факторы для уравнения. Однако все эти методы строятся на отборе коэффициентов с помощью показателя корреляции. Среди них выделяют:

  • Способ исключения.
  • Способ включения.
  • Пошаговый анализ регрессии.

Первый метод подразумевает отсев всех коэффициентов из совокупного набора. Второй метод включает введение множества дополнительных факторов. Ну а третий - отсев факторов, которые были ранее применены для уравнения. Каждый из этих методов имеет право на существование. У них есть свои плюсы и минусы, но они все по-своему могут решить вопрос отсева ненужных показателей. Как правило, результаты, полученные каждым отдельным методом, достаточно близки.

Методы многомерного анализа

Такие способы определения факторов базируются на рассмотрении отдельных сочетаний взаимосвязанных признаков. Они включают в себя дискриминантный анализ, распознание обликов, способ главных компонент и анализ кластеров. Кроме того, существует также факторный анализ, однако он появился вследствие развития способа компонент. Все они применяются в определенных обстоятельствах, при наличии определенных условий и факторов.

Парная линейная регрессия

ПРАКТИКУМ

Парная линейная регрессия: Практикум. –

Изучение эконометрики предполагает приобретение студентами опыта построения эконометрических моделей, принятия решений о спецификации и идентификации модели, выбора метода оценки параметров модели, оценки ее качества, интерпретации результатов, получения прогнозных оценок и пр. Практикум поможет студентам приобрести практические навыки в этих вопросах.

Утверждено редакционно-издательским советом

Составитель: М.Б. Перова, д.э.н., профессор

Общие положения

Эконометрическое исследование начинается с теории, устанавливающей связь между явлениями. Из всего круга факторов, влияющих на результативный признак, выделяются наиболее существенные факторы. После того, как было выявлено наличие взаимосвязи между изучаемыми признаками, определяется точный вид этой зависимости с помощью регрессионного анализа.

Регрессионный анализ заключается в определении аналитического выражения (в определении функции), в котором изменение одной величины (результативного признака) обусловлено влиянием независимой величины (факторного признака). Количественно оценить данную взаимосвязь можно с помощью построения уравнения регрессии или регрессионной функции.

Базисной регрессионной моделью является модель парной (однофакторной) регрессии. Парная регрессия – уравнение связи двух переменных у и х :

где – зависимая переменная (результативный признак);

–независимая, объясняющая переменная (факторный признак).

В зависимости от характера изменения у с изменением х различают линейные и нелинейные регрессии.

Линейная регрессия

Данная регрессионная функция называется полиномом первой степени и используется для описания равномерно развивающихся во времени процессов.

Наличие случайного члена (ошибки регрессии) связано с воздействием на зависимую переменную других неучтенных в уравнении факторов, с возможной нелинейностью модели, ошибками измерения, следовательно, появлениеслучайной ошибки уравнения регрессии может быть обусловлено следующими объективными причинами :

1) нерепрезентативность выборки. В модель парной регрессии включается фактор, не способный полностью объяснить вариацию результативного признака, который может быть подвержен влиянию многих других факторов (пропущенных переменных) в гораздо большей степени. Наприем, заработная плата может зависеть, кроме квалификации, от уровня образования, стажа работы, пола и пр.;

2) существует вероятность того, что переменные, участвующие в модели, могут быть измерены с ошибкой. Например, данные по расходам семьи на питание составляются на основании записей участников опросов, которые, как предполагается, тщательно фиксируют свои ежедневные расходы. Разумеется, при этом возможны ошибки.

На основе выборочного наблюдения оценивается выборочное уравнение регрессии (линия регрессии ):

,

где
– оценки параметров уравнения регрессии (
).

Аналитическая форма зависимости между изучаемой парой признаков (регрессионная функция) определяется с помощью следующих методов :

    На основе теоретического и логического анализа природы изучаемых явлений, их социально-экономической сущности. Например, если изучается зависимость между доходами населения и размером вкладов населения в банки, то очевидно, что связь прямая.

    Графический метод , когда характер связи оценивается визуально.

Эту зависимость можно наглядно увидеть, если построить график, отложив на оси абсцисс значения признака х , а на оси ординат – значения признака у . Нанеся на график точки, соответствующие значениям х и у , получим корреляционное поле :

а) если точки беспорядочно разбросаны по всему полю – это говорит об отсутствии зависимости между этими признаками;

б) если точки концентрируются вокруг оси, идущей от нижнего левого угла в верхний правый – то имеется прямая зависимость между признаками;

в) если точки концентрируются вокруг оси, идущей от верхнего левого угла в нижний правый – то обратная зависимость между признаками.

Если на корреляционном поле соединим точки отрезками прямой, то получим ломаную линию с некоторой тенденцией к росту. Это будет эмпирическая линия связи или эмпирическая линия регрессии . По ее виду можно судить не только о наличии, но и о форме зависимости между изучаемыми признаками.

Построение уравнения парной регрессии

Построение уравнения регрессии сводится к оценке ее параметров. Эти оценки параметров могут быть найдены различными способами. Одним их них является метод наименьших квадратов (МНК). Суть метода состоит в следующем. Каждому значению соответствует эмпирическое (наблюдаемое) значение. Построив уравнение регрессии, например уравнение прямой линии, каждому значениюбудет соответствовать теоретическое (расчетное) значение. Наблюдаемые значенияне лежат в точности на линии регрессии, т.е. не совпадают с. Разность между фактическим и расчетным значениями зависимой переменной называетсяостатком :

МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических , т.е. сумма квадратов остатков, минимальна:

Для линейных уравнений и нелинейных, приводимых к линейным, решается следующая система относительно а и b :

где n – численность выборки.

Решив систему уравнений, получим значения а и b , что позволяет записать уравнение регрессии (регрессионное уравнение):

где – объясняющая (независимая) переменная;

–объясняемая (зависимая) переменная;

Линия регрессии проходит через точку (,) и выполняются равенства:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы уравнений:

где – среднее значение зависимого признака;

–среднее значение независимого признака;

–среднее арифметическое значение произведения зависимого и независимого признаков;

–дисперсия независимого признака;

–ковариация между зависимым и независимым признаками.

Выборочной ковариацией двух переменных х , у называется средняя величина произведения отклонений этих переменных от своих средних

Параметр b при х имеет большое практическое значение и носит название коэффициента регрессии. Коэффициент регрессии показывает, на сколько единиц в среднем изменяется величина у х на 1 единицу своего измерения.

Знак параметра b в уравнении парной регрессии указывает на направление связи:

если
, то связь между изучаемыми показателями прямая, т.е. с увеличением факторного признаках увеличивается и результативный признак у , и наоборот;

если
, то связь между изучаемыми показателями обратная, т.е. с увеличением факторного признаках результативный признак у уменьшается, и наоборот.

Значение параметра а в уравнении парной регрессии в ряде случаев можно трактовать как начальное значение результативного признака у . Такая трактовка параметра а возможна только в том случае, если значение
имеет смысл.

После построения уравнения регрессии, наблюдаемые значения y можно представить как:

Остатки , как и ошибки, являются случайными величинами, однако они, в отличие от ошибок, наблюдаемы. Остаток есть та часть зависимой переменнойy , которую невозможно объяснить с помощью уравнения регрессии.

На основании уравнения регрессии могут быть вычислены теоретические значения у х для любых значений х .

В экономическом анализе часто используется понятие эластичности функции. Эластичность функции
рассчитывается как относительное изменениеy к относительному изменению x . Эластичность показывает, на сколько процентов изменяется функция
при изменении независимой переменной на 1%.

Поскольку эластичность линейной функции
не является постоянной величиной, а зависит отх , то обычно рассчитывается коэффициент эластичности как средний показатель эластичности.

Коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится величина результативного признака у при изменении факторного признака х на 1% от своего среднего значения:

где
– средние значения переменныхх и у в выборке.

Оценка качества построенной модели регрессии

Качество модели регрессии – адекватность построенной модели исходным (наблюдаемым) данным.

Чтобы измерить тесноту связи, т.е. измерить, насколько она близка к функциональной, нужно определить дисперсию, измеряющую отклонения у от у х и характеризующую остаточную вариацию, обусловленную прочими факторами. Они лежат в основе показателей, характеризующих качество модели регрессии.

Качество парной регрессии определяется с помощью коэффициентов, характеризующих

1) тесноту связи – индекса корреляции, парного линейного коэффициента корреляции;

2) ошибку аппроксимации;

3) качество уравнения регрессии и отдельных его параметров – средние квадратические ошибки уравнения регрессии в целом и отдельных его параметров.

Для уравнений регрессии любого вида определяется индекс корреляции , который характеризует только тесноту корреляционной зависимости, т.е. степень ее приближения к функциональной связи:

,

где – факторная (теоретическая) дисперсия;

–общая дисперсия.

Индекс корреляции принимает значения
, при этом,

если

если
– то связь между признакамих и у является функциональной, Чем ближе к 1, тем более тесной считается связь между изучаемыми признаками. Если
, то связь можно считать тесной

Дисперсии, необходимые для вычисления показателей тесноты связи вычисляются:

Общая дисперсия , измеряющая общую вариацию за счет действия всех факторов:

Факторная (теоретическая) дисперсия, измеряющая вариацию результативного признака у за счет действия факторного признака х :

Остаточная дисперсия , характеризующая вариацию признака у за счет всех факторов, кроме х (т.е. при исключенном х ):

Тогда по правилу сложения дисперсий:

Качество парной линейной регрессии может быть определено также с помощью парного линейного коэффициента корреляции :

,

где
– ковариация переменныхх и у ;

–среднеквадратическое отклонение независимого признака;

–среднеквадратическое отклонение зависимого признака.

Линейный коэффициент корреляции характеризует тесноту и направление связи между изучаемыми признаками. Он измеряется в пределах [-1; +1]:

если
– то связь между признаками прямая;

если
– то связь между признаками обратная;

если
– то связь между признаками отсутствует;

если
или
– то связь между признаками является функциональной, т.е. характеризуется полным соответствием междух и у . Чем ближе к 1, тем более тесной считается связь между изучаемыми признаками.

Если индекс корреляции (парный линейный коэффициент корреляции) возвести в квадрат, то получим коэффициент детерминации.

Коэффициент детерминации – представляет собой долю факторной дисперсии в общей и показывает, на сколько процентов вариация результативного признака у объясняется вариацией факторного признака х :

Он характеризует не всю вариацию у от факторного признака х , а лишь ту ее часть, которая соответствует линейному уравнению регрессии, т.е. показывает удельный вес вариации результативного признака, линейно связанной с вариацией факторного признака.

Величина
– доля вариации результативного признака, которую модель регрессии учесть не смогла.

Рассеяние точек корреляционного поля может быть очень велико, и вычисленное уравнение регрессии может давать большую погрешность в оценке анализируемого показателя.

Средняя ошибка аппроксимации показывает среднее отклонение расчетных значений от фактических:

Максимально допустимое значение 12–15%.

Мерой разброса зависимой переменной вокруг линии регрессии служит стандартная ошибка.Для всей совокупности наблюдаемых значений рассчитывается стандартная (среднеквадратическая) ошибка уравнения регрессии , которая представляет собой среднее квадратическое отклонение фактических значений у относительно теоретических значений, рассчитанных по уравнению регрессии у х .

,

где
– число степеней свободы;

m – число параметров уравнения регрессии (для уравнения прямой m =2).

Оценить величину средней квадратической ошибки можно сопоставив ее

а) со средним значение результативного признака у ;

б) со средним квадратическим отклонением признака у :

если
, то использование данного уравнения регрессии является целесообразным.

Отдельно оцениваются стандартные (среднеквадратические) ошибки параметров уравнения и индекса корреляции :

;
;
.

х – среднее квадратическое отклонение х .

Проверка значимости уравнения регрессии и показателей тесноты связи

Чтобы построенную модель можно было использовать для дальнейших экономических расчетов, проверки качества построенной модели недостаточно. Необходимо также проверить значимость (существенность) полученных с помощью метода наименьших квадратов оценок уравнения регрессии и показателя тесноты связи, т.е. необходимо проверить их на соответствие истинным параметрам взаимосвязи.

Это связано с тем, что исчисленные по ограниченной совокупности показатели сохраняют элемент случайности, свойственный индивидуальным значениям признака. Поэтому они являются лишь оценками определенной статистической закономерности. Необходима оценка степени точности и значимости (надежности, существенности) параметров регрессии. Под значимостью понимают вероятность того, что значение проверяемого параметра не равно нулю, не включает в себя величины противоположных знаков.

Проверка значимости – проверка предположения того, что параметры отличаются от нуля.

Оценка значимости парного уравнения регрессии сводится к проверке гипотез о значимости уравнения регрессии в целом и отдельных его параметров (a , b ), парного коэффициента детерминации или индекса корреляции.

В этом случае могут быть выдвинуты следующие основные гипотезы H 0 :

1)
– коэффициенты регрессии являются незначимыми и уравнение регрессии также является незначимым;

2)
– парный коэффициент детерминации незначим и уравнение регрессии также является незначимым.

Альтернативной (или обратной) выступают следующие гипотезы:

1)
– коэффициенты регрессии значимо отличаются от нуля, и построенное уравнение регрессии является значимым;

2)
– парный коэффициент детерминации значимо отличаются от нуля и построенное уравнение регрессии является значимым.

Проверка гипотезы о значимости уравнения парной регрессии

Для проверки гипотезы о статистической незначимости уравнения регрессии в целом и коэффициента детерминации используется F -критерий (критерий Фишера ):

или

где k 1 = m –1 ; k 2 = n m – число степеней свободы;

n – число единиц совокупности;

m – число параметров уравнения регрессии;

–факторная дисперсия;

–остаточная дисперсия.

Гипотеза проверяется следующим образом:

1) если фактическое (наблюдаемое) значение F -критерия больше критического (табличного) значения данного критерия
, то с вероятностью
основная гипотеза о незначимости уравнения регрессии или парного коэффициента детерминации отвергается, и уравнение регрессии признается значимым;

2) если фактическое (наблюдаемое) значение F-критерия меньше критического значения данного критерия
, то с вероятностью (
) основная гипотеза о незначимости уравнения регрессии или парного коэффициента детерминации принимается, и построенное уравнение регрессии признается незначимым.

Критическое значение F -критерия находится по соответствующим таблицам в зависимости от уровня значимости и числа степеней свободы
.

Число степеней свободы – показатель, который определяется как разность между объемом выборки (n ) и числом оцениваемых параметров по данной выборке (m ). Для модели парной регрессии число степеней свободы рассчитывается как
, так как по выборке оцениваются два параметра (
).

Уровень значимости – величина, определяемая
,

где – доверительная вероятность попадания оцениваемого параметра в доверительный интервал. Обычно принимается 0,95. Таким образом– это вероятность того, что оцениваемый параметр не попадет в доверительный интервал, равная 0,05 (5%) .

Тогда в случае оценки значимости уравнения парной регрессии критическое значение F-критерия вычисляется как
:

.

Проверка гипотезы о значимости параметров уравнения парной регрессии и индекса корреляции

При проверке значимости параметров уравнения (предположения того, что параметры отличаются от нуля) выдвигается основная гипотеза о незначимости полученных оценок (
. В качестве альтернативной (обратной) выдвигается гипотеза о значимости параметров уравнения (
).

Для проверки выдвинутых гипотез используется t -критерий (t -статистика) Стьюдента . Наблюдаемое значение t -критерия сравнивается со значением t -критерия, определяемого по таблице распределения Стьюдента (критическим значением). Критическое значение t -критерия
зависит от двух параметров: уровня значимостии числа степеней свободы
.

Выдвинутые гипотезы проверяются следующим образом:

1) если модуль наблюдаемого значения t -критерия больше критического значения t -критерия, т.е.
, то с вероятностью
основную гипотезу о незначимости параметров регрессии отвергают, т.е. параметры регрессии не равны 0;

2) если модуль наблюдаемого значения t -критерия меньше или равен критическому значению t -критерия, т.е.
, то с вероятностью
основная гипотеза о незначимости параметров регрессии принимается, т.е. параметры регрессии почти не отличаются от 0 или равны 0.

Оценка значимости коэффициентов регрессии с помощью критерия Стьюдента проводится путем сопоставления их оценок с величиной стандартной ошибки:

;

Для оценки статистической значимости индекса (линейного коэффициента) корреляции применяется также t -критерий Стьюдента.

Министерство образования и науки РФ

Федеральное агентство по образованию

Государственное образовательное учреждение высшего профессионального образования

Всероссийский заочный финансово-экономический институт

Филиал в г. Туле

Контрольная работа

по дисциплине «Эконометрика»

Тула - 2010 г.

Задача 2 (а, б)

По предприятиям легкой промышленности получена информация, характеризующая зависимость объема выпуска продукции (Y, млн. руб.) от объема капиталовложений (Х, млн. руб.) табл. 1.

Х 33 17 23 17 36 25 39 20 13 12
Y 43 27 32 29 45 35 47 32 22 24

Требуется:

1. Найти параметры уравнения линейной регрессии, дать экономическую интерпретацию коэффициента регрессии.

2. Вычислить остатки; найти остаточную сумму квадратов; оценить дисперсию остатков

; построить график остатков.

3. Проверить выполнение предпосылок МНК.

4. Осуществить проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента (α=0,05).

5. Вычислить коэффициент детерминации, проверить значимость уравнения регрессии с помощью F-критерия Фишера (α=0,05), найти среднюю относительную ошибку аппроксимации. Сделать вывод о качестве модели.

6. Осуществить прогнозирование среднего значения показателя Y при уровне значимости α=0,1, если прогнозное значение фактора Х составит 80% от его максимального значения.

7. Представить графически: фактические и модельные значения Y, точки прогноза.

8. Составить уравнения нелинейной регрессии:

гиперболической;

степенной;

показательной.

Привести графики построенных уравнений регрессии.

9. Для указанных моделей найти коэффициенты детерминации и средние относительные ошибки аппроксимации. Сравнить модели по этим характеристикам и сделать вывод.

1. Линейная модель имеет вид:

Параметры уравнения линейной регрессии найдем по формулам

Расчет значения параметров представлен в табл. 2.

t y x yx
1 43 33 1419 1089 42,236 0,764 0,584 90,25 88,36 0,018
2 27 17 459 289 27,692 -0,692 0,479 42,25 43,56 0,026
3 32 23 736 529 33,146 -1,146 1,313 0,25 2,56 0,036
4 29 17 493 289 27,692 1,308 1,711 42,25 21,16 0,045
5 45 36 1620 1296 44,963 0,037 0,001 156,25 129,96 0,001
6 35 25 875 625 34,964 0,036 0,001 2,25 1,96 0,001
7 47 39 1833 1521 47,69 -0,69 0,476 240,25 179,56 0,015
8 32 20 640 400 30,419 1,581 2,500 12,25 2,56 0,049
9 22 13 286 169 24,056 -2,056 4,227 110,25 134,56 0,093
10 24 12 288 144 23,147 0,853 0,728 132,25 92,16 0,036
336 235 8649 6351 12,020 828,5 696,4 0,32
Средн. 33,6 23,5 864,9 635,1

Определим параметры линейной модели

Линейная модель имеет вид

Коэффициент регрессии

показывает, что выпуск продукции Y возрастает в среднем на 0,909 млн. руб. при увеличении объема капиталовложений Х на 1 млн. руб.

2. Вычислим остатки

, остаточную сумму квадратов , найдем остаточную дисперсию по формуле:

Расчеты представлены в табл. 2.


Рис. 1. График остатков ε.

3. Проверим выполнение предпосылок МНК на основе критерия Дарбина-Уотсона.

0,584
2,120 0,479
0,206 1,313
6,022 1,711
1,615 0,001
0,000 0,001
0,527 0,476
5,157 2,500
13,228 4,227
2,462 0,728
31,337 12,020

d1=0,88; d2=1,32 для α=0,05, n=10, k=1.

,

значит, ряд остатков не коррелирован.

4. Осуществим проверку значимости параметров уравнения на основе t-критерия Стьюдента. (α=0,05).

для ν=8; α=0,05.

Расчет значения

произведен в табл. 2. Получим:
, то можно сделать вывод, что коэффициенты регрессии a и b с вероятностью 0,95 значимы.

5. Найдем коэффициент корреляции по формуле

Расчеты произведем в табл. 2.

. Т.о. связь между объемом капиталовложений Х и выпуском продукции Y можно считать тесной, т.к. .

Коэффициент детерминации найдем по формуле