Парная регрессия характеризует связь между двумя признаками: результативным и факторным. Важным и нетривиальным этапом построения регрессионной модели является выбор уравнения регрессии. Этот выбор основывается на теоретических данных об изучаемом явлении и предварительном анализе имеющихся статистических данных.

Уравнение парной линейной регрессии имеет вид:

где - теоретические значения результативного признака, полученные по уравнению регрессии; - коэффициенты (параметры) уравнения регрессии.

Модель регрессии строится на основании статистических данных, причем могут использоваться как индивидуальные значения признака, так и сгруппированные данные. Для выявления связи между признаками по достаточно большому числу наблюдений статистические данные предварительно группируют по обоим признакам и строят корреляционную таблицу. При помощи корреляционной таблицы отображается только парная корреляционная связь, т.е. связь результативного признака с одним фактором. Оценка параметров уравнения регрессии осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности и требование минимальности суммы квадратов отклонений эмпирических данных от выровненных значений результативного фактора :

.

Для линейного уравнения регрессии имеем:

Для нахождения минимума данной функции приравняем к нулю ее частные производные и получим систему двух линейных уравнений, которая называется системой нормальных уравнений:

где - объем исследуемой совокупности (число единиц наблюдения).

Решение системы нормальных уравнений позволяет найти параметры уравнения регрессии .

Коэффициент парной линейной регрессии является средним значением в точке , поэтому его экономическая интерпретация затруднена. Смысл этого коэффициента можно трактовать как усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов. Коэффициент показывает, на сколько в среднем изменяется значение результативного признака при изменении факторного признака на единицу.

После получения уравнения регрессии необходимо проверить его адекватность, то есть соответствие фактическим статистическим данным. С этой целью производится проверка значимости коэффициентов регрессии: выясняется, насколько эти показатели характерны для всей генеральной совокупности, не являются ли они результатом случайного стечения обстоятельств.

Для проверки значимости коэффициентов простой линейной регрессии при объеме совокупности меньше 30 единиц используется критерий Стьюдента. Сопоставляя значение параметра с его средней ошибкой, определяют величину критерия:


где - средняя ошибка параметра .

Средняя ошибка параметров и рассчитываются по следующим формулам:

; ,

– объем выборки;

Среднеквадратическое отклонение результативного признака от выровненных значений ;

Среднеквадратическое отклонение факторного признака от общей средней :

или

Тогда расчетные (фактические) значения критерия соответственно равны:

- для параметра ;

- для параметра .

Вычисленные значения критерия сравниваются с критическими значениями , которые определяют по таблице Стьюдента с учетом принятого уровня значимости и числа степеней свободы , где - объем выборки, -1 ( - число факторных признаков). В социально-экономических исследованиях уровень значимости обычно принимают 0.05 или 0.01. Параметр признается значимым, если (отклоняется гипотеза о том, что параметр лишь в силу случайных обстоятельств оказался равным полученной величине, а в действительности равен нулю).

Адекватность регрессионной модели может быть оценена при помощи -критерия Фишера. Расчетное значение критерия определяется по формуле ,

где - число параметров модели;

Объем выборки.

По таблице определяется критическое значение -критерия Фишера для принятого уровня значимости и числа степеней свободы , . Если , то модель регрессии признается адекватной по этому критерию (отвергается гипотеза о несоответствии заложенных в уравнении и реально существующих связей).

Вторая задача корреляционно-регрессионного анализа – измерение тесноты зависимости результативного и факторного признака.

Для всех видов связи задача измерения тесноты зависимости может быть решена с помощью исчисления теоретического корреляционного отношения:

,

где - дисперсия в ряду выровненных значений результативного признака , обусловленная факторным признаком ;

- дисперсия в ряду фактических значений . Это общая дисперсия, которая слагается из дисперсии, обусловленной фактором (т.е. факторной дисперсии), и дисперсии остатка (отклонение эмпирических значений признака от выровненных теоретических).

На основании правила сложения дисперсий теоретическое корреляционное отношение может быть выражено через остаточную дисперсию :

.

Так как дисперсия отражает вариацию в ряду только за счет вариации фактора , а дисперсия отражает вариацию за счет всех факторов, то их отношение, именуемое теоретическим коэффициентом детерминации , показывает, какой удельный вес в общей дисперсии ряда занимает дисперсия, вызываемая вариацией фактора . Квадратный корень из отношения этих дисперсий дает теоретическое корреляционное отношение. При нелинейных связях теоретическое корреляционное отношение называют индексом корреляции и обозначают .

Если , то это означает, что роль других факторов в вариации отсутствует, остаточная дисперсия равна нулю и отношение означает полную зависимость вариации от . Если , то это означает, что вариация никак не влияет на вариацию , и в этом случае . Следовательно, корреляционное отношение принимает значения от 0 до 1. Чем ближе корреляционное отношение к 1, тем теснее связь между признаками.

Кроме того, при линейной форме уравнения связи применяется другой показатель тесноты связи – линейный коэффициент корреляции:

.

Линейный коэффициент корреляции принимает значения от –1 до 1. Отрицательные значения указывают на обратную зависимость, положительные – на прямую. Чем ближе модуль коэффициента корреляции к единице, тем теснее связь между признаками.

Приняты следующие граничные оценки линейного коэффициента корреляции:

Связи нет;

Связь слабая;

Связь посредственная;

Связь сильная;

Связь очень сильная.

Квадрат линейного коэффициента корреляции называют линейным коэффициентом детерминации.

Факт совпадения или несовпадения теоретического корреляционного отношения и линейного коэффициента корреляции используется для оценки формы зависимости. Их значения совпадают только при наличии линейной связи. Несовпадение этих величин свидетельствует о нелинейности связи между признаками. Принято считать, что если , то гипотезу о линейности связи можно считать подтвержденной.

Показатели тесноты связи, особенно исчисленные по данным сравнительно небольшой статистической совокупности, могут искажаться действием случайных причин. Это вызывает необходимость проверки их надежности (значимости), дающей возможность распространять выводы, полученные по выборочным данным, на генеральную совокупность.

Для этого рассчитывается средняя ошибка коэффициента корреляции:

Где - число степеней свободы при линейной зависимости.

Затем находится отношение коэффициента корреляции к его средней ошибке, то есть , которое сравнивается с табличным значением критерия Стьюдента.

Если фактическое (расчетное) значение больше табличного (критического, порогового), то линейный коэффициент корреляции считается значимым, а связь между и - реальной.

После проверки адекватности построенной модели (уравнения регрессии) ее необходимо проанализировать. Для удобства интерпретации параметра используют коэффициент эластичности. Он показывает средние изменения результативного признака при изменении факторного признака на 1% и вычисляется по формуле:

Точность полученной модели может быть оценена на основании значения средней ошибки аппроксимации:

Кроме того, в некоторых информативными являются данные об остатках, характеризующих отклонение -х наблюдений от расчетных значений . Особый экономический интерес представляют значения, остатки которых имеют наибольшие положительные или отрицательные отклонения от ожидаемого уровня анализируемого показателя.

Линейная парная регрессия находит широкое применение в экономет­рике в виде четкой экономической интерпретации ее параметров. Линейная регрессия сводится к нахождению уравнения вида

или . (3.6)

Уравнение вида позволяет по заданным значени­ям фактора х иметь теоретические значения результативного признака, подставляя в него фактические значения фактора x .

Построение парной линейной регрессии сводится к оценке ее пара­метров и . Оценки параметров линейной регрессии могут быть найдены разными методами. Например, методом наименьших квадратов (МНК).

Согласно метода наименьших квадратов оценки параметров и выбираются таким образом, чтобы сумма квадратов отклонений фактических значений ре­зультативного признака (у) от расчетных (теоретических, модельных) была ми­нимальна.Иными словами, из всего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной (рис. 3.2):

, (3.7)

Рис. 3.2. Линия регрессии с минимальной суммой квадратов расстояний по вертикали между точками и этой линией

Для дальнейших выводов в выражении (3.7) подставим модельное значение, т. е. и получим:

Чтобы найти минимум функции (3.8), надо вычислить част­ные производные по каждому из параметров и и приравнять их к нулю:

Преобразуя эту систему, получим следующую систему нор­мальных уравнений для оценки параметров и :

. (3.9)

Матричная форма записи этой системы имеет вид:

. (3.10)

Решая систему нормальных уравнений (3.10) в матричной форме получим:

Алгебраическая форма решения системы (3.11) можно записать следующим образам:

После несложных преобразовании формулу (3.12) можно записать в удобной форме:

Необходимо заметить, что оценки параметров уравнения регрессии можно получить и по другим формулам, например:

(3.14)

Здесь выборочный парный линейный коэффициент корреляции.

После вычисления параметров регрессии мы можем записать уравнение математической модели регрессии :

Необходим заметить, что параметр показывает среднее изменение результата с изменением фактора на одну единицу. Так, если в функции издержек (у - издержки (тыс. руб.), х - количество единиц продукции). То, следовательно, с увеличением объема продукции (х) на 1 ед. издержки производства возрастают в среднем на 2 тыс. руб., т. е. дополнительный прирост продукции на 1 ед. потребует увеличения затрат в среднем на 2 тыс. руб.

Возможность четкой экономической интерпретации коэф­фициента регрессии сделала линейное уравнение регрессии достаточно распространенным в эконометрических исследова­ниях.

Формально - значение у при х = 0. Если признак-фактор не имеет и не может иметь нулевого значения, то вышеуказанная трактовка свободного члена не имеет смысла. Параметр может не иметь экономического содержания. Попытки экономически интерпретировать параметр могут привести к абсурду, особен­но при < 0.

Пример 3.2 . Предположим по группе предприятий, выпускающих один и тот же вид продукции, рассматривается функция издержек: . Информация, необходимая для расчета оценок параметров и , представлена в табл. 3.1.

Таблица 3.1

Расчетная таблица

№ предприятия

Выпуск продукции, тыс. ед. ()

Затраты на производство, млн руб. ()

Система нормальных уравнений будет иметь вид:

.

Решение этой системы по формуле (4.13) дает результат:

Запишем модель уравнения регрессии (4.16):

Подставив в уравнение значения x , найдем теоретические (модельные) значения у, (см. последнюю графу табл. 3.1).

В данном случае величина параметра не имеет экономичес­кого смысла.

В рассматриваемом примере имеем:

Уравнение регрессии всегда дополняется показателем тесно­ты связи. При использовании линейной регрессии в качестве та­кого показателя выступает линейный коэффициент корреляции . Существуют разные модификации формулы линейного коэф­фициента корреляции. Некоторые из них приведены ниже:

Как известно, линейный коэффициент корреляции находит­ся в границах: .

Если коэффициент регрессии , то, и, наобо­рот, при, .

По данным табл. 4.1 величина линейного коэффициента кор­реляции составила 0,993, что достаточно близко к 1 и означает наличие очень тесной зависимости затрат на производство от ве­личины объема выпущенной продукции.

Следует иметь в виду, что величина линейного коэффициента корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость абсолютной величины линейного коэффициента корреляции к нулю еще не означает от­сутствие связи между признаками. При иной спецификации мо­дели связь между признаками может оказаться достаточно тесной.

Для оценки качества подбора линейной функции рассчиты­вается квадрат линейного коэффициента корреляции , назы­ваемый коэффициентом детерминации. Коэффициент детермина­ции характеризует долю дисперсии результативного признака у, объяснимуюрегрессией, в общей дисперсии результативного признака.

Соответственно величина характеризует долю дисперсии вызванную влиянием остальных не учтенных в модели факторов.

В нашем примере . Следовательно, уравнением регрессии объясняется 98,6% дисперсии результативного признака,а на долюпрочих факторов приходится лишь 1,4% ее дисперсии (т. е. остаточная дисперсия). Величина коэффициента детерминации служитодним из критериев оценки качества линейной модели. Чем больше доля объясненной вариации, тем соответственно меньшероль прочих факторов, и, следовательно, линейная модельхорошо аппроксимирует исходные данные и ею можно воспользоваться для прогноза значений результативного признака. Так, полагая, что объем продукции предприятия может составить 6 тыс. ед., прогнозное значение для издержек производства ока­жется 221,01 тыс. руб.

1. Основные определения и формулы

Парная регрессия - регрессия (связь) между двумя переменными и т.е. модель вида:

где - зависимая переменная (результативный признак);

- независимая объясняющая переменная (признак-фактор);

Возмущение или стохастическая переменная, включающая влияние неучтенных в модели факторов.

Практически в каждом отдельном случае величина складывается из двух слагаемых:

где - фактическое значение результативного признака;

Теоретическое значение результативного признака, найденное исходя из уравнения регрессии. Знак «^» означает, что между переменными и нет строгой функциональной зависимости.

Различают линейные и нелинейные регрессии.

Линейная регрессия описывается уравнением прямой

Нелинейные регрессии делятся на два класса:

1) регрессии, нелинейные по объясняющим переменным, но линейные по оцениваемым параметрам , например:

Полиномы разных степеней

Равносторонняя гипербола

2) регрессии, нелинейные по оцениваемым параметрам , например:

Степенная

Показательная

Экспоненциальная

Для построения парной линейной регрессии вычисляют вспомогательные величины ( - число наблюдений).

Выборочные средние : и

Выборочная ковариация между и

или

Ковариация - это числовая характеристика совместного распределения двух случайных величин.

Выборочная дисперсия для

или

Выборочная дисперсия для

или

Выборочная дисперсия характеризует степень разброса значений случайной величины вокруг среднего значения (вариабельность, изменчивость).

Тесноту связи изучаемых явлений оценивает выборочный коэффициент корреляции между и

Коэффициент корреляции изменяется в пределах от -1 до +1. Чем ближе от по модулю к 1, тем ближе статистическая зависимость между и к линейной функциональной.

Если =0, то линейная связь между и отсутствует; <0,3 - связь слабая; 0,3<0,7 - связь умеренная; 0,7<0,9 - связь сильная; 0,9<0,99 - связь весьма сильная.

Положительное значение коэффициента свидетельствует о том, то связь между признаками прямая (с ростом увеличивается значение ), отрицательное значение - связь обратная (с ростом значение уменьшается).

Построение линейной регрессии сводится к оценке ее параметров и Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака от теоретических минимальна, т.е.

Для линейной регрессии параметры и находятся из системы нормальных уравнений:

Решая систему, находим в на

и параметр

Коэффициент при факторной переменной показывает, насколько изменится в среднем величина при изменении фактора на единицу измерения.

Параметр когда Если не может быть равен 0, то не имеет экономического смысла. Интерпретировать можно только знак при если то относительное изменение результата происходит медленнее, чем изменение фактора, т.е. вариация результата меньше вариации фактора и наоборот.

Для оценки качества построенной модели регрессии можно использовать коэффициент детерминации либо среднюю ошибку аппроксимации .

К оэффициент детерминации

Или

показывает долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака Соответственно, величина характеризует долю дисперсии показателя вызванную влиянием неучтенных в модели факторов и прочих причин.

Чем ближе к 1, тем качественнее регрессионная модель, т.е. построенная модель хорошо аппроксимирует исходные данные.

Средняя ошибка аппроксимации - это среднее относительное отклонение теоретических значений от фактических т.е.

Построенное уравнение регрессии считается удовлетворительным, если значениене превышает 10-12%.

Для линейной регрессии средний коэффициент эластичности находится по формуле:

Средний коэффициент эластичности показывает на сколько процентов в среднем по совокупности изменится результат от своей величины при изменении фактора на 1% от своего значения.

Оценка з начимост и уравнения регрессии в целом дается с помощью -критерия Фишера, который заключается в проверке гипотезы о статистической незначимости уравнения регрессии. Для этого выполняется сравнениефактич е ского и критического (табличного) значений - критерия Фишера.

определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы, т.е.

- максимально возможное значение критерия под влиянием случайных факторов при степенях свободы =1, =-2 и уровне значимости находится из таблицы -критерия Фишера (таблица 1 приложения).

Уровень значимости - это вероятность отвергнуть правильную гипотезу при условии, что она верна.

Если то гипотеза об отсутствии связи изучаемого показателя с фактором отклоняется и делается вывод о существенности этой связи с уровнем значимости (т.е. уравнение регрессии значимо).

Если то гипотеза принимается и признается статистическая незначимость и ненадежность уравнения регрессии.

Для линейной регрессии значимость коэффициентов регрессии оценивают с помощью - критерия Стьюдента, согласно которому выдвигается гипотеза о случайной природе показателей, т.е. о незначимом их отличии от нуля. Далее рассчитываются фактические значения критерия для каждого из оцениваемых коэффициентов регрессии, т.е.

где и - стандартные ошибки параметров линейной регрессии определяются по формулам:

- максимально возможное значение критерия Стьюдента под влиянием случайных факторов при данной степени свободы =-2 и уровне значимости находится из таблицы критерия Стьюдента (таблица 2 приложения).

Если то гипотеза о несущественности коэффициента регрессии отклоняется с уровнем значимости т.е. коэффициент ( или )не случайно отличается от нуля и сформировался под влиянием систематически действующего фактора

Если то гипотеза не отклоняется и признается случайная природа формирования параметра.

Значимость линейного коэффициента корреляции также проверяется с помощью - критерия Стьюдента, т.е.

Гипотеза о несущественности коэффициента корреляции отклоняется с уровнем значимости если

Замечание. Для линейной парной регрессии проверки гипотез о значимости коэффициента и коэффициента корреляции равносильны проверке гипотезы о существенности уравнения регрессии в целом, т.е.

Для расчета доверительного интервала определяют предельную ошибку для каждого показателя, т.е.

Доверительные интервалы для коэффициентов линейной регрессии:

Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, т.к. он не может одновременно принимать и положительное, и отрицательное значения.

Прогнозное значение определяется путем подстановки в уравнение регрессии соответствующего прогнозного значения Затем вычисляется средняя стандартная ошибка прогноза

где

и строится доверительный интервал прогноза

Интервал может быть достаточно широк за счет малого объема наблюдений.

Регрессии, нелинейные по включенным переменным , приводятся к линейному виду простой заменой переменных, а дальнейшая оценка параметров производится с помощью МНК.

Г ипербол ическая регрессия:

Р егрессии , нелинейны е по оцениваемым параметрам , делятся на два типа: внутренне нелинейные и т.п. (к линейному виду не приводятся) и внутренне линейные (приводятся к линейному виду с помощью соответствующих преобразований), например:

Экспоненциальная регрессия:

Линеаризующее преобразование:

Степенная регрессия:

Линеаризующее преобразование:

Показатель ная регрессия:

Линеаризующее преобразование:

Логарифмическ ая регрессия:

Линеаризующее преобразование:

2. Решение типовых задач

Пример 9 .1 . По 15 сельскохозяйственным предприятиям (табл. 9.1) известны: - количество техники на единицу посевной площади (ед/га) и - объем выращенной продукции (тыс. ден. ед.). Необходимо:

1) определить зависимость от

2) построить корреляционные поля и график уравнения линейной регрессии на

3) сделать вывод о качестве модели и рассчитать прогнозное значение при прогнозном значении составляющем 112% от среднего уровня.

Таблица 9.1

Решение:

1) В Excel составим вспомогательную таблицу 9.2.

Таблица 9.2

Рис. 9 .1. Таблица для расчета промежуточных значений

Вычислим количество измерений Для этого в ячейку В19 поместим =СЧЁТ(A2:A 16 ) .

С помощью функции ∑ (Автосумма) на панели инструментов Стандар т ная найдем сумму всех (ячейка В17 ) и (ячейка С17 ).

Рис. 9.2. Расчет суммы значений и средних

Для вычисления средних значений используем встроенную функцию MS Excel СРЗНАЧ(), в скобках указывается диапазон значений для определения средней. Таким образом, средний объем выращенной продукции по 15 хозяйствамсоставляет 210,833 тыс.ден. ед., а средние количество техники - 6,248ед/га.

Для заполнения столбцов D , E , F введем формулувычисления произведения: в ячейку D 2 поместим =B2*C2 , затем на клавиатуре нажмем ENTER. Щелкнем левой кнопкой мыши по ячейке D 2 и, ухватив за правый нижний угол этой ячейки (черный плюсик), потянем вниз до ячейки D 16 . Произойдет автоматическое заполнение диапазона D 3 - D 16 .

Для вычисления выборочн ой ковариации между и используем формулу т.е. в ячейку B 21 поместим =D 18- B 18* C 18 и получим 418,055 (рис. 9.3).

Рис. 9 .3. Вычисление

Выборочн ую дисперси ю для найдем по формуле для этого в ячейку B 22 поместим =E18-B18 ^2 (^- знак указывающий возведение в степень) и получим 11,337. Аналогично определяем =16745,05556 (рис. 9.4)

Рис. 9 .4. Вычисление Var (x ) и Var (y )

Далее используя стандартную функцию MS Excel «КОРРЕЛ» вычисляем значение линейного коэффициента корреляции для нашей задачи функция будет иметь вид «=КОРРЕЛ(B2:B16;C2:C16)», а значение rxy=0,96. Полученное значение коэффициента корреляции указывает на прямую и сильную связь наличия техники и объемов выращенной продукции.

Находим в ыборочный коэффициент линейной регрессии =36,87; параметр =-17,78. Значит, уравнение парной линейной регрессии имеет вид =-17,78+36,87

Коэффициент показывает, что при увеличении количества техники на 1 ед/га объем выращенной продукции в среднем увеличится на 36,875 тыс. ден. ед. (рис. 9.5)

Рис. 9 .5. Расчет параметров уравнения регрессии.

Таким образом, уравнение регрессии будет иметь вид: .

Подставляем в полученное уравнение фактические значения x (количество техники) находим теоретические значения объемов выращенной продукции (рис. 9.6).

Рис. 9 .6. Расчет теоретических значений объемов выращенной продукции

Используя Мастер диаграмм строим корреляционные поля (выделяя столбцы со значениями и ) и уравнение линейной регрессии (выделяя столбцы со значениями и ). Выбираем тип диаграммы - Т очечная В полученной диаграмме заполняем нужные параметры (название, подписи к осям, легенду и т.п.). В результате получим график представленный на рис. 9.7.

Рис. 9 .7. График зависимости объема выращенной продукции от количества техники

Для оценки качества построенной модели регрессии вычислим:

. к оэффициент детерминации =0,92, который показывает, что изменение затрат на выпуск продукции на 92% объясняется изменением объема произведенной продукции а 8% приходится на долю неучтенных в модели факторов, что указывает на качественность построенной регрессионной модели;

. с редн юю ошибк у аппроксимации . Для этого в столбце H вычислим разность фактического и теоретического значений а в столбце I - выражение . Обращаем Ваше внимание, что для вычисления значения по модулю используется стандартная функция MS Excel «ABS». При умножении среднего значения (ячейка I 18 ) на 100% получим 18,2%. Следовательно, в среднем теоретические значенияотклоняются от фактических на 18,2%(рис. 1.8).

С помощью -критерия Фишераоценим з начимост ь уравнения регре с сии в целом : 150,74.

На уровне значимости 0,05 =4,67 определяем c помощью встроенной статистической функции FРАСПОБР (рис. 1.9). При этом необходимо помнить, что «Степени_свободы1» это знаменатель , а «Степени_свободы2» - числитель , где - число параметров в уравнении регрессии (у нас 2), n - число исходных пар значений (у нас 15).

Так как то уравнение регрессии значимо при =0,05.

Рис. 9 .8. Определение коэффициента детерминации и средней ошибки апроксимации

Рис. 9 . 9 . Диалоговое окно функции FРАСПОБР

Далее определяем с редний коэффициент эластичности по формуле. Найденное показывает, что с ростом объема произведенной продукции на 1% затраты на выпуск этой продукции в среднем по совокупности возрастут на 1,093%.

Рассчитаем прогнозное значение путем подстановки в уравнение регрессии =-19,559+36,8746 прогнозного значения фактора =1,12=6,248*1,12=6,9978. Получим =238,48. Следовательно, при количестве техники в количестве 6,9978ед/гаобъем выпущенной продукции составит 238,48 тыс. ден. ед.

Найдем остаточную дисперсию, для этого вычислим сумму квадратов разности фактического и теоретического значений. =39,166 поместив следующую формулу =КОРЕНЬ(J17/(B19-2)) в ячейку H 2 1 (рис. 9.10).

Рис. 9 .10. Определение остаточной дисперсии

С редн яя стандартн ая ошибка прогноза :

На уровне значимости =0,05 с помощью встроенной статистической функции СТЬЮДРАСПОБР определим =2,1604 и вычислим предельную ошибку прогноза, которая в 95% случаев не будет превышать .

Д оверительный интервал прогноза :

Или .

Выполненный прогноз затрат на выпуск продукции оказался надежным (1-0,05=0,95), но неточным, так как диапазон верхней и нижней границ доверительного интервала составляет раза. Это произошло за счет малого объема наблюдений.

Необходимо отменить, что в MS Excel встроены статистические функции позволяющие значительно снизить количество промежуточных вычислений, например (рис. 9.11.):

Для вычисления в ыборочны х средни х используем функцию СРЗНАЧ(число1:число N ) из категории Статистические .

Выборочная ковариация между и находится с помощью функции КОВАР(массив X ;массив Y ) из категории Статистические .

Выборочн ые дисперси и определяются статистической функцией ДИСПР(число1:число N ) .

Рис. 9 .11. Вычисление п оказателей встроенными функциями MS Excel

П араметр ы линейной регрессии в Excel можно определить несколькими способами.

1 способ) С помощью встроенной функции ЛИНЕЙН . Порядок действий следующий:

1. Выделить область пустых ячеек 5x2 (5 строк, 2 столбца) для вывода результатов регрессионной статистики или область 1x2 - для получения только коэффициентов регрессии.

2. С помощью Мастера функций среди Статистических выбрать функцию ЛИНЕЙН и заполнить ее аргументы (рис. 9.12):

Рис. 9 . 12 . Диалоговое окно ввода аргументов функции ЛИНЕЙН

Известные_значения_ y

Известные_значения_ x

Конст - логическое значение (1 или 0), которое указывает на наличие или отсутствие свободного члена в уравнении; ставим 1;

Статистика - логическое значение (1 или 0), которое указывает, выводить дополнительную информацию по регрессионному анализу или нет; ставим 1.

3. В левой верхней ячейке выделенной области появится первое число таблицы. Для раскрытия всей таблицы нужно нажать на клавишу < F 2> , а затем - на комбинацию клавиш < CTRL > + < SHIFT > + < ENTER > .

Дополнительная регрессионная статистика будет выведена в виде (табл. 9.3):

Таблица 9.3

Значение коэффициента

Значение коэффициента

Среднеквадратическое
отклонение

Среднеквадратическое
отклонение

Коэффициент
детерминации

Среднеквадратическое
отклонение

Статистика

Число степеней свободы

Регрессионная сумма квадратов

Остаточная сумма квадратов

В результате применения функции ЛИНЕЙН получим:

( 2 способ) С помощью инструмента анализа данных Регрессия можно получить результаты регрессионной статистики, дисперсионного анализа, доверительные интервалы, остатки, графики подбора линий регрессии, графики остатков и нормальной вероятности. Порядок действий следующий:

1. Необходимо проверить доступ к Пакету анализа . Для этого в главном меню (через кнопку Microsoft Office получить доступ к параметрам MS Excel) в диалоговом окне «Параметры MS Excel » выбрать команду «Надстройки» и справа выбрать надстройку Пакета анализ а далее нажать кнопку «Перейти» (рис. 9.13). В открывшемся диалоговом окне поставить галочку напротив «Пакет анализа» и нажать «ОК» (рис. 9.14).

На вкладке «Данные» в группе «Анализ» появится доступ к установленной надстройке. (рис. 9.15).

Рис. 9 .13. Включение надстроек в MS Excel

Рис. 9 .14. Диалоговое окно «Надстройки»

Рис. 9 .15. Надстройка «Анализ данных» на ленте MS Excel 2007 .

2. Выбрать на «Данные» в группе «Анализ» выбираем команду Анализ да н ных в открывшемся диалоговом окне выбрать инструмент анализа «Регрессия» и нажать «ОК» (рис. 9.16):

Рис. 9 .16. Диалоговое окно «Анализ данных»

В появившемся диалоговом окне (рис. 9.17) заполнить поля:

Входной интервал Y - диапазон, содержащий данные результативного признака Y;

Входной интервал X - диапазон, содержащий данные объясняющего признака X;

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Конст анта-ноль - флажок, указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

Новый рабочий лист - можно задать произвольное имя нового листа, на который будут выведены результаты.

Рис. 9 .17. Диалоговое окно «Регрессия»

Для получения информации об остатках, графиков остатков, подбора и нормальной вероятности нужно установить соответствующие флажки в диалоговом окне.

Рис. 9 . 18 . Результаты применения инструмента Регрессия

В MS Excel линия тренда может быть добавлена в диаграмму с областями гистограммы или в график. Для этого:

1. Необходимо выделить область построения диаграммы и в ленте выбрать «Макет» и в группе анализ выбрать команду «Линия тренда» (рис. 9.19.). В выпадающем пункте меню выбрать «Дополнительные параметры линии тренда».

Рис. 1.19. Лента

2. В появившемся диалоговом окне выбрать фактические значения, затем откроется диалоговое окно «Формат линии тренда» (рис. 9.20.) в котором выбирается вид линии тренда и устанавливаются соответствующие параметры.

Рис. 9 . 20 . Диалоговое окно «Формат линии тренда»

Для полиноминального тренда необходимо задать степень аппроксимирующего полинома, для линейной фильтрации - количество точек усреднения.

Выбираем Линейная для построения уравнения линейной регрессии.

В качестве дополнительной информации можно показать уравнение на ди а грамме и поместить на диаграмму величину (рис.9.21).

Рис. 9 . 21 . Линейный тренд

Нелинейные модели регрессии иллюстрируются при вычислении параметров уравнения с применением выбранной в Excel статистической функции Л ГРФПРИБЛ . Порядок вычислений аналогичен применению функции ЛИНЕЙН.

И корреляция

1.1. Понятие регрессии

Парной регрессией называется уравнение связи двух переменных у и х

вида y = f (x ),

где у – зависимая переменная (результативный признак); х – независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.

Линейная регрессия описывается уравнением: y = a + b × x +e .

Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.

Примеры регрессий, нелинейных по объясняющим переменным, но ли-

нейных по оцениваемым параметрам:

· полиномы разных степеней

· равносторонняя гипербола:

Примеры регрессий, нелинейных по оцениваемым параметрам:

· степенная

· показательная

· экспоненциальная

Наиболее часто применяются следующие модели регрессий:

– прямой

– гиперболы

– параболы

– показательной функции

– степенная функция

1.2. Построение уравнения регрессии

Постановка задачи. По имеющимся данным n наблюдений за совместным

изменением двух параметров x и y {(xi ,yi ), i=1,2,...,n} необходимо определить

аналитическую зависимость ŷ=f(x) , наилучшим образом описывающую данные наблюдений.

Построение уравнения регрессии осуществляется в два этапа (предполагает решение двух задач):

– спецификация модели (определение вида аналитической зависимости

ŷ=f(x) );

– оценка параметров выбранной модели.

1.2.1. Спецификация модели

Парная регрессия применяется, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной.

Применяется три основных метода выбора вида аналитической зависимости:

– графический (на основе анализа поля корреляций);

– аналитический, т. е. исходя из теории изучаемой взаимосвязи;

– экспериментальный, т. е. путем сравнения величины остаточной дисперсии D ост или средней ошибки аппроксимации , рассчитанных для различных

моделей регрессии (метод перебора).

1.2.2. Оценка параметров модели

Для оценки параметров регрессий, линейных по этим параметрам, используется метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических значений ŷx при тех же значениях фактора x минимальна, т. е.

В случае линейной регрессии параметры а и b находятся из следующей

системы нормальных уравнений метода МНК:

(1.1)

Можно воспользоваться готовыми формулами, которые вытекают из этой

(1.2)

Для нелинейных уравнений регрессии, приводимых к линейным с помощью преобразования (x , y ) → (x’ , y’ ), система нормальных уравнений имеет

вид (1.1) в преобразованных переменных x’ , y’ .

Коэффициент b при факторной переменной x имеет следующую интерпретацию: он показывает, на сколько изменится в среднем величина y при изменении фактора x на 1 единицу измерения .

Гиперболическая регрессия :

x’ = 1/x ; y’ = y .

Уравнения (1.1) и формулы (1.2) принимают вид

Экспоненциальная регрессия:

Линеаризующее преобразование: x’ = x ; y’ = lny .

Модифицированная экспонента : , (0 < a 1 < 1).

Линеаризующее преобразование: x’ = x ; y’ = ln y – К│.

Величина предела роста K выбирается предварительно на основе анализа

поля корреляций либо из качественных соображений. Параметр a 0 берется со

знаком «+», если y х > K и со знаком «–» в противном случае.

Степенная функция:

Линеаризующее преобразование: x’ = ln x ; y’ = ln y .

Показательная функция:

Линеаризующее преобразование: x’ = x ; y’ = lny .

https://pandia.ru/text/78/146/images/image026_7.jpg" width="459" height="64 src=">

Парабола второго порядка :

Парабола второго порядка имеет 3 параметра a 0, a 1, a 2, которые определяются из системы трех уравнений

1.3. Оценка тесноты связи

Тесноту связи изучаемых явлений оценивает линейный коэффициент

парной корреляции rxy для линейной регрессии (–1 ≤ r xy ≤ 1)

и индекс корреляции ρxy для нелинейной регрессии

Имеет место соотношение

Долю дисперсии, объясняемую регрессией , в общей дисперсии результативного признака у характеризует коэффициент детерминации r2xy (для линейной регрессии) или индекс детерминации (для нелинейной регрессии).

Коэффициент детерминации – квадрат коэффициента или индекса корреляции.

Для оценки качества построенной модели регрессии можно использовать

показатель (коэффициент, индекс) детерминации R 2 либо среднюю ошибку аппроксимации.

Чем выше показатель детерминации или чем ниже средняя ошибка аппроксимации, тем лучше модель описывает исходные данные.

Средняя ошибка аппроксимации – среднее относительное отклонение

расчетных значений от фактических

Построенное уравнение регрессии считается удовлетворительным, если

значение не превышает 10–12 %.

1.4. Оценка значимости уравнения регрессии, его коэффициентов,

коэффициента детерминации

Оценка значимости всего уравнения регрессии в целом осуществляется с

помощью F -критерия Фишера.

F- критерий Фишера заключается в проверке гипотезы Но о статистической незначимости уравнения регрессии. Для этого выполняется сравнение

фактического F факт и критического (табличного) F табл значений F- критерия

Фишера.

F факт определяется из соотношения значений факторной и остаточной

дисперсий, рассчитанных на одну степень свободы

где n – число единиц совокупности; m – число параметров при переменных.

Для линейной регрессии m = 1 .

Для нелинейной регрессии вместо r 2 xy используется R 2.

F табл – максимально возможное значение критерия под влиянием случайных факторов при степенях свободы k1 = m , k2 = n – m – 1 (для линейной регрессии m = 1) и уровне значимости α.

Уровень значимости α вероятность отвергнуть правильную гипотезу

при условии, что она верна. Обычно величина α принимается равной 0,05 или

Если F табл < F факт, то Н0 -гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл > F факт, то гипотеза Но не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.

Для оценки статистической значимости коэффициентов линейной регрессии и линейного коэффициента парной корреляции применяется

t- критерий Стьюдента и рассчитываются доверительные интервалы каждого

из показателей.

Согласно t- критерию выдвигается гипотеза Н0 о случайной природе показателей, т. е. о незначимом их отличии от нуля. Далее рассчитываются фактические значения критерия t факт для оцениваемых коэффициентов регрессии и коэффициента корреляции путем сопоставления их значений с величиной стандартной ошибки

Стандартные ошибки параметров линейной регрессии и коэффициента

корреляции определяются по формулам

Сравнивая фактическое и критическое (табличное) значения t- статистики

t табл и t факт принимают или отвергают гипотезу Но.

t табл – максимально возможное значение критерия под влиянием случайных факторов при данной степени свободы k = n– 2 и уровне значимости α.

Связь между F- критерием Фишера (при k 1 = 1; m =1) и t- критерием Стьюдента выражается равенством

Если t табл < t факт, то Но отклоняется, т. е. a, b и не случайно отличаются

от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл > t факт, то гипотеза Но не отклоняется и признается случайная природа формирования а, b или https://pandia.ru/text/78/146/images/image041_2.jpg" width="574" height="59">

F табл определяется из таблицы при степенях свободы k 1 = 1, k 2 = n –2 и при

заданном уровне значимости α. Если F табл < F факт, то признается статистическая значимость коэффициента детерминации. В формуле (1.6) величина m означает число параметров при переменных в соответствующем уравнении регрессии.

1.5. Расчет доверительных интервалов

Рассчитанные значения показателей (коэффициенты a , b , ) являются

приближенными, полученными на основе имеющихся выборочных данных.

Для оценки того, насколько точные значения показателей могут отличаться от рассчитанных, осуществляется построение доверительных интервалов.

Доверительные интервалы определяют пределы, в которых лежат точные значения определяемых показателей с заданной степенью уверенности, соответствующей заданному уровню значимости α.

Для расчета доверительных интервалов для параметров a и b уравнения линейной регрессии определяем предельную ошибку Δ для каждого показателя:

Величина t табл представляет собой табличное значение t- критерия Стьюдента под влиянием случайных факторов при степени свободы k = n –2 и заданном уровне значимости α.

Формулы для расчета доверительных интервалов имеют следующий вид:

https://pandia.ru/text/78/146/images/image045_3.jpg" width="188" height="62">

где t γ – значение случайной величины, подчиняющейся стандартному нормальному распределению, соответствующее вероятности γ = 1 – α/2 (α – уровень значимости);

z’ = Z (rxy) – значение Z- распределения Фишера, соответствующее полученному значению линейного коэффициента корреляции rxy .

Граничные значения доверительного интервала (r– , r+ ) для rxy получаются

из граничных значений доверительного интервала (z– , z+ ) для z с помощью

функции, обратной Z- распределению Фишера

1.6. Точечный и интервальный прогноз по уравнению линейной

регрессии

Точечный прогноз заключается в получении прогнозного значения уp , которое определяется путем подстановки в уравнение регрессии

соответствующего (прогнозного
) значения x p

Интервальный прогноз заключается в построении доверительного интервала прогноза, т. е. нижней и верхней границ уpmin, уpmax интервала, содержащего точную величину для прогнозного значения https://pandia.ru/text/78/146/images/image050_2.jpg" width="37" height="44 src=">

и затем строится доверительный интервал прогноза , т. е. определяются нижняя и верхняя границы интервала прогноза

Контрольные вопросы:

1. Что понимается под парной регрессией?

2. Какие задачи решаются при построении уравнения регрессии?

3. Какие методы применяются для выбора вида модели регрессии?

4. Какие функции чаще всего используются для построения уравнения парной регрессии?

5. Какой вид имеет система нормальных уравнений метода наименьших квадратов в случае линейной регрессии?

6. Какой вид имеет система нормальных уравнений метода наименьших квадратов в случае гиперболической, показательной регрессии?

7. По какой формуле вычисляется линейный коэффициент парной корреляции r xy ?

8. Как строится доверительный интервал для линейного коэффициента парной корреляции?

9. Как вычисляется индекс корреляции?

10. Как вычисляется и что показывает индекс детерминации?

11. Как проверяется значимость уравнения регрессии и отдельных коэффициентов?

12. Как строится доверительный интервал прогноза в случае линейной регрессии?

Лабораторная работа № 1

Задание.1 На основании данных табл. П1 для соответствующего варианта (табл. 1.1):

1. Вычислить линейный коэффициент парной корреляции.

2. Проверить значимость коэффициента парной корреляции.

3. Построить доверительный интервал для линейного коэффициента парной корреляции.

Задание. 2 На основании данных табл. П1 для соответствующего варианта (табл. 1.1):

1. Построить предложенные уравнения регрессии, включая линейную регрессию.

2. Вычислить индексы парной корреляции для каждого уравнения.

3. Проверить значимость уравнений регрессии и отдельных коэффициентов линейного уравнения.

4. Определить лучшее уравнение регрессии на основе средней ошибки аппроксимации.

5. Построить интервальный прогноз для значения x = x max для линейного

уравнения регрессии.

Требования к оформлению результатов

Отчет о лабораторной работе должен содержать разделы:

1. Описание задания;

2. Описание решения лабораторной работы (по этапам);

3. Изложение полученных результатов.

Таблица П1

Исходные данные к лабораторным работам № 1, 2

Наличие предметов длительного пользования в домашних хозяйствах по регионам Российской Федерации (европейская часть территории без республик Северного Кавказа) (по материалам выборочного обследования бюджетов домашних хозяйств; на 100 домохозяйств; штук)

Парная линейная регрессия

ПРАКТИКУМ

Парная линейная регрессия: Практикум. –

Изучение эконометрики предполагает приобретение студентами опыта построения эконометрических моделей, принятия решений о спецификации и идентификации модели, выбора метода оценки параметров модели, оценки ее качества, интерпретации результатов, получения прогнозных оценок и пр. Практикум поможет студентам приобрести практические навыки в этих вопросах.

Утверждено редакционно-издательским советом

Составитель: М.Б. Перова, д.э.н., профессор

Общие положения

Эконометрическое исследование начинается с теории, устанавливающей связь между явлениями. Из всего круга факторов, влияющих на результативный признак, выделяются наиболее существенные факторы. После того, как было выявлено наличие взаимосвязи между изучаемыми признаками, определяется точный вид этой зависимости с помощью регрессионного анализа.

Регрессионный анализ заключается в определении аналитического выражения (в определении функции), в котором изменение одной величины (результативного признака) обусловлено влиянием независимой величины (факторного признака). Количественно оценить данную взаимосвязь можно с помощью построения уравнения регрессии или регрессионной функции.

Базисной регрессионной моделью является модель парной (однофакторной) регрессии. Парная регрессия – уравнение связи двух переменных у и х :

где – зависимая переменная (результативный признак);

–независимая, объясняющая переменная (факторный признак).

В зависимости от характера изменения у с изменением х различают линейные и нелинейные регрессии.

Линейная регрессия

Данная регрессионная функция называется полиномом первой степени и используется для описания равномерно развивающихся во времени процессов.

Наличие случайного члена (ошибки регрессии) связано с воздействием на зависимую переменную других неучтенных в уравнении факторов, с возможной нелинейностью модели, ошибками измерения, следовательно, появлениеслучайной ошибки уравнения регрессии может быть обусловлено следующими объективными причинами :

1) нерепрезентативность выборки. В модель парной регрессии включается фактор, не способный полностью объяснить вариацию результативного признака, который может быть подвержен влиянию многих других факторов (пропущенных переменных) в гораздо большей степени. Наприем, заработная плата может зависеть, кроме квалификации, от уровня образования, стажа работы, пола и пр.;

2) существует вероятность того, что переменные, участвующие в модели, могут быть измерены с ошибкой. Например, данные по расходам семьи на питание составляются на основании записей участников опросов, которые, как предполагается, тщательно фиксируют свои ежедневные расходы. Разумеется, при этом возможны ошибки.

На основе выборочного наблюдения оценивается выборочное уравнение регрессии (линия регрессии ):

,

где
– оценки параметров уравнения регрессии (
).

Аналитическая форма зависимости между изучаемой парой признаков (регрессионная функция) определяется с помощью следующих методов :

    На основе теоретического и логического анализа природы изучаемых явлений, их социально-экономической сущности. Например, если изучается зависимость между доходами населения и размером вкладов населения в банки, то очевидно, что связь прямая.

    Графический метод , когда характер связи оценивается визуально.

Эту зависимость можно наглядно увидеть, если построить график, отложив на оси абсцисс значения признака х , а на оси ординат – значения признака у . Нанеся на график точки, соответствующие значениям х и у , получим корреляционное поле :

а) если точки беспорядочно разбросаны по всему полю – это говорит об отсутствии зависимости между этими признаками;

б) если точки концентрируются вокруг оси, идущей от нижнего левого угла в верхний правый – то имеется прямая зависимость между признаками;

в) если точки концентрируются вокруг оси, идущей от верхнего левого угла в нижний правый – то обратная зависимость между признаками.

Если на корреляционном поле соединим точки отрезками прямой, то получим ломаную линию с некоторой тенденцией к росту. Это будет эмпирическая линия связи или эмпирическая линия регрессии . По ее виду можно судить не только о наличии, но и о форме зависимости между изучаемыми признаками.

Построение уравнения парной регрессии

Построение уравнения регрессии сводится к оценке ее параметров. Эти оценки параметров могут быть найдены различными способами. Одним их них является метод наименьших квадратов (МНК). Суть метода состоит в следующем. Каждому значению соответствует эмпирическое (наблюдаемое) значение. Построив уравнение регрессии, например уравнение прямой линии, каждому значениюбудет соответствовать теоретическое (расчетное) значение. Наблюдаемые значенияне лежат в точности на линии регрессии, т.е. не совпадают с. Разность между фактическим и расчетным значениями зависимой переменной называетсяостатком :

МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических , т.е. сумма квадратов остатков, минимальна:

Для линейных уравнений и нелинейных, приводимых к линейным, решается следующая система относительно а и b :

где n – численность выборки.

Решив систему уравнений, получим значения а и b , что позволяет записать уравнение регрессии (регрессионное уравнение):

где – объясняющая (независимая) переменная;

–объясняемая (зависимая) переменная;

Линия регрессии проходит через точку (,) и выполняются равенства:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы уравнений:

где – среднее значение зависимого признака;

–среднее значение независимого признака;

–среднее арифметическое значение произведения зависимого и независимого признаков;

–дисперсия независимого признака;

–ковариация между зависимым и независимым признаками.

Выборочной ковариацией двух переменных х , у называется средняя величина произведения отклонений этих переменных от своих средних

Параметр b при х имеет большое практическое значение и носит название коэффициента регрессии. Коэффициент регрессии показывает, на сколько единиц в среднем изменяется величина у х на 1 единицу своего измерения.

Знак параметра b в уравнении парной регрессии указывает на направление связи:

если
, то связь между изучаемыми показателями прямая, т.е. с увеличением факторного признаках увеличивается и результативный признак у , и наоборот;

если
, то связь между изучаемыми показателями обратная, т.е. с увеличением факторного признаках результативный признак у уменьшается, и наоборот.

Значение параметра а в уравнении парной регрессии в ряде случаев можно трактовать как начальное значение результативного признака у . Такая трактовка параметра а возможна только в том случае, если значение
имеет смысл.

После построения уравнения регрессии, наблюдаемые значения y можно представить как:

Остатки , как и ошибки, являются случайными величинами, однако они, в отличие от ошибок, наблюдаемы. Остаток есть та часть зависимой переменнойy , которую невозможно объяснить с помощью уравнения регрессии.

На основании уравнения регрессии могут быть вычислены теоретические значения у х для любых значений х .

В экономическом анализе часто используется понятие эластичности функции. Эластичность функции
рассчитывается как относительное изменениеy к относительному изменению x . Эластичность показывает, на сколько процентов изменяется функция
при изменении независимой переменной на 1%.

Поскольку эластичность линейной функции
не является постоянной величиной, а зависит отх , то обычно рассчитывается коэффициент эластичности как средний показатель эластичности.

Коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится величина результативного признака у при изменении факторного признака х на 1% от своего среднего значения:

где
– средние значения переменныхх и у в выборке.

Оценка качества построенной модели регрессии

Качество модели регрессии – адекватность построенной модели исходным (наблюдаемым) данным.

Чтобы измерить тесноту связи, т.е. измерить, насколько она близка к функциональной, нужно определить дисперсию, измеряющую отклонения у от у х и характеризующую остаточную вариацию, обусловленную прочими факторами. Они лежат в основе показателей, характеризующих качество модели регрессии.

Качество парной регрессии определяется с помощью коэффициентов, характеризующих

1) тесноту связи – индекса корреляции, парного линейного коэффициента корреляции;

2) ошибку аппроксимации;

3) качество уравнения регрессии и отдельных его параметров – средние квадратические ошибки уравнения регрессии в целом и отдельных его параметров.

Для уравнений регрессии любого вида определяется индекс корреляции , который характеризует только тесноту корреляционной зависимости, т.е. степень ее приближения к функциональной связи:

,

где – факторная (теоретическая) дисперсия;

–общая дисперсия.

Индекс корреляции принимает значения
, при этом,

если

если
– то связь между признакамих и у является функциональной, Чем ближе к 1, тем более тесной считается связь между изучаемыми признаками. Если
, то связь можно считать тесной

Дисперсии, необходимые для вычисления показателей тесноты связи вычисляются:

Общая дисперсия , измеряющая общую вариацию за счет действия всех факторов:

Факторная (теоретическая) дисперсия, измеряющая вариацию результативного признака у за счет действия факторного признака х :

Остаточная дисперсия , характеризующая вариацию признака у за счет всех факторов, кроме х (т.е. при исключенном х ):

Тогда по правилу сложения дисперсий:

Качество парной линейной регрессии может быть определено также с помощью парного линейного коэффициента корреляции :

,

где
– ковариация переменныхх и у ;

–среднеквадратическое отклонение независимого признака;

–среднеквадратическое отклонение зависимого признака.

Линейный коэффициент корреляции характеризует тесноту и направление связи между изучаемыми признаками. Он измеряется в пределах [-1; +1]:

если
– то связь между признаками прямая;

если
– то связь между признаками обратная;

если
– то связь между признаками отсутствует;

если
или
– то связь между признаками является функциональной, т.е. характеризуется полным соответствием междух и у . Чем ближе к 1, тем более тесной считается связь между изучаемыми признаками.

Если индекс корреляции (парный линейный коэффициент корреляции) возвести в квадрат, то получим коэффициент детерминации.

Коэффициент детерминации – представляет собой долю факторной дисперсии в общей и показывает, на сколько процентов вариация результативного признака у объясняется вариацией факторного признака х :

Он характеризует не всю вариацию у от факторного признака х , а лишь ту ее часть, которая соответствует линейному уравнению регрессии, т.е. показывает удельный вес вариации результативного признака, линейно связанной с вариацией факторного признака.

Величина
– доля вариации результативного признака, которую модель регрессии учесть не смогла.

Рассеяние точек корреляционного поля может быть очень велико, и вычисленное уравнение регрессии может давать большую погрешность в оценке анализируемого показателя.

Средняя ошибка аппроксимации показывает среднее отклонение расчетных значений от фактических:

Максимально допустимое значение 12–15%.

Мерой разброса зависимой переменной вокруг линии регрессии служит стандартная ошибка.Для всей совокупности наблюдаемых значений рассчитывается стандартная (среднеквадратическая) ошибка уравнения регрессии , которая представляет собой среднее квадратическое отклонение фактических значений у относительно теоретических значений, рассчитанных по уравнению регрессии у х .

,

где
– число степеней свободы;

m – число параметров уравнения регрессии (для уравнения прямой m =2).

Оценить величину средней квадратической ошибки можно сопоставив ее

а) со средним значение результативного признака у ;

б) со средним квадратическим отклонением признака у :

если
, то использование данного уравнения регрессии является целесообразным.

Отдельно оцениваются стандартные (среднеквадратические) ошибки параметров уравнения и индекса корреляции :

;
;
.

х – среднее квадратическое отклонение х .

Проверка значимости уравнения регрессии и показателей тесноты связи

Чтобы построенную модель можно было использовать для дальнейших экономических расчетов, проверки качества построенной модели недостаточно. Необходимо также проверить значимость (существенность) полученных с помощью метода наименьших квадратов оценок уравнения регрессии и показателя тесноты связи, т.е. необходимо проверить их на соответствие истинным параметрам взаимосвязи.

Это связано с тем, что исчисленные по ограниченной совокупности показатели сохраняют элемент случайности, свойственный индивидуальным значениям признака. Поэтому они являются лишь оценками определенной статистической закономерности. Необходима оценка степени точности и значимости (надежности, существенности) параметров регрессии. Под значимостью понимают вероятность того, что значение проверяемого параметра не равно нулю, не включает в себя величины противоположных знаков.

Проверка значимости – проверка предположения того, что параметры отличаются от нуля.

Оценка значимости парного уравнения регрессии сводится к проверке гипотез о значимости уравнения регрессии в целом и отдельных его параметров (a , b ), парного коэффициента детерминации или индекса корреляции.

В этом случае могут быть выдвинуты следующие основные гипотезы H 0 :

1)
– коэффициенты регрессии являются незначимыми и уравнение регрессии также является незначимым;

2)
– парный коэффициент детерминации незначим и уравнение регрессии также является незначимым.

Альтернативной (или обратной) выступают следующие гипотезы:

1)
– коэффициенты регрессии значимо отличаются от нуля, и построенное уравнение регрессии является значимым;

2)
– парный коэффициент детерминации значимо отличаются от нуля и построенное уравнение регрессии является значимым.

Проверка гипотезы о значимости уравнения парной регрессии

Для проверки гипотезы о статистической незначимости уравнения регрессии в целом и коэффициента детерминации используется F -критерий (критерий Фишера ):

или

где k 1 = m –1 ; k 2 = n m – число степеней свободы;

n – число единиц совокупности;

m – число параметров уравнения регрессии;

–факторная дисперсия;

–остаточная дисперсия.

Гипотеза проверяется следующим образом:

1) если фактическое (наблюдаемое) значение F -критерия больше критического (табличного) значения данного критерия
, то с вероятностью
основная гипотеза о незначимости уравнения регрессии или парного коэффициента детерминации отвергается, и уравнение регрессии признается значимым;

2) если фактическое (наблюдаемое) значение F-критерия меньше критического значения данного критерия
, то с вероятностью (
) основная гипотеза о незначимости уравнения регрессии или парного коэффициента детерминации принимается, и построенное уравнение регрессии признается незначимым.

Критическое значение F -критерия находится по соответствующим таблицам в зависимости от уровня значимости и числа степеней свободы
.

Число степеней свободы – показатель, который определяется как разность между объемом выборки (n ) и числом оцениваемых параметров по данной выборке (m ). Для модели парной регрессии число степеней свободы рассчитывается как
, так как по выборке оцениваются два параметра (
).

Уровень значимости – величина, определяемая
,

где – доверительная вероятность попадания оцениваемого параметра в доверительный интервал. Обычно принимается 0,95. Таким образом– это вероятность того, что оцениваемый параметр не попадет в доверительный интервал, равная 0,05 (5%) .

Тогда в случае оценки значимости уравнения парной регрессии критическое значение F-критерия вычисляется как
:

.

Проверка гипотезы о значимости параметров уравнения парной регрессии и индекса корреляции

При проверке значимости параметров уравнения (предположения того, что параметры отличаются от нуля) выдвигается основная гипотеза о незначимости полученных оценок (
. В качестве альтернативной (обратной) выдвигается гипотеза о значимости параметров уравнения (
).

Для проверки выдвинутых гипотез используется t -критерий (t -статистика) Стьюдента . Наблюдаемое значение t -критерия сравнивается со значением t -критерия, определяемого по таблице распределения Стьюдента (критическим значением). Критическое значение t -критерия
зависит от двух параметров: уровня значимостии числа степеней свободы
.

Выдвинутые гипотезы проверяются следующим образом:

1) если модуль наблюдаемого значения t -критерия больше критического значения t -критерия, т.е.
, то с вероятностью
основную гипотезу о незначимости параметров регрессии отвергают, т.е. параметры регрессии не равны 0;

2) если модуль наблюдаемого значения t -критерия меньше или равен критическому значению t -критерия, т.е.
, то с вероятностью
основная гипотеза о незначимости параметров регрессии принимается, т.е. параметры регрессии почти не отличаются от 0 или равны 0.

Оценка значимости коэффициентов регрессии с помощью критерия Стьюдента проводится путем сопоставления их оценок с величиной стандартной ошибки:

;

Для оценки статистической значимости индекса (линейного коэффициента) корреляции применяется также t -критерий Стьюдента.