Точечный прогноз заключается в получении прогнозного значения уp , которое определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения xp:

уp = a + b* xp

Интервальный прогноз заключается в построении доверительного интервала прогноза, т. е. нижней и верхней границ уpmin , уpmax интервала, содержащего точную величину для прогнозного значения yp (ypmin < yp < ypmin ) с заданной вероятностью.

При построении доверительного интервала прогноза используется стандартная ошибка прогноза :

Где

Строится доверительный интервал прогноза :

Множественный регрессионный анализ

(слайд 1) Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и необходимо учитывать влияние нескольких факторов. Например, объем выпуска продукции определяется величиной основных и оборотных средств, численностью персонала, уровнем менеджмента и т. д., уровень спроса зависит не только от цены, но и от имеющихся у населения денежных средств.

Основная цель множественной регрессии – построить модель с несколькими факторами и определить при этом влияние каждого фактора в отдельности, а также их совместное воздействие на изучаемый показатель.

Таким образом, множественная регрессия – это уравнение связи с несколькими независимыми переменными:

(слайд 2) Построение уравнения множественной регрессии

1. Постановка задачи

По имеющимся данным n наблюдений (табл. 3.1) за совместным изменением p +1 параметра y и xj и ((yi,xj,i ); j =1, 2, ..., p ; i =1, 2, ..., n ) необходимо определить аналитическую зависимость ŷ = f(x1 ,x2 ,...,xp) , наилучшим образом описывающую данные наблюдений.

Таблица 3.1

Данные наблюдений

x1 1

х1 2

х1 n

x 2 n

Каждая строка таблицы представляет собой результат одного наблюдения. Наблюдения различаются условиями их проведения.

Вопрос о том, какую зависимость следует считать наилучшей, решается на основе какого-либо критерия. В качестве такого критерия обычно используется минимум суммы квадратов отклонений расчетных значений результативного показателя ŷi от наблюдаемых значений yi:

2. Спецификация модели

(слайд 3) Спецификация модели включает в себя решение двух задач:

– отбор факторов, подлежащих включению в модель;

– выбор формы уравнения регрессии.

2.1. Отбор факторов при построении множественной регрессии

Включение в уравнение множественной регрессии того или иного набора факторов связано прежде всего с представлениями исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями.

К факторам, включаемым в модель, предъявляются следующие требования :

1. Факторы должны быть количественно измеримы. Включение фактора в модель должно приводить к существенному увеличению доли объясненной части в общей вариации зависимой переменной. Поскольку данная величина характеризуется коэффициентом детерминации , включение нового фактора в модель должно приводить к заметному изменению коэффициента. Если этого не происходит, то включаемый в анализ фактор не улучшает модель и является лишним.

Например, если для регрессии, включающей 5 факторов, коэффициент детерминации составил 0,85, и включение шестого фактора дало коэффициент детерминации 0,86, то вряд ли целесообразно дополнять модель этим фактором.

Если необходимо включить в модель качественный фактор, не имеющий количественной оценки, то нужно придать ему количественную определенность. В этом случае в модель включается соответствующая ему «фиктивная» переменная , имеющая конечное количество формально численных значений, соответствующих градациям качественного фактора (балл, ранг).

Например, если нужно учесть влияние уровня образования (на размер заработной платы), то в уравнение регрессии можно включить переменную, принимающую значения: 0 – при начальном образовании, 1 – при среднем, 2 – при высшем.

Несмотря на то, что теоретически регрессионная модель позволяет учесть любое количество факторов, на практике в этом нет необходимости, т.к. неоправданное их увеличение приводит к затруднениям в интерпретации модели и снижению достоверности результатов.

2. Факторы не должны быть взаимно коррелированы и, тем более, находиться в точной функциональной связи. Наличие высокой степени коррелированности между факторами может привести к неустойчивости и ненадежности оценок коэффициентов регрессии, а также к невозможности выделить изолированное влияние факторов на результативный показатель. В результате параметры регрессии оказываются неинтерпретируемыми.

Пример . Рассмотрим регрессию себестоимости единицы продукции (у ) от заработной платы работника (х ) и производительности труда в час (z ).

Коэффициент регрессии при переменной z показывает, что с ростом производительности труда на 1 ед-цу в час себестоимость единицы продукции снижается в среднем на 10 руб. при постоянном уровне оплаты труда.

А параметр при х нельзя интерпретировать как снижение себестоимости единицы продукции за счет роста заработной платы. Отрицательное значение коэффициента регрессии в данном случае обусловлено высокой корреляцией между х и z (0,95).

(слайд 4) Считается, что две переменные явно коллинеарны , т.е. находятся между собой в линейной зависимости, если коэффициент интеркорреляции (корреляции между двумя объясняющими переменными) ≥ 0,7. Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из уравнения. Предпочтение при этом отдается не тому фактору, который более тесно связан с результатом, а тому, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Наряду с парной коллинеарностью может иметь место линейная зависимость между более чем двумя переменными – мультиколлинеарность , т.е. совокупное воздействие факторов друг на друга.

Наличие мультиколлинеарности факторов может означать, что некоторые факторы всегда будут действовать в унисон. В результате вариация в исходных данных перестанет быть полностью независимой, что не позволит оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью МНК.

(слайд 5) Включение в модель мультиколлинеарных факторов нежелательно по следующим причинам :

    затрудняется интерпретация параметров множественной регрессии; параметры линейной регрессии теряют экономический смысл;

    оценки параметров не надежны, имеют большие стандартные ошибки и меняются с изменением количества наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

(слайд 6) Для оценки мультиколлинеарности используется определитель матрицы парных коэффициентов интеркорреляции :

(!) Если факторы не коррелируют между собой , то матрица коэффициентов интеркорреляции является единичной, поскольку в этом случае все недиагональные элементы равны 0. Например, для уравнения с тремя переменными матрица коэффициентов интеркорреляции имела бы определитель, равный 1, поскольку
и
.

(слайд 7)

(!) Если между факторами существует полная линейная зависимость и все коэффициенты корреляции равны 1, то определитель такой матрицы равен 0 (Если две строки матрицы совпадают, то её определитель равен нулю).

Чем ближе к 0 определитель матрицы коэффициентов интеркорреляции, тем сильнее мультиколлинеарность и ненадежнее результаты множественной регрессии.

Чем ближе к 1 определитель матрицы коэффициентов интеркорреляции, тем меньше мультиколлинеарность факторов.

(слайд 8) Способы преодоления мультиколлинеарности факторов :

1) исключение из модели одного или нескольких факторов;

2) переход к совмещенным уравнениям регрессии, т.е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Например, если
, то можно построить следующее совмещенное уравнение:;

3) переход к уравнениям приведенной формы (в уравнение регрессии подставляется рассматриваемый фактор, выраженный из другого уравнения).

(слайд 9) 2.2. Выбор формы уравнения регрессии

Различают следующие виды уравнений множественной регрессии :

    линейные,

    нелинейные, сводящиеся к линейным,

    нелинейные, не сводящиеся к линейным (внутренне нелинейные).

В первых двух случаях для оценки параметров модели применяются методы классического линейного регрессионного анализа. В случае внутренне нелинейных уравнений для оценки параметров применяются методы нелинейной оптимизации.

Основное требование, предъявляемое к уравнениям регрессии, заключается в наличии наглядной экономической интерпретации модели и ее параметров. Исходя из этих соображений, наиболее часто используются линейная и степенная зависимости.

Линейная множественная регрессия имеет вид:

Параметры bi при факторах хi называются коэффициентами «чистой» регрессии . Они показывают, на сколько единиц в среднем изменится результативный признак за счет изменения соответствующего фактора на единицу при неизмененном значении других факторов, закрепленных на среднем уровне.

(слайд 10) Например, зависимость спроса на товар (Qd) от цены (P) и дохода (I) характеризуется следующим уравнением:

Qd = 2,5 - 0,12P + 0,23 I.

Коэффициенты данного уравнения говорят о том, что при увеличении цены на единицу, спрос уменьшится в среднем на 0,12 единиц, а при увеличении дохода на единицу, спрос возрастет в среднем 0,23 единицы.

Параметр а не всегда может быть содержательно проинтерпретирован.

Степенная множественная регрессия имеет вид:

Параметры bj (степени факторов хi ) являются коэффициентами эластичности. Они показывают, на сколько % в среднем изменится результативный признак за счет изменения соответствующего фактора на 1% при неизмененном значении остальных факторов.

Наиболее широкое применение этот вид уравнения регрессии получил в производственных функциях, а также при исследовании спроса и потребления.

Например, зависимость выпуска продукции Y от затрат капитала K и труда L:
говорит о том, что увеличение затрат капитала K на 1% при неизменных затратах труда вызывает увеличение выпуска продукции Y на 0,23%. Увеличение затрат труда L на 1% при неизменных затратах капитала K вызывает увеличение выпуска продукции Y на 0,81 %.

Возможны и другие линеаризуемые функции для построения уравнения множественной регрессии:


Чем сложнее функция, тем менее интерпретируемы ее параметры. Кроме того, необходимо помнить о соотношении между количеством наблюдений и количеством факторов в модели. Так, для анализа трехфакторной модели должно быть проведено не менее 21 наблюдения.

(слайд 11) 3. Оценка параметров модели

Параметры уравнения множественной регрессии оцениваются, как и в парной регрессии, методом наименьших квадратов , согласно которому следует выбирать такие значения параметров а и bi , при которых сумма квадратов отклонений фактических значений результативного признака yi от теоретических значений ŷ минимальна, т. е.:

Если , тогдаS является функцией неизвестных параметров a , bi :

Чтобы найти минимум функции, нужно найти частные производные по каждому из параметров и приравнять их к 0:

Отсюда получаем систему уравнений:

(слайд 12) Ее решение может быть осуществлено методом определителей:

,

где – определитель системы;

a , ∆ b 1, ∆ bp – частные определители (j ).

–определитель системы,

j – частные определители, которые получаются из основного определителя путем замены j-го столбца на столбец свободных членов .

При использовании данного метода возможно возникновение следующих ситуаций:

1) если основной определитель системы Δ равен нулю и все определители Δj также равны нулю, то данная система имеет бесконечное множество решений;

2) если основной определитель системы Δ равен нулю и хотя бы один из определителей Δj также равен нулю, то система решений не имеет.

(слайд 13) Помимо классического МНК для определения неизвестных параметров линейной модели множественной регрессии используется метод оценки параметров через β -коэффициенты – стандартизованные коэффициенты регрессии.

Построение модели множественной регрессии в стандартизированном, или нормированном, масштабе означает, что все переменные, включенные в модель регрессии, стандартизируются с помощью специальных формул.

У равнение регрессии в стандартизованном масштабе:

где
,
- стандартизованные переменные;

- стандартизованные коэффициенты регрессии.

Т.е. посредством процесса стандартизации точкой отсчета для каждой нормированной переменной устанавливается ее среднее значение по выборочной совокупности. При этом в качестве единицы измерения стандартизированной переменной принимается ее среднеквадратическое отклонение σ .

β -коэффициенты показывают , на сколько сигм (средних квадратических отклонений) изменится в среднем результат за счет изменения соответствующего фактора xi на одну сигму при неизменном среднем уровне других факторов.

Стандартизованные коэффициенты регрессии βi сравнимы между собой, что позволяет ранжировать факторы по силе их воздействия на результат. Большее относительное влияние на изменение результативной переменной y оказывает тот фактор, которому соответствует большее по модулю значение коэффициента βi . В этом основное достоинство стандартизованных коэффициентов регрессии , в отличие от коэффициентов «чистой» регрессии, которые не сравнимы между собой.

(слайд 14) Связь коэффициентов «чистой» регрессии bi с коэффициентами βi описывается соотношением:

, или

Параметр a определяется как .

Коэффициенты β определяются при помощи МНК из следующей системы уравнений методом определителей:

Для оценки параметров нелинейных уравнений множественной регрессии предварительно осуществляется преобразование последних в линейную форму (с помощью замены переменных) и МНК применяется для нахождения параметров линейного уравнения множественной регрессии в преобразованных переменных. В случае внутренне нелинейных зависимостей для оценки параметров приходится применять методы нелинейной оптимизации.

(слайд 1) 4. Проверка качества уравнения регрессии

Практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции и его квадрата – коэффициента детерминации.

Показатель множественной корреляции характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком, т.е. оценивает тесноту совместного влияния факторов на результат.

Независимо от формы связи показатель множественной корреляции рассчитывается по формуле:

Коэффициент множественной корреляции принимает значения в диапазоне 0 ≤ R ≤ 1. Чем ближе он к 1, тем теснее связь результативного признака со всем набором исследуемых факторов.

При линейной зависимости признаков формулу индекса множественной корреляции можно записать в виде:

,

где - стандартизованные коэффициенты регрессии,

- парные коэффициенты корреляции результата с каждым фактором.

Данная формула получила название линейного коэффициента множественной корреляции , или совокупного коэффициента корреляции .

Индекс детерминации для нелинейных по оцениваемым параметрам функций принято называть «квази-
».
Для его определения по функциям, использующим логарифмические преобразования (степенная, экспонента), необходимо сначала найти теоретические значения ln y, затем трансформировать их через антилогарифмы (антилогарифм ln y = y) и далее определить индекс детерминации как «квази-
» по формуле:

.

Величина «квази-
» не будет совпадать с совокупным коэффициентом корреляции, который может быть рассчитан для линейного в логарифмах уравнения множественной регрессии, потому что в последнем раскладывается на факторную и остаточную суммы квадратов не
, а
.

(слайд 2) Использование коэффициента множественной детерминации
для оценки качества модели обладает тем недостатком, что включение в модель нового фактора (даже несущественного) автоматически увеличивает величину
.
Поэтому при большом количестве факторов предпочтительней использовать так называемый скорректированный (улучшенный) коэффициент множественной детерминации
, определяемый соотношением:

где n – число наблюдений,

m – число параметров при переменных х (чем больше величина m, тем сильнее различия между к-том множ. детерминации
и скорректированным к-том
).

При заданном объеме наблюдений и при прочих равных условиях с увеличением числа независимых переменных (параметров) скорректированный к-т множ. детерминации убывает. Его величина может стать и отрицательной при слабых связях результата с факторами. При небольшом числе наблюдений нескорректированная величина к-та имеет тенденцию переоценивать долю вариации результативного признака, связанную с влиянием факторов, включенных в регрессионную модель. Чем больше объем совокупности, по которой исчислена регрессия, тем меньше различаются
и
.

Отметим, что низкое значение коэффициента множественной корреляции и коэффициента множественной детерминации может быть обусловлено следующими причинами :

– в регрессионную модель не включены существенные факторы;

– неверно выбрана форма аналитической зависимости, не отражающая реальные соотношения между переменными, включенными в модель.

(слайд 3) Значимость уравнения множественной регрессии в целом оценивается с помощью F - критерия Фишера :

Выдвигаемая «нулевая» гипотеза H0 о статистической незначимости уравнения регрессии отвергается при выполнении условия F > F крит, где F крит определяется по таблицам F -критерия Фишера по двум степеням свободы k 1 = m , k 2= n- m - 1 и заданному уровню значимости α.

Значимость одного и того же фактора может быть различной в зависимости от последовательности введения его в модель.

(слайд 4) Мерой для оценки включения фактора в модель служит частный F -критерий (оценивает статистическую значимость присутствия каждого из факторов в уравнении):

,

где
- коэффициент множ. детерминации для модели с полным

набором факторов;

- тот же показатель, но без включения в модель фактора х1 ;

n – число наблюдений;

m – число параметров при переменных х.

Если фактическое значение F превышает табличное, то дополнительное включение в модель фактора xi статистически оправдано и коэффициент чистой регрессии bi при факторе xi статистически значим.

Если же фактическое значение F меньше табличного, то нецелесообразно включать в модель дополнительный фактор, поскольку он не увеличивает существенно долю объясненной вариации результата, а коэффициент регрессии при данном факторе статистически не значим.

(слайд 5) Частный F-критерий оценивает значимость коэффициентов чистой регрессии. Зная величину , можно определить и t -критерий Стьюдента :

или

где m bi – средняя квадратическая ошибка коэффициента регрессии b i , она может быть определена по формуле:

.

Величина стандартной ошибки совместно с t-распределением Стьюдента при n-m-1 степенях свободы применяется для проверки значимости коэффициента регрессии и для расчета его доверительного интервала.

Назначение сервиса . Сервис используется для расчета параметров тренда временного ряда y t онлайн с помощью метода наименьших квадратов (МНК) (см. пример нахождения уравнения тренда), а также способом от условного нуля. Для этого строится система уравнений:
a 0 n + a 1 ∑t = ∑y
a 0 ∑t + a 1 ∑t 2 = ∑y t

и таблица следующего вида:

t y t 2 y 2 t y y(t)
1
... ... ... ... ... ...
N
ИТОГО

Инструкция . Укажите количество данных (количество строк). Полученное решение сохраняется в файле Word и Excel .

Количество строк (исходных данных)
Использовать способ отсчета времени от условного начала (перенос начала координат в середину ряда динамики)
",1);">

Тенденция временного ряда характеризует совокупность факторов, оказывающих долговременное влияние и формирующих общую динамику изучаемого показателя.

Способ отсчета времени от условного начала

Для определения параметров математической функции при анализе тренда в рядах динамики используется способ отсчета времени от условного начала. Он основан на обозначении в ряду динамики показаний времени таким образом, чтобы ∑t i . При этом в ряду динамики с нечетным числом уровней порядковый номер уровня, находящегося в середине ряда, обозначают через нулевое значение и принимают его за условное начало отсчета времени с интервалом +1 всех последующих уровней и –1 всех предыдущих уровней. Например, при обозначения времени будут: –2, –1, 0, +1, +2 . При четном числе уровней порядковые номера верхней половины ряда (от середины) обозначаются числами: –1, –3, –5 , а нижней половины ряда обозначаются +1, +3, +5 .

Пример . Статистическое изучение динамики численности населения.

  1. С помощью цепных, базисных, средних показателей динамики оцените изменение численности, запишите выводы.
  2. С помощью метода аналитического выравнивания (по прямой и параболе, определив коэффициенты с помощью МНК) выявите основную тенденцию в развитии явления (численность населения Республики Коми). Оцените качество полученных моделей с помощью ошибок и коэффициентов аппроксимации.
  3. Определите коэффициенты линейного и параболического трендов с помощью средств «Мастера диаграмм». Дайте точечный и интервальный прогнозы численности на 2010 г. Запишите выводы.
1990 1996 2001 2002 2003 2004 2005 2006 2007 2008
1249 1133 1043 1030 1016 1005 996 985 975 968
Метод аналитического выравнивания

а) Линейное уравнение тренда имеет вид y = bt + a
1. Находим параметры уравнения методом наименьших квадратов . Используем способ отсчета времени от условного начала.
Система уравнений МНК для линейного тренда имеет вид:
a 0 n + a 1 ∑t = ∑y
a 0 ∑t + a 1 ∑t 2 = ∑y t

t y t 2 y 2 t y
-9 1249 81 1560001 -11241
-7 1133 49 1283689 -7931
-5 1043 25 1087849 -5215
-3 1030 9 1060900 -3090
-1 1016 1 1032256 -1016
1 1005 1 1010025 1005
3 996 9 992016 2988
5 985 25 970225 4925
7 975 49 950625 6825
9 968 81 937024 8712
0 10400 330 10884610 -4038

Для наших данных система уравнений примет вид:
10a 0 + 0a 1 = 10400
0a 0 + 330a 1 = -4038
Из первого уравнения выражаем а 0 и подставим во второе уравнение
Получаем a 0 = -12.236, a 1 = 1040
Уравнение тренда:
y = -12.236 t + 1040

Оценим качество уравнения тренда с помощью ошибки абсолютной аппроксимации.

Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения тренда к исходным данным.

б) выравнивание по параболе
Уравнение тренда имеет вид y = at 2 + bt + c
1. Находим параметры уравнения методом наименьших квадратов.
Система уравнений МНК:
a 0 n + a 1 ∑t + a 2 ∑t 2 = ∑y
a 0 ∑t + a 1 ∑t 2 + a 2 ∑t 3 = ∑yt
a 0 ∑t 2 + a 1 ∑t 3 + a 2 ∑t 4 = ∑yt 2

t y t 2 y 2 t y t 3 t 4 t 2 y
-9 1249 81 1560001 -11241 -729 6561 101169
-7 1133 49 1283689 -7931 -343 2401 55517
-5 1043 25 1087849 -5215 -125 625 26075
-3 1030 9 1060900 -3090 -27 81 9270
-1 1016 1 1032256 -1016 -1 1 1016
1 1005 1 1010025 1005 1 1 1005
3 996 9 992016 2988 27 81 8964
5 985 25 970225 4925 125 625 24625
7 975 49 950625 6825 343 2401 47775
9 968 81 937024 8712 729 6561 78408
0 10400 330 10884610 -4038 0 19338 353824

Для наших данных система уравнений имеет вид
10a 0 + 0a 1 + 330a 2 = 10400
0a 0 + 330a 1 + 0a 2 = -4038
330a 0 + 0a 1 + 19338a 2 = 353824
Получаем a 0 = 1.258, a 1 = -12.236, a 2 = 998.5
Уравнение тренда:
y = 1.258t 2 -12.236t+998.5

Ошибка аппроксимации для параболического уравнения тренда.

Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве тренда.

Минимальная ошибка аппроксимации при выравнивании по параболе. К тому же коэффициент детерминации R 2 выше чем при линейной. Следовательно, для прогнозирования необходимо использовать уравнение по параболе.

Интервальный прогноз.
Определим среднеквадратическую ошибку прогнозируемого показателя.

m = 1 - количество влияющих факторов в уравнении тренда.
Uy = y n+L ± K
где

L - период упреждения; у n+L - точечный прогноз по модели на (n + L)-й момент времени; n - количество наблюдений во временном ряду; Sy - стандартная ошибка прогнозируемого показателя; T табл - табличное значение критерия Стьюдента для уровня значимости α и для числа степеней свободы, равного n-2 .
По таблице Стьюдента находим Tтабл
T табл (n-m-1;α/2) = (8;0.025) = 2.306
Точечный прогноз, t = 10: y(10) = 1.26*10 2 -12.24*10 + 998.5 = 1001.89 тыс. чел.

1001.89 - 71.13 = 930.76 ; 1001.89 + 71.13 = 1073.02
Интервальный прогноз:
t = 9+1 = 10: (930.76;1073.02)

Определение автокорреляции

Автокорреляция характеризует связь между наблюдениями одного ряда. Ее можно представить как связь между исходным временным рядом и тем же рядом, сдвинутым на l шагов. Набор коэффициентов автокорреляции при различных l называется автокорреляционной функцией.

Значение коэффициента автокорреляции для различных l можно использовать для определения оптимального периода прогнозирования. Если , то прогнозировать экономический показатель на l шагов имеет смысл. Коэффициент автокорреляции можно вычислить по формуле:

Пример:вычислить коэффициенты автокорреляции для рассматриваемого ряда.

l=1 r 1 =0.617

l=2 r 2 =0.248

l=3 r 3 =0.107

Прогнозировать па один шаг вперед в принципе возможно, так как значение коэффициента автокорреляции при l=1 близко к 0.7 и связь между соседними наблюдениями временного ряда можно считать достаточной.

Контрольные вопросы:

1.Что называется автокорреляцией?

2. Длячего используют коэффициент автокорреляции?

3. Какие значения может принимать коэффициент автокорреляции?

4. Какие значения коэффициента автокорреляции при различной

величине сдвига определяют тесную связь и оптимальный период

прогнозирования?

5.Что называется автокорреляционной функцией?

Заключительным этапом анализа и построения модели является получение прогнозных оценок исследуемого показателя. Прогноз осуществляют подстановкой в выбранную модель значений времени t , входящих в период упреждения. Поскольку для каждого значения t получают только одно значение прогнозируемого показателя, то такой прогноз называется точечным. Т.к. в большинстве случаев социально-экономические процессы носят стохастический характер, то вероятность того, что расчетное значение прогнозируемого показателя совпадет с фактическим, практически равна нулю. Поэтому в дополнение к точечному прогнозу строят доверительный интервал, который учитывает случайный характер исследуемого процесса. Верхняя и нижняя границы доверительного интервала прогноза находятся по формулам:



где - расчетное по модели значение прогнозируемого показателя в момент времени t=n+l , n – длина временного ряда, l - период прогнозирования;

Значение t-критерия Стьюдента с вероятностью (табличное);

S p - среднеквадратическое отклонение прогнозируемого показателя.

Для линейной модели:

,

где ,(p – число параметров модели);

Если выбранная модель полностью адекватна и достаточно точна, то при сохранении сложившихся закономерностей динамики развития прогнозируемая величина с вероятностью попадает в доверительный интервал.

Оптимальный период прогнозирования определяется с помощью коэффициента автокорреляции, вычисленного при разных сдвигах l.

ПРИМЕР. Построить точечный и интервальный прогнозы для моделей кривой роста и Брауна.

а) прогноз для модели кривой роста (параболы)

б) прогноз для адаптивной модели Брауна

Контрольные вопросы:

1. Какой прогноз называется точечным?

2. Как получить точечный прогноз экономического показателя на ос модели прогнозирования

3. Какой прогноз называется интервальным?

4. Как получить интервальный прогноз экономического показателя на основе модели прогнозирования?

5. Чем отличается точечный прогноз от интервального?

6. От каких факторов зависит величина интервального прогноза?

Интервальные прогнозы строятся на основе точечных прогнозов. Доверительным интервалом называется такой интервал, относительно которого можно с заранее выбранной вероятностью утверждать, что он содержит значение прогнозируемого показателя.

Ширина интервала зависит от качества модели (т.е. степени ее близости к фактическим данным), числа наблюдений, горизонта прогнозирования, выбранного пользователем уровня вероятности и других факторов.

При построении доверительного интервала прогноза рассчитывается величина U(k), которая для линейной модели имеет вид

где S e – стандартная ошибка (среднеквадратическое отклонение от линии тренда);

n-р – число степеней свободы (для линейной модели у=а 0 +a 1 t количество параметров p = 2).

Коэффициент t a – табличное значение t-статистики Стьюдента при заданном уровне значимости и числе наблюдений. (Табличное значение t a можно получить с помощью функции Ехсеl СТЬЮДРАСПОБР).

Доверительный интервал прогноза будет иметь следующие границы:

Y прогн(n + k) + U(k) – верхняя граница; Y прогн(n + k) - U(k) – нижняя граница.

Если построенная модель адекватна, то с выбранной пользователем вероятностью можно утверждать, что при сохранении сложившихся закономерностей развития прогнозируемая величина попадает в интервал, образованный верхней и нижней границей. После получения прогнозных оценок необходимо убедиться в их разумности и непротиворечивости оценкам, полученным иным способом.

При краткосрочном прогнозировании обычно более важна динамика исследуемого показателя на конце периода наблюдений, а не тенденция его развития, сложившаяся в среднем на всем периоде предыстории. Свойство динамичности развития экономических процессов часто преобладает над свойством инерционности. Поэтому более эффективными являются адаптивные методы, учитывающие информационную неравноценность данных. Цель адаптивных методов – построение самокорректирующихся (самонастраивающихся) экономико-математических моделей, способных отражать изменяющиеся во времени условия и давать достаточно точные оценки будущих членов данного ряда.

Основные методы оценки качества прогноза

Важным этапом прогнозирования является верификация прогнозов, т.е. оценки их точности и обоснованности. На этапе верификации используют совокупность критериев, способов и процедур которые дают возможность оценить качество прогноза.

Наиболее распространенная ретроспективная оценка прогноза, т.е. оценка прогноза для прошедшего времени. Для этого исходная информация делится на две части, одна из которых охватывает более ранние данные, а другая - более поздние. С помощью данных первой группы (ретроспекции) оцениваются параметры модели прогноза, а данные второй группы рассматриваются как фактические данные прогнозируемого показателя. Полученная ретроспективно ошибка прогноза определенной степени характеризует точность применяемой методики прогнозирования.


Все показатели, используемые для анализа качества прогноза, можно разделить на три группы: абсолютные, сравнительные и качественные.

К абсолютным относятся показатели , позволяющие количественно определить величину ошибки прогноза в единицах измерения прогнозируемого объекта или в процентах:

Средняя ошибка прогноза показывает, на сколько в среднем будут отличаться фактические значения от расчетных при большом числе прогнозов. Этот показатель, как правило, используется при сравнении точности прогнозов разнородных объектов прогнозирования. Для оценки качества прогноза учитывают следующие виды ошибок:

- ME - Средняя ошибка (MeanError);

- МАЕ - Средняя абсолютная ошибка (MeanAbsoluteError);

- MSE - Среднеквадратическая ошибка (MeanSquaredError);

- MPE - Средняяпроцентнаяошибка (Mean Percentage Error);

- MAPE - Средняя абсолютная процентная ошибка (MeanAbsolutePercentageError).

Наибольшее распространение для оценки качества прогноза получила средняя абсолютная процентная ошибка (MAPE ), отображающая среднеарифметическую относительную погрешность на прогнозируемом интервале.

Сравнительные показатели точности прогноза основываются на сравнении ошибки рассматриваемого прогноза с эталонными прогнозам определенного вида

Один из типов таких показателей К) может быть в общем виде представлен так:

где р * - прогнозируемое значение величины эталонного прогноза

Качественные показатели точности прогноза дают возможность провести анализ видов ошибок прогноза, разделить их на составные Особенно такой анализ является важным для переменных, циклически меняются, когда необходимо прогнозировать не только общее направление развития, но и поворотные точки циклу.

Одним из методов такого анализа является диаграмма \"прогноз - реализация\" Сущность метода заключается в построении точечных прогнозов в координатах, в которых на одной оси откладывается реальное значение переменной, на другой ее прогнозируемое значение. Использование диаграммы позволяет содержательно оценить качество различных прогнозов, рассчитать коэффициенты, анализируют качество прогнозирования поворотных точек, выделить наиболее типичные ошибки (недооценки или переоценки изменений).

Для расчета доверительного интервала прогноза необходимо определить среднюю ошибку положения линии регрессии при заданном значении Другими словами, необходимо определить стандартную ошибку, предсказываемого по линии регрессии среднего значения экономического результата, при заданном значении Из предположения о независимости ошибок и следует независимость случайной величины (которая зависит только от ) и случайной величины (которая не зависит от в силу предпосылок МНК о случайности остатков). Тогда –по правилу сложения дисперсий независимых случайных величин.

В уравнении регрессии проведем усреднение и выделим параметр : . Последнее слагаемое равно 0 в силупредпосылок МНК. Теперь перепишем уравнение регрессии в виде:

Отсюда, зависит от дисперсии ошибки среднего значения величины , определенной при участии и дисперсии коэффициента . Имеем

Поскольку суммы теоретических (генеральных) и выборочных значений результативного признака совпадают, т.е. , то совпадают и средние значения этих рядов . Отсюда следует выражение для дисперсии первого слагаемого . Дисперсия коэффициента регрессии , как уже было показано, дается формулой .

Таким образом, формула для расчета стандартной дисперсии ошибки, предсказываемого по линии регрессии значения, имеет вид

Отсюда, ошибка положения лини регрессии при , дается формулой

Вычисленное значение позволяет сделать вывод, что в генеральной совокупности линия регрессии для фактора окажется в интервале

Очевидно, что величина стандартной ошибки будет минимальной, если и она будет возрастать при отклонении от . Таким образом, ошибка будет малой, если признак-фактор находится где-то вблизи центра корреляционного облака.

Если необходимо с некоторой вероятностью сделать прогноз расчетного значения ,по уравнению регрессии имея в виду уже генеральную совокупность статистических данных, то доверительный интервал дается выражением

Пусть , тогда .

Для интервального прогноза индивидуального значения (а не только одной линии регрессии, в целом, как прежде), найдем среднюю стандартную ошибку предсказываемого значения объема продаж. Она вычисляется как корень квадратный из суммы квадрата ошибки положения линии регрессии и остаточной (необъясненной) дисперсии

Индивидуальные значения y могут отклоняться от на величину случайной ошибки ε , рассчитываемой по остаточной дисперсии на одну степень свободы. Поэтому ошибка, предсказываемого отдельного значения, должна включать не только стандартную ошибку , которая характеризует положение линии регрессии, но и случайную ошибку (это добавляет 1-цу под знак корня).



Для индивидуального значения прогноза

где величина представляет собой табличное значение t- критерия Стьюдента на уровне значимости α при числе степеней свободы n –2.

Напомним, что доверительным интервалом называется такой интервал, для которого с наперед заданной вероятностью можно утверждать, что прогнозируемый показатель не выйдет за его пределы. Ширина интервала зависит от качества модели и выбранной вероятности.

К интервальному оцениванию прибегают при малых выборках, когда точечные оценки не являются устойчивыми. Объем выборки берется за основу, когда невозможно организовать сплошное наблюдение генеральной совокупности. Главная проблема эконометрического анализа, связанная с малой выборкой состоит в том, что случайные ошибки, измеряемой характеристики, подчиняются не гауссовскому закону распределения, а закону Стьюдента. В то время как распределение ошибок, исследуемой характеристики в генеральной совокупности, подчиняется гауссовскому закону или близкому к нему.

С точки зрения исходных статистических данных и уравнения регрессии качество модели определяется двумя показателями: адекватностью и точностью.

В общем случае различают два вида статистического прогнозирования: 1) факторное прогнозирование, основанное на количественном измерении параметров регрессии, в частности, коэффициента корреляции, значение которого предполагается неизменным; 2) авторегрессионное прогнозирование – по тренду и цикличности. К настоящему моменту мы рассматриваем – первое.

Вопросы для обсуждения

1. Объясните, чем вызвано появление в модели парной регрессии случайной переменной ε ?



2. Почему перед построением модели парной линейной регрессии необходимо рассчитывать коэффициент корреляции?

3. Объясните смысл понятия «число степеней свободы».

4. По каким вычислениям можно судить о значимости модели в целом?

5. Зачем необходимо рассчитывать t -критерий Стьюдента?

6. Зачем необходимо оценивать интервалы прогноза по линейному уравнению регрессии?

7. В каких пределах должна находиться ошибка аппроксимации, чтобы можно было сделать вывод о хорошем подборе модели к исходным данным?

8. В чем суть предсказания индивидуальных значений зависимой переменной?

9. В каких пределах находится коэффициент детерминации?

10. С увеличением объема выборки: а) увеличивается точность оценок; б) уменьшается ошибка регрессии; в) расширяются интервальные оценки; г) уменьшается коэффициент детерминации; д) увеличивается точность прогноза по модели. (Да; нет; не определено.Ответ поясните).