Общая схема проверки гипотез

Понятие и классификация статистических гипотез

Статистической гипотезой называется предположение относительно вида неизвестного распределения или параметров известных распределений наблюдаемой случайной величины.

Ранее в 5.2 рассматривались примеры 1, 2, где вычислялись выборочные характеристики, были построены полигон или гистограмма. Можно предположить, что данная случайная величина распределена по одному из известных законов. Следующий этап: нужно проверить, что экспериментальные данные соответствуют высказанной гипотезе и принять её. Этот этап называется проверкой статистической гипотезы. Алгоритм проверки гипотезы называется решающим правилом. Так как гипотеза выдвигалась на основе выборочных данных, то гипотеза будет носить вероятностный характер.

К основным задачам математической статистики относятся:

  1. Статистическая проверка гипотез о параметрах распределения. В этом случае предполагается, что закон распределения случайной величины установлен. Пусть совокупность распределена по нормальному закону. Выдвигается гипотеза о математическом ожидании в предполагаемом диапазоне.
  2. Статистическая проверка гипотез о законе распределения случайной величины. Гипотезы о виде распределения выдвигаются в условиях недостаточной информации о выборке.

Практически экспериментальные данные при большой выборке приближаются к нормальному закону. Выдвинув такую гипотезу, далее следует найти доверительные интервалы для параметров этого распределения. Проверяемая гипотеза называется нулевой (основной), наиболее правдоподобной по каким-то соображениям, и обозначают её H 0 . Наряду с основной гипотезой рассматривают альтернативную (конкурирующую) гипотезу H 1 , противоречащую основной. Выдвинутая нулевая гипотеза нуждается в дальнейшей проверке.

При этом могут быть допущены ошибки двух типов:

  1. Ошибка первого рода – отвергнута правильная гипотеза;
  2. Ошибка второго рода – принята неправильная гипотеза.

Для проверки нулевой гипотезы используют специально подобранную случайную величину, точное или приближённое распределение которой известно, обозначают её через Z, если она распределена нормально, T – по закону Стьюдента, c 2 – по закону «хи–квадрат». Данная специально подобранная случайная величина называется статистическим критерием или критерием значимости, который в дальнейшем будет обозначаться через Z. Статистический критерий служит для проверки нулевой гипотезы.

Например, если проверяют гипотезу о равенстве дисперсий двух нормальных генеральных совокупностей, то в качестве критерия принимают отношение исправленных выборочных дисперсий. Для проверки гипотезы по данным выборок вычисляют частные значения входящих в критерий величин и получают наблюдаемое значение критерия. Наблюдаемым значением критерия Z набл называют значение критерия, вычисленное по выборкам. Например, если по двум выборкам найдены выборочные дисперсии d 1 =27; d 2 =9, то наблюдаемое значение критерия равно отношению большей исправленной дисперсии к меньшей: Задачу проверки гипотез можно сформулировать следующим образом.



1. Требуется найти случайную величину Z, которую ещё называют статистикой критерия, удовлетворяющую двум основным требованиям:

б) Распределение критерия известно в предположении, что нулевая гипотеза верна.

2. После поиска или выбора статистики находится критическая область. На числовой оси выделяется область, попадание в которую для случайной величины маловероятно. Малая вероятность задаётся, как и в доверительных интервалах, малым числом – a, которое называют уровнем значимости. Вероятность совершить ошибку первого рода (вероятность отвергнуть правильную гипотезу) равна a – уровню значимости.

Критической областью называют совокупность значений критерия Z, при которых нулевую гипотезу отвергают. Областью принятия гипотез называют совокупность значений критерия Z, при которых нулевую гипотезу принимают.

Критическими точками (границами) – z kp называют точки, отделяющие критическую область от области принятия гипотезы.

Различают три вида критической области:

  • правосторонняя, определяемая неравенством Z > z kp > 0;
  • левосторонняя, определяемая неравенством Z < z kp < 0;
  • двусторонняя, определяемая неравенством Z < -z кр; Z > z кр.

В частности, если критические точки симметричны относительно нуля, то двусторонняя критическая область определяется неравенством ½Z½ > z kp > 0. При отыскании критической области задаются достаточно малой вероятностью – уровнем значимости a и ищут критические точки, исходя из требования, чтобы вероятность того, что критерий Z примет значения, лежащие в критической области, была равна принятому уровню значимости. В результате получают:

  • для правосторонней критической области:
P (Z > z kp) = a; (7.1)
  • для левосторонней критической области P (Z < z kp) = a;
  • для двусторонней симметричной области P (Z > z kp) = a/2 .

Основной принцип статистической проверки гипотез заключается в следующем:

  • Если наблюдаемое значение критерия Z набл, вычисленное по данным выборки, принадлежит критической области, то гипотезу отвергают.
  • Если наблюдаемое значение не принадлежит критической области, то нет оснований отвергать гипотезу.

Для каждого критерия имеются соответствующие таблицы, позволяющие по a найти критические точки z kp , удовлетворяющие требованию (7.1).

ПРОВЕРКА ГИПОТЕЗ О ПАРАМЕТРАХ РАСПРЕДЕЛЕНИЙ

1) Пусть имеется две выборки некоторой одной случайной величины, полученные в разных условиях, или двух разных случайных величин. Требуется проверить, одинаковы ли истинные математические ожидания, соответствующие этим выборкам. Такую ситуацию можно просмотреть на следующем примере.

Имеется две производственные линии, выпускающие одинаковые изделия. Качество изготовленного изделия характеризуется случайной величиной X. Был осуществлён контроль n изделий, изготовленных на первой линии, и получена выборка X n = (x 1 , x 2 , …, x n). По второй линии осуществлён контроль над k изделиями и получена выборка X′ k = (x′ 1 , x′ 2 , …, x′ k). По этим выборкам нужно принять решение о том, одинаковые ли истинные математические ожидания величины X для этих линий.

Будем предполагать, что X имеет нормальное распределение: N(m 1 , σ 1 2) для первой линии и N(m 2 , σ 2 2) для второй линии.

Рассмотрим сначала вариант, когда σ 1 и σ 2 известны . Выдвигаем гипотезу H 0: m 1 = m 2 , т.е. математические ожидания одинаковы. Альтернативной гипотезой будет H 1: m 1 ≠ m 2.

Оценка m 1 * будет иметь нормальное распределение с параметрами m 1 и σ 1 2 /n , а оценка m 2 * – нормальное распределение с параметрами m 2 и σ 2 2 /k . Если гипотеза H 0 верна, то разность m 1 * – m 2 * будет распределена по нормальному закону с параметрами 0 и

Следовательно, величина

, (1)

является центрированной и нормированной нормально распределённой случайной величиной. Найдём двухстороннюю критическую область, пользуясь этим фактом. Положим

функция Лапласа. Таким образом, чтобы найти критическое значение t α , нужно решить уравнение

, (2)

при заданном уровне значимости α, пользуясь таблицей нормального распределения. Критическая область определяется неравенством Отсюда вытекает правило принятия решения: если вычисленное значение t удовлетворяет неравенству – t α < t < t α , то гипотеза H 0 принимается, если, напротив, , то гипотеза H 0 отвергается.

Смысл этого правила состоит в том, что t имеет нормальное эталонное распределение только при равенстве истинных математических ожиданий. Для неравенства задана достаточно малая вероятность α. Если оно реализуется, то это означает, что произошло маловероятное событие. Мы предполагаем, что где-то в наших рассуждениях допущена ошибка. Ошибка может быть только в одном, а именно, в предположении о том, что гипотеза H 0 истинна. Следовательно, гипотезу нужно отвергнуть. Заметим, что в таком случае мы совершаем ошибку с вероятностью α.

Исследуемая величина не обязательно должна иметь нормальное распределение. При больших n и k (порядка десятков) можно применять нормальное распределение, что оправдывается законом больших чисел. Если дисперсии одинаковы σ 1 2 = σ 2 2 = σ 2 и одинаковы объёмы выборок n = k, то вычисление t упрощается:

, (3)

Рассмотрим теперь случай, когда σ 1 и σ 2 неизвестны. Будем считать, что σ 1 2 = σ 2 2 = σ 2 . Вычислим оценки этих дисперсии по первой и второй выборкам S 1 2 и S 2 2:

Если гипотеза H 0 верна, то разность m 1 * – m 2 * будет распределена по нормальному закону с нулевым математическим ожиданием, а величина

будет распределена по закону Стьюдента с n + k – 2 степенями свободы. Таким образом, уравнение

следует решать по таблицам распределения Стьюдента.

Пример 1. На двух заводах выпускаются автомобильные шины одной и той же марки. Были исследованы данные по времени нормальной эксплуатации шин. По 20 шинам первого завода были вычислены m 1 * = 36200 (км. пробега) и S 1 2 = 252400. По 40 шинам второго завода были вычислены m 2 * = 37800(км. пробега) и S 2 2 = 326200. С уровнем значимости α = 0,05 проверить гипотезу о том, что средний пробег шин, изготовленных на этих заводах, одинаков.

Решение. Вычислим S:

Решим уравнение

По таблицам распределения Стьюдента с числом степеней свободы 58 находим t α = 2. Так как

то гипотезу о равенстве среднего пробега шин, изготовленных на разных заводах, следует отвергнуть.

2) Рассмотрим снова две выборки. Первая выборка X n = (x 1 , x 2 , …, x n) X , вторая выборка Y k = (y 1 , y 2 , …, y k) представляет измерения случайной величины Y . Пусть вычислены оценки дисперсий:

Требуется проверить гипотезу о том, что истинные дисперсии этих величин одинаковы. Выдвигаем гипотезу H 0: σ x 2 = σ y 2 , т.е. дисперсии одинаковы. Альтернативной гипотезой будет H 1: σ x 2 ≠ σ y 2 . Если величины X и Y имеют нормальное распределение, то отношение F = S x 2 /S y 2 будет иметь F-распределение (Фишера) со степенями свободы n – 1 и k – 1. Так как F-распределение не является симметричным, то можно построить двухстороннюю критическую область, полагая

P{F ≤ F1} = α/2 и P{F ≥ F2} = α/2.

Решая эти уравнения по таблице F-распределения, находим критические значения F 1 и F 2 .

Правило принятия решения: если F 1 < F < F 2 , то гипотеза о равенстве дисперсий принимается, в противном случае эта гипотеза отвергается.

Удобнее строить одностороннюю критическую область. Для этого в отношении F в знаменателе всегда нужно ставить меньшую оценку из S x 2 и S y 2 . Тогда F будет всегда больше единицы и нижняя граница не потребуется. Полагают

, (5)

и решают уравнение

(6)

используя таблицы F-распределения с учётом чисел степеней свободы. Если F < F α , то гипотеза о равенстве дисперсий принимается, если F ≥ F α , то эта гипотеза отвергается.

Пример 2. По данным примера 1 с уровнем значимости α = 0,05 проверить гипотезу о равенстве истинных дисперсий пробега шин, изготовленных на первом и втором заводах.

Решение . В примере 1 мы предполагали, что они одинаковы. Так ли это?

Так как оценки дисперсий уже вычислены, то строим отношение F по формуле (5):

Решаем по таблицам уравнение P{F ≥ Fα} = 0,05, учитывая, что число степеней свободы меньшей дисперсии равно 19, а большей дисперсии – 39. Находим критическое значение: F α = 2,02. Так как F = 1,3 < 2,02 = F α , то гипотезу о равенстве истинных дисперсий можно принять.



Данный критерий можно применить и для сравнения двух или нескольких математических ожиданий. В частности, этот критерий в таком варианте применяется в дисперсионном анализе.

КОНТРОЛЬНЫЕ ВОПРОСЫ

1. Как находят двухстороннюю критическую область при сравнении математических ожиданий при известных дисперсиях?

2. Как находят двухстороннюю критическую область при сравнении математических ожиданий в случае неизвестных дисперсий?

3. Сформулируйте правило принятия решения при сравнении истинных дисперсий.

4. Как строится двухсторонняя критическая область при сравнении дисперсий?

Постановка задачи о проверке статистической гипотезы

Статистическая гипотеза – всякое предположение о виде закона распределения исследуемой переменной или параметрах известного распределения.

Так, например, можно предположить (выдвинуть гипотезу), что изучаемая переменная X распределена по нормальному закону. В этой гипотезе речь идет о виде предполагаемого закона распределения. Достаточно типична и такая ситуация: закон распределения изучаемой переменной известен, но неизвестны параметры этого распределения. Тогда естественно выдвинуть гипотезу о том, что неизвестный параметр принадлежит, например, заданному интервалу.

Таким образом, статистические гипотезы подразделяются на две группы:

· гипотезы о виде закона распределения;

· гипотезы о параметрах известного закона распределения (параметрические гипотезы).

Выдвигаемую гипотезу называют нулевой (основной) и обозначают через . Наряду с выдвинутой гипотезой рассматривают и противоречащую ей гипотезу . Гипотезу, которая противоречит нулевой, называют конкурирующей (альтернативной) и обозначают через ( = ).

Выдвинутая гипотеза , как и всякое предположение, в действительности может быть либо верной, либо неверной; поэтому возникает необходимость ее проверки.

Исходным материалом для проверки выдвинутой гипотезы служат выборочные данные (выборка).

Задача проверки гипотезы описательно заключается в следующем: на заданном уровне значимости требуется установить, согласуется ли выдвинутая гипотеза с выборочными данными или противоречит им.

Уровень значимости – вероятность совершить ошибку первого рода ("степень риска"), т.е. вероятность ошибочно отвергнуть верную гипотезу. Уровень значимости назначается исследователем; наиболее часто принимают равным 0,05 (5%) или 0,01 (1%), что соответствует практически ничтожному риску, и тем самым обеспечивают высокую надежность правильного решения задачи.

Основные принципы и необходимые этапы проверки статистической гипотезы

Для проверки выдвинутой гипотезы используется статистический критерий (разрешающее правило), согласно которому на основании данных выборки принимается решение сохранить либо отвергнуть нулевую гипотезу .

В основе критерия лежит его статистика Z – специально подбираемая для выдвинутой гипотезы случайная величина, закон распределения которой достаточно хорошо изучен (имеется таблица квантилей этого распределения).

Обозначим через множество всех возможных значений статистики Z . Это множество разбивается на два непересекающихся подмножества и :

, ,

где – область допустимых значений статистики Z;


– критическая область статистики Z.

Точки, отделяющие от , называются критическими точками статистики Z . Вопрос построения критической области мы здесь рассматривать не будем, отметим лишь только, что .

По выборочным данным (выборке) вычисляется наблюдаемое значение статистики: .

Критерий (разрешающее правило) проверки выдвинутой гипотезы заключается в следующем:

1. Если , то гипотеза отвергается.

2. Если , то гипотеза сохраняется (т.е. она согласуется с выборочными данными).

Заметим, что отвергают гипотезу более решительно, чем принимают. Принимают гипотезу весьма осторожно. Дело в том, что в случае выдвинутая гипотеза еще не доказана (по данным одной ограниченной выборки). На практике для большей уверенности принятия гипотезы повторяют эксперимент, увеличив объем выборки, и еще раз проверяют гипотезу (может быть другими способами).

Итак, необходимыми этапами проверки статистической гипотезы являются:

· формирование выборки;

· выдвижение гипотез и ;

· назначение уровня значимости ;

· выбор подходящей статистики Z для проверки ;

· вычисление по выборке наблюдаемого значения статистики ;

· определение по таблице критических точек статистики Z и построение критической области ;

· принятие решения согласно критерию проверки гипотезы .

Проверка гипотезы о нормальном распределении генеральной совокупности. Критерий Колмогорова

Для изучаемой переменной Cвыдвигается статистическая гипотеза : C имеет нормальный закон распределения. Исходным материалом для проверки являются выборочные данные (выборка). На заданном уровне значимости требуется установить, согласуется ли выдвинутая гипотеза с выборочными данными или противоречит им.

Проверка гипотезы нормальности по критерию Колмогорова основана на сравнении между собой эмпирической функции распределения , полученной по данным выборки объема , и гипотетической (теоретической) функции распределения нормального закона. Близость между ними оценивается статистикой Колмогорова.

Лабораторная работа 2.

ПРОВЕРКА ГИПОТЕЗ О ПАРАМЕТРАХ НОРМАЛЬНО РАСПРЕДЕЛЕННОЙ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ

1. Краткие теоретические положения

1.1. Основные понятия.

Гипотеза – всякое утверждение, высказанное относительно неизвестного закона распределения генеральной совокупности или числовых характеристик этого закона распределения.

Выдвинутая гипотеза называется нулевой . Альтернативная гипотеза - гипотеза, противоположная .

Т. к. гипотезы проверяются с помощью статистических методов, то гипотезы – статистические.

Статистическая гипотеза – это закон распределения некоторой случайной величины. В реальной жизни эти гипотезы могут быть такими:

Гипотезы об эффективности определенных лекарств;

Гипотезы о росте доходов населения;

Гипотезы об определении затрат или расходов и т. д.

Основными типами гипотез, которые проверяются статистическими методами, являются следующие:

1. Гипотезы о типе закона распределения случайной величины.

Пусть - выборка значений случайной величины . На основе выборки можно предположить, что функция распределения случайной величины имеет конкретное распределение. Нужно проверить, не противоречит ли наше предположение опытным данным.

2. Гипотезы об однородности двух или нескольких генеральных совокупностей или числовых характеристик.

Например, по выборкам значений двух случайных величин и можно выдвинуть гипотезу об одинаковых законах распределения этих выборок или об одинаковых значениях средних, дисперсий.

Например, можно проверить одинаковую эффективность двух видов лекарств или одинаковое качество товаров двух разных производителей.

3. Гипотезы о числовых значениях параметров исследуемой генеральной совокупности.

Например, предположим, что математическое ожидание определенной случайной величины равно конкретному числу .

Например, можно выдвинуть гипотезу о том, что вероятность сдачи экзамена определенным студентом равна 3/4.

1.2. Общая схема статистического критерия.

Правило проверки гипотез называется статистическим критерием.

Все критерии строятся по следующей схеме:

1. Выдвигается нулевая гипотеза и альтернативная ей гипотеза .

2. Заранее выбирается уровень значимости . Т. к. гипотеза проверяется на основании конкретного числа опытных данных, то решение сопровождается определенной вероятностью ошибочного заключения, т. е. с вероятностью гипотеза может быть отвергнута, хотя на самом дел она справедлива, или, наоборот, с вероятностью гипотеза может быть принята, хотя на самом деле она неверна. Вероятности ошибок должны быть маленькими и выбираются заранее.

Вероятность ошибочного отклонения гипотезы называется уровнем значимости статистического критерия.

К стандартным значениям относятся и другие.

Например, означает, что в 5-ти случаях из 100 мы будем отвергать правильную гипотезу, но 5 ошибок из 100 случаев - это немного.

3. Строится некоторая функция от результатов наблюдений , которая называется статистикой. Статистика сама является случайной величиной и при определенной гипотезе имеет определенный закон распределения.

4. Из таблиц распределения статистики находят критические значения для гипотезы , т. е. два числа и , которые всю числовую ось делят на 3 части:

1 часть называется областью недопустимо малых значений .

3 часть – область недопустимо больших значений .

Интервал называется областью правдоподобных значений .

Требуется, чтобы вероятности недопустимо малых и больших значений были маленькими. Обычно их берут равными , т. е.

и .