Чтобы проанализировать изменчивость признака под воздействием контролируемых переменных, применяется дисперсионный метод.

Для изучения связи между значениями – факторный метод. Рассмотрим подробнее аналитические инструменты: факторный, дисперсионный и двухфакторный дисперсионный метод оценки изменчивости.

Дисперсионный анализ в Excel

Условно цель дисперсионного метода можно сформулировать так: вычленить из общей вариативности параметра 3 частные вариативности:

  • 1 – определенную действием каждого из изучаемых значений;
  • 2 – продиктованную взаимосвязью между исследуемыми значениями;
  • 3 – случайную, продиктованную всеми неучтенными обстоятельствами.

В программе Microsoft Excel дисперсионный анализ можно выполнить с помощью инструмента «Анализ данных» (вкладка «Данные» - «Анализ»). Это надстройка табличного процессора. Если надстройка недоступна, нужно открыть «Параметры Excel» и включить настройку для анализа .

Работа начинается с оформления таблицы. Правила:

  1. В каждом столбце должны быть значения одного исследуемого фактора.
  2. Столбцы расположить по возрастанию/убыванию величины исследуемого параметра.

Рассмотрим дисперсионный анализ в Excel на примере.

Психолог фирмы проанализировал с помощью специальной методики стратегии поведения сотрудников в конфликтной ситуации. Предполагается, что на поведение влияет уровень образования (1 – среднее, 2 – среднее специальное, 3 – высшее).

Внесем данные в таблицу Excel:


Значимый параметр залит желтым цветом. Так как Р-Значение между группами больше 1, критерий Фишера нельзя считать значимым. Следовательно, поведение в конфликтной ситуации не зависит от уровня образования.



Факторный анализ в Excel: пример

Факторным называют многомерный анализ взаимосвязей между значениями переменных. С помощью данного метода можно решить важнейшие задачи:

  • всесторонне описать измеряемый объект (причем емко, компактно);
  • выявить скрытые переменные значения, определяющие наличие линейных статистических корреляций;
  • классифицировать переменные (определить взаимосвязи между ними);
  • сократить число необходимых переменных.

Рассмотрим на примере проведение факторного анализа. Допустим, нам известны продажи каких-либо товаров за последние 4 месяца. Необходимо проанализировать, какие наименования пользуются спросом, а какие нет.



Теперь наглядно видно, продажи какого товара дают основной рост.

Двухфакторный дисперсионный анализ в Excel

Показывает, как влияет два фактора на изменение значения случайной величины. Рассмотрим двухфакторный дисперсионный анализ в Excel на примере.

Задача. Группе мужчин и женщин предъявляли звук разной громкости: 1 – 10 дБ, 2 – 30 дБ, 3 – 50 дБ. Время ответа фиксировали в миллисекундах. Необходимо определить, влияет ли пол на реакцию; влияет ли громкость на реакцию.

Дисперсионный анализ - это статистический метод оценки связи между факторными и результативным признаками в различных группах, отобранный случайным образом, основанный на определении различий (разнообразия) значений признаков. В основе дисперсионного анализа лежит анализ отклонений всех единиц исследуемой совокупности от среднего арифметического. В качестве меры отклонений берется дисперсия (В)- средний квадрат отклонений. Отклонения, вызываемые воздействием факторного признака (фактора) сравниваются с величиной отклонений, вызываемых случайными обстоятельствами. Если отклонения, вызываемые факторным признаком, более существенны, чем случайные отклонения, то считается, что фактор оказывает существенное влияние на результативный признак.

Для того, чтобы вычислить дисперсию значения отклонений каждой варианты (каждого зарегистрированного числового значения признака) от среднего арифметического возводят в квадрат. Тем самым избавляются от отрицательных знаков. Затем эти отклонения (разности) суммируют и делят на число наблюдений, т.е. усредняют отклонения. Таким образом, получают значения дисперсий.

Важным методическим значением для применения дисперсионного анализа является правильное формирование выборки. В зависимости от поставленной цели и задач выборочные группы могут формироваться случайным образом независимо друг от друга (контрольная и экспериментальная группы для изучения некоторого показателя, например, влияние высокого артериального давления на развитие инсульта). Такие выборки называются независимыми.

Нередко результаты воздействия факторов исследуются у одной и той же выборочной группы (например, у одних и тех же пациентов) до и после воздействия (лечение, профилактика, реабилитационные мероприятия), такие выборки называются зависимыми.

Дисперсионный анализ, в котором проверяется влияние одного фактора, называется однофакторным (одномерный анализ). При изучении влияния более чем одного фактора используют многофакторный дисперсионный анализ (многомерный анализ).

Факторные признаки - это те признаки, которые влияют на изучаемое явление.

Результативные признаки - это те признаки, которые изменяются под влиянием факторных признаков.

Условия применения дисперсионного анализа:

Задачей исследования является определение силы влияния одного (до 3) факторов на результат или определение силы совместного влияния различных факторов (пол и возраст, физическая активность и питание и т.д.).

Изучаемые факторы должны быть независимые (несвязанные) между собой. Например, нельзя изучать совместное влияние стажа работы и возраста, роста и веса детей и т.д. на заболеваемость населения.

Подбор групп для исследования проводится рандомизированно (случайный отбор). Организация дисперсионного комплекса с выполнением принципа случайности отбора вариантов называется рандомизацией (перев. с англ. - random), т.е. выбранные наугад.

Можно применять как количественные, так и качественные (атрибутивные) признаки.

При проведении однофакторного дисперсионного анализа рекомендуется (необходимое условие применения):

1. Нормальность распределения анализируемых групп или соответствие выборочных групп генеральным совокупностям с нормальным распределением.

2. Независимость (не связанность) распределения наблюдений в группах.

3. Наличие частоты (повторность) наблюдений.

Сначала формулируется нулевая гипотеза, то есть предполагается, что исследуемые факторы не оказывают никакого влияния на значения результативного признака и полученные различия случайны.

Затем определяем, какова вероятность получить наблюдаемые (или более сильные) различия при условии справедливости нулевой гипотезы.

Если эта вероятность мала, то мы отвергаем нулевую гипотезу и заключаем, что результаты исследования статистически значимы. Это еще не означает, что доказано действие именно изучаемых факторов (это вопрос, прежде всего, планирования исследования), но все же маловероятно, что результат обусловлен случайностью.

При выполнении всех условий применения дисперсионного анализа, разложение общей дисперсии математически выглядит следующим образом:

Doбщ. = Dфакт + D ост.,

Doбщ. - общая дисперсия наблюдаемых значений (вариант), характеризуется разбросом вариант от общего среднего. Измеряет вариацию признака во всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Общее разнообразие складывается из межгруппового и внутригруппового;

Dфакт - факторная (межгрупповая) дисперсия, характеризуется различием средних в каждой группе и зависит от влияния исследуемого фактора, по которому дифференцируется каждая группа. Например, в группах различных по этиологическому фактору клинического течения пневмонии средний уровень проведенного койко-дня неодинаков - наблюдается межгрупповое разнообразие.

D ост. - остаточная (внутригрупповая) дисперсия, которая характеризует рассеяние вариант внутри групп. Отражает случайную вариацию, т.е. часть вариации, происходящую под влиянием неуточненных факторов и не зависящую от признака - фактора, положенного в основание группировки. Вариация изучаемого признака зависит от силы влияния каких-то неучтенных случайных факторов, как от организованных (заданных исследователем), так и от случайных (неизвестных) факторов.

Поэтому общая вариация (дисперсия) слагается из вариации, вызванной организованными (заданными) факторами, называемыми факториальной вариацией и неорганизованными факторами, т.е. остаточной вариацией (случайной, неизвестной).

Для выборки объема n выборочная дисперсия вычисляется как сумма квадратов отклонений от выборочного среднего, деленная на n-1 (объем выборки минус единица). Таким образом, при фиксированном объеме выборки n дисперсия есть функция суммы квадратов (отклонений), обозначаемая, для краткости, SS (от английского Sum of Squares - Сумма квадратов). Далее слово выборочная мы часто опускаем, прекрасно понимая, что рассматривается выборочная дисперсия или оценка дисперсии. В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Рассмотрим следующий набор данных:

Средние двух групп существенно различны (2 и 6 соответственно). Сумма квадратов отклонений внутри каждой группы равна 2. Складывая их, получаем 4. Если теперь повторить эти вычисления без учета групповой принадлежности, то есть, если вычислить SS исходя из общего среднего этих двух выборок, то получим величину 28. Иными словами, дисперсия (сумма квадратов), основанная на внутригрупповой изменчивости, приводит к гораздо меньшим значениям, чем при вычислении на основе общей изменчивости (относительно общего среднего). Причина этого, очевидно, заключается в существенной разнице между средними значениями, и это различие между средними и объясняет существующее различие между суммами квадратов.

SS ст.св. MS F p
Эффект 24.0 24.0 24.0 .008
Ошибка 4.0 1.0

Как видно из таблицы, общая сумма квадратов SS = 28 разбита на компоненты: сумму квадратов, обусловленную внутригрупповой изменчивостью (2+2=4; см. вторую строку таблицы) и сумму квадратов, обусловленную различием средних значений между группами (28-(2+2)=24; см первую строку таблицы). Заметим, что MS в этой таблице есть средний квадрат, равный SS, деленная на число степеней свободы (ст.св).

В рассмотренном выше простом примере вы могли бы сразу вычислить t-критерий для независимых выборок. Полученные результаты, естественно, совпадут с результатами дисперсионного анализа.

Однако, ситуации, когда некоторое явление полностью описывается одной переменной, чрезвычайно редки. Например, если мы пытаемся научиться выращивать большие помидоры, следует рассматривать факторы, связанные с генетической структурой растений, типом почвы, освещенностью, температурой и т.д. Таким образом, при проведении типичного эксперимента приходится иметь дело с большим количеством факторов. Основная причина, по которой использование дисперсионного анализа предпочтительнее повторного сравнения двух выборок при разных уровнях факторов с помощью серий t-критерия, заключается в том, что дисперсионный анализ существенно более эффективен и, для малых выборок, более информативен.

Предположим, что в рассмотренном выше примере анализа двух выборок мы добавим еще один фактор, например, Пол. Пусть каждая группа теперь состоит из 3 мужчин и 3 женщин. План этого эксперимента можно представить в виде таблицы:

До проведения вычислений можно заметить, что в этом примере общая дисперсия имеет, по крайней мере, три источника:

1) случайная ошибка (внутригрупповая дисперсия),

2) изменчивость, связанная с принадлежностью к экспериментальной группе

3) изменчивость, обусловленная полом объектов наблюдения.

Отметим, что существует еще один возможный источник изменчивости - взаимодействие факторов, который мы обсудим позднее). Что произойдет, если мы не будем включать пол как фактор при проведении анализа и вычислим обычный t-критерий? Если мы будем вычислять суммы квадратов, игнорируя пол (т.е. объединяя объекты разного пола в одну группу при вычислении внутригрупповой дисперсии и получив при этом сумму квадратов для каждой группы равную SS =10 и общую сумму квадратов SS = 10+10 = 20), то получим большее значение внутригрупповая дисперсии, чем при более точном анализе с дополнительным разбиением на подгруппы по полу (при этом внутригрупповые средние будут равны 2, а общая внутригрупповая сумма квадратов равна SS = 2+2+2+2 = 8).

Итак, при введении дополнительного фактора: пол, остаточная дисперсия уменьшилась. Это связано с тем, что среднее значение для мужчин меньше, чем среднее значение для женщин, и это различие в средних значениях увеличивает суммарную внутригрупповую изменчивость, если фактор пола не учитывается. Управление дисперсией ошибки увеличивает чувствительность (мощность) критерия.

На этом примере видно еще одно преимущество дисперсионного анализа по сравнению с обычным t-критерием для двух выборок. Дисперсионный анализ позволяет изучать каждый фактор, управляя значениями других факторов. Это, в действительности, и является основной причиной его большей статистической мощности (для получения значимых результатов требуются меньшие объемы выборок). По этой причине дисперсионный анализ даже на небольших выборках дает статистически более значимые результаты, чем простой t-критерий.

Введение

Цель работы: познакомится с таким статистическим методом, как дисперсионный анализ.

Дисперсионный анализ (от латинского Dispersio – рассеивание) – статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Метод был разработан биологом Р. Фишером в 1925 году и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.

Целью дисперсионного анализа является проверка значимости различия между средними с помощью сравнения дисперсий. Дисперсию измеряемого признака разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации.

При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии.

При проведении исследования рынка часто встает вопрос о сопоставимости результатов. Например, проводя опросы по поводу потребления какого-либо товара в различных регионах страны, необходимо сделать выводы, на сколько данные опроса отличаются или не отличаются друг от друга. Сопоставлять отдельные показатели не имеет смысла и поэтому процедура сравнения и последующей оценки производится по некоторым усредненным значениям и отклонениям от этой усредненной оценки. Изучается вариация признака. За меру вариации может быть принята дисперсия. Дисперсия σ2 – мера вариации, определяемая как средняя из отклонений признака, возведенных в квадрат.

На практике часто возникают задачи более общего характера – задачи проверки существенности различий средних выборочных нескольких совокупностей. Например, требуется оценить влияние различного сырья на качество производимой продукции, решить задачу о влиянии количества удобрений на урожайность с/х продукции.



Иногда дисперсионный анализ применяется, чтобы установить однородность нескольких совокупностей (дисперсии этих совокупностей одинаковы по предположению; если дисперсионный анализ покажет, что и математические ожидания одинаковы, то в этом смысле совокупности однородны). Однородные же совокупности можно объединить в одну и тем самым получить о ней более полную информацию, следовательно, и более надежные выводы.

Дисперсионный анализ

1.1 Основные понятия дисперсионного анализа

В процессе наблюдения за исследуемым объектом качественные факторы произвольно или заданным образом изменяются. Конкретная реализация фактора (например, определенный температурный режим, выбранное оборудование или материал) называется уровнем фактора или способом обработки. Модель дисперсионного анализа с фиксированными уровнями факторов называют моделью I, модель со случайными факторами - моделью II. Благодаря варьированию фактора можно исследовать его влияние на величину отклика. В настоящее время общая теория дисперсионного анализа разработана для моделей I.

В зависимости от количества факторов, определяющих вариацию результативного признака, дисперсионный анализ подразделяют на однофакторный и многофакторный.

Основными схемами организации исходных данных с двумя и более факторами являются:

Перекрестная классификация, характерная для моделей I, в которых каждый уровень одного фактора сочетается при планировании эксперимента с каждой градацией другого фактора;

Иерархическая (гнездовая) классификация, характерная для модели II, в которой каждому случайному, наудачу выбранному значению одного фактора соответствует свое подмножество значений второго фактора.

Если одновременно исследуется зависимость отклика от качественных и количественных факторов, т.е. факторов смешанной природы, то используется ковариационный анализ /3/.

При обработке данных эксперимента наиболее разработанными и поэтому распространенными считаются две модели. Их различие обусловлено спецификой планирования самого эксперимента. В модели дисперсионного анализа с фиксированными эффектами исследователь намеренно устанавливает строго определенные уровни изучаемого фактора. Термин «фиксированный эффект» в данном контексте имеет тот смысл, что самим исследователем фиксируется количество уровней фактора и различия между ними. При повторении эксперимента он или другой исследователь выберет те же самые уровни фактора. В модели со случайными эффектами уровни значения фактора выбираются исследователем случайно из широкого диапазона значений фактора, и при повторных экспериментах, естественно, этот диапазон будет другим.

Таким образом, данные модели отличаются между собой способом выбора уровней фактора, что, очевидно, в первую очередь влияет на возможность обобщения полученных экспериментальных результатов. Для дисперсионного анализа однофакторных экспериментов различие этих двух моделей не столь существенно, однако в многофакторном дисперсионном анализе оно может оказаться весьма важным.

При проведении дисперсионного анализа должны выполняться следующие статистические допущения: независимо от уровня фактора величины отклика имеют нормальный (Гауссовский) закон распределения и одинаковую дисперсию. Такое равенство дисперсий называется гомогенностью. Таким образом, изменение способа обработки сказывается лишь на положении случайной величины отклика, которое характеризуется средним значением или медианой. Поэтому все наблюдения отклика принадлежат сдвиговому семейству нормальных распределений.

Говорят, что техника дисперсионного анализа является "робастной". Этот термин, используемый статистиками, означает, что данные допущения могут быть в некоторой степени нарушены, но несмотря на это, технику можно использовать.

При неизвестном законе распределения величин отклика используют непараметрические (чаще всего ранговые) методы анализа.

В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Вариацию, обусловленную влиянием фактора, положенного в основу группировки, характеризует межгрупповая дисперсия σ2. Она является мерой вариации частных средних по группам вокруг общей средней и определяется по формуле:

,

где k - число групп;

nj - число единиц в j-ой группе;

Частная средняя по j-ой группе;

Общая средняя по совокупности единиц.

Вариацию, обусловленную влиянием прочих факторов, характеризует в каждой группе внутригрупповая дисперсия σj2.

.

Между общей дисперсией σ02, внутригрупповой дисперсией σ2 и межгрупповой дисперсией существует соотношение:

Внутригрупповая дисперсия объясняет влияние неучтенных при группировке факторов, а межгрупповая дисперсия объясняет влияние факторов группировки на среднее значение по группе /2/.

Однофакторный дисперсионный анализ

Однофакторная дисперсионная модель имеет вид:

x ij = μ + F j + ε ij, (1)

где х ij – значение исследуемой переменой, полученной на i-м уровне фактора (i=1,2,...,т) c j-м порядковым номером (j=1,2,...,n);

F i – эффект, обусловленный влиянием i-го уровня фактора;

ε ij – случайная компонента, или возмущение, вызванное влиянием неконтролируемых факторов, т.е. вариацией переменой внутри отдельного уровня.

Основные предпосылки дисперсионного анализа:

Математическое ожидание возмущения ε ij равно нулю для любых i, т.е.

M(ε ij) = 0; (2)

Возмущения ε ij взаимно независимы;

Дисперсия переменной x ij (или возмущения ε ij) постоянна для

любых i, j, т.е.

D(ε ij) = σ 2 ; (3)

Переменная x ij (или возмущение ε ij) имеет нормальный закон

распределения N(0;σ 2).

Влияние уровней фактора может быть как фиксированным или систематическим (модель I), так и случайным (модель II).

Пусть, например, необходимо выяснить, имеются ли существенные различия между партиями изделий по некоторому показателю качества, т.е. проверить влияние на качество одного фактора - партии изделий. Если включить в исследование все партии сырья, то влияние уровня такого фактора систематическое (модель I), а полученные выводы применимы только к тем отдельным партиям, которые привлекались при исследовании. Если же включить только отобранную случайно часть партий, то влияние фактора случайное (модель II). В многофакторных комплексах возможна смешанная модель III, в которой одни факторы имеют случайные уровни, а другие – фиксированные.

Пусть имеется m партий изделий. Из каждой партии отобрано соответственно n 1 , n 2 , …, n m изделий (для простоты полагается, что n 1 =n 2 =...=n m =n). Значения показателя качества этих изделий представлены в матрице наблюдений:

x 11 x 12 … x 1n

x 21 x 22 … x 2n

………………… = (x ij), (i = 1,2, …, m; j = 1,2, …, n).

x m1 x m2 … x mn

Необходимо проверить существенность влияния партий изделий на их качество.

Если полагать, что элементы строк матрицы наблюдений – это численные значения случайных величин Х 1 ,Х 2 ,...,Х m , выражающих качество изделий и имеющих нормальный закон распределения с математическими ожиданиями соответственно a 1 ,а 2 ,...,а m и одинаковыми дисперсиями σ 2 , то данная задача сводится к проверке нулевой гипотезы Н 0: a 1 =a 2 =...= а m , осуществляемой в дисперсионном анализе.

Усреднение по какому-либо индексу обозначено звездочкой (или точкой) вместо индекса, тогда средний показатель качества изделий i-й партии, или групповая средняя для i-го уровня фактора, примет вид:

где i* – среднее значение по столбцам;

Ij – элемент матрицы наблюдений;

n – объем выборки.

А общая средняя:

(5)

Сумма квадратов отклонений наблюдений х ij от общей средней ** выглядит так:

2 = 2 + 2 +

2 2 . (6)

Q = Q 1 + Q 2 + Q 3 .

Последнее слагаемое равно нулю

так как сумма отклонений значений переменной от ее средней равна нулю, т.е.

2 =0.

Первое слагаемое можно записать в виде:

В результате получается тождество:

Q = Q 1 + Q 2 , (8)

где - общая, или полная, сумма квадратов отклонений;

- сумма квадратов отклонений групповых средних от общей средней, или межгрупповая (факторная) сумма квадратов отклонений;

- сумма квадратов отклонений наблюдений от групповых средних, или внутригрупповая (остаточная) сумма квадратов отклонений.

В разложении (8) заключена основная идея дисперсионного анализа. Применительно к рассматриваемой задаче равенство (8) показывает, что общая вариация показателя качества, измеренная суммой Q, складывается из двух компонент – Q 1 и Q 2 , характеризующих изменчивость этого показателя между партиями (Q 1) и изменчивость внутри партий (Q 2), характеризующих одинаковую для всех партий вариацию под воздействием неучтенных факторов.

В дисперсионном анализе анализируются не сами суммы квадратов отклонений, а так называемые средние квадраты, являющиеся несмещенными оценками соответствующих дисперсий, которые получаются делением сумм квадратов отклонений на соответствующее число степеней свободы.

Число степеней свободы определяется как общее число наблюдений минус число связывающих их уравнений. Поэтому для среднего квадрата s 1 2 , являющегося несмещенной оценкой межгрупповой дисперсии, число степеней свободы k 1 =m-1, так как при его расчете используются m групповых средних, связанных между собой одним уравнением (5). А для среднего квадрата s22, являющегося несмещенной оценкой внутригрупповой дисперсии, число степеней свободы k2=mn-m, т.к. при ее расчете используются все mn наблюдений, связанных между собой m уравнениями (4).

Таким образом:

Если найти математические ожидания средних квадратов и , подставить в их формулы выражение xij (1) через параметры модели, то получится:

(9)

т.к. с учетом свойств математического ожидания

(10)

Для модели I с фиксированными уровнями фактора F i (i=1,2,...,m) – величины неслучайные, поэтому

M(S ) = 2 /(m-1) +σ 2 .

Гипотеза H 0 примет вид F i = F * (i = 1,2,...,m), т.е. влияние всех уровней фактора одно и то же. В случае справедливости этой гипотезы

M(S )= M(S )= σ 2 .

(12)

(13)

(14)

т.е. сами средние, вообще говоря, находить не обязательно.

Таким образом, процедура однофакторного дисперсионного анализа состоит в проверке гипотезы H 0 о том, что имеется одна группа однородных экспериментальных данных против альтернативы о том, что таких групп больше, чем одна. Под однородностью понимается одинаковость средних значений и дисперсий в любом подмножестве данных. При этом дисперсии могут быть как известны, так и неизвестны заранее. Если имеются основания полагать, что известная или неизвестная дисперсия измерений одинакова по всей совокупности данных, то задача однофакторного дисперсионного анализа сводится к исследованию значимости различия средних в группах данных /1/.

В данной теме будет рассмотрен только однофакторный дисперсионный анализ, используемый для несвязанных выборок. Оперируя как основным понятием дисперсии, этот анализ базируется на расчете дисперсий трех типов:

Общая дисперсия, вычисленная по всей совокупности экспериментальных данных;

Внутригрупповая дисперсия, характеризующая вариативность признака в каждой выборке;

Межгрупповая дисперсия, характеризующая вариативность групповых средних.

Основное положение дисперсионного анализа гласит: общая дисперсия равна сумме внутригрупповой и межгруппповой дисперсий.

Это положение можно записать в виде уравнения:

где х ij - значения всех переменных, полученных в эксперименте; при этом индекс j меняется от 1 до р , где р - число сравниваемых выборок, их может быть три и больше; индекс i соответствует числу элементов в выборке (их может быть два и больше);

Общая средняя всей анализируемой совокупности данных;

Средняя j выборки;

N - общее число всех элементов в анализируемой совокупности экспериментальных данных;

р - число экспериментальных выборок.

Проанализируем это уравнение более подробно.

Пусть у нас имеется р групп (выборок). В дисперсионном анализе каждую выборку представляют в виде одного столбца (или строки) чисел. Тогда, для того чтобы можно было указать на конкретную группу (выборку), вводится индекс j , который меняется соответственно от j = 1 до j = р. Например, если у нас 5 групп (выборок), то р=5, а индекс j меняется соответственно от j= 1 до j= 5.

Пусть перед нами стоит задача - указать конкретный элемент (значение измерения) какой-либо выборки. Для этого мы должны знать номер этой выборки, например 4, и расположение элемента (измеренного значения) в этой выборке. Этот элемент может располагаться в выборке начиная с первого значения (первая строчка) до последнего (последняя строчка). Пусть наш искомый элемент расположен на пятой строчке. Тогда его обо значение будет таково: х 54 . Это значит, что выбран пятый элемент в строчке из четвертой выборки.

В общем случае в каждой группе (выборке) число составляющих ее элементов может быть различным - поэтому обозначим число элементов в j группе (выборке) через n j . Полученные в эксперименте значения признака в j группе обозначим через х ij , где i = 1, 2, ... n - порядковый номер наблюдения в j группе.

Дальнейшие рассуждения целесообразно проводить с опорой на таблицу 35. Отметим, однако, что для удобства дальнейших рассуждений, выборки в этой таблице представлены не как столбцы, а как строчки (что, однако, не принципиально).

В итоговой, последней строке таблицы даны: общий объем всей выборки - N, сумма всех полученных значений G и общая средняя всей выборки . Эта общая средняя получена как сумма всех элементов анализируемой совокупности экспериментальных данных, обозначенная выше как G, деленная на число всех элементов N.


В крайнем правом столбце таблицы представлены величины средних по всем выборкам. Например, в j выборке (строчка таблицы обозначенная символом j) величина средней (по всей j выборке) такова:

Задание . Студентов 1-го курса опрашивали с целью выявления занятий, которым они посвящают свое свободное время. Проверьте, различаются ли распределение вербальных и невербальных предпочтений студентов.

Решение проводим с использованием калькулятора .
Находим групповые средние:

N П 1 П 2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
x ср 15.6 17

Обозначим р - количество уровней фактора (р=2). Число измерений на каждом уровне одинаково и равно q=5.
В последней строке помещены групповые средние для каждого уровня фактора.
Общую среднюю можно получить как среднее арифметическое групповых средних:
(1)
На разброс групповых средних процента отказа относительно общей средней влияют как изменения уровня рассматриваемого фактора, так и случайные факторы.
Для того чтобы учесть влияние данного фактора, общая выборочная дисперсия разбивается на две части, первая из которых называется факторной S 2 ф, а вторая - остаточной S 2 ост.
С целью учета этих составляющих вначале рассчитывается общая сумма квадратов отклонений вариант от общей средней:

и факторная сумма квадратов отклонений групповых средних от общей средней, которая и характеризует влияние данного фактора:

Последнее выражение получено путем замены каждой варианты в выражении R общ групповой средней для данного фактора.
Остаточная сумма квадратов отклонений получается как разность:
R ост = R общ - R ф
Для определения общей выборочной дисперсии необходимо R общ разделить на число измерений pq:

а для получения несмещенной общей выборочной дисперсии это выражение нужно умножить на pq/(pq-1):

Соответственно, для несмещенной факторной выборочной дисперсии:

где p-1 - число степеней свободы несмещенной факторной выборочной дисперсии.
С целью оценки влияния фактора на изменения рассматриваемого параметра рассчитывается величина:

Так как отношение двух выборочных дисперсий S 2 ф и S 2 ост распределено по закону Фишера-Снедекора, то полученное значение f набл сравнивают со значением функции распределения

в критической точке f кр, соответствующей выбранному уровню значимости a.
Если f набл >f кр, то фактор оказывает существенное воздействие и его следует учитывать, в противном случае он оказывает незначительное влияние, которым можно пренебречь.
Для расчета R набл и R ф могут быть использованы также формулы:
(4)
(5)
Находим общую среднюю по формуле (1):
Для расчета Rобщ по формуле (4) составляем таблицу 2 квадратов вариант:
N П 2 1 П 2 2
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

Общая средняя вычисляется по формуле (1):

R общ = 1322 + 1613 - 5 2 16.3 2 = 278.1
Находим R ф по формуле (5):
R ф = 5(15.6 2 + 17 2) - 2 16.3 2 = 4.9
Получаем R ост: R ост = R общ - R ф = 278.1 - 4.9 = 273.2
Определяем факторную и остаточную дисперсии :


Если средние значения случайной величины, вычисленные по отдельным выборкам одинаковы, то оценки факторной и остаточной дисперсий являются несмещенными оценками генеральной дисперсии и различаются несущественно.
Тогда сопоставление оценок этих дисперсий по критерию Фишера должно показать, что нулевую гипотезу о равенстве факторной и остаточной дисперсий отвергнуть нет оснований.
Оценка факторной дисперсии меньше оценки остаточной дисперсии, поэтому можно сразу утверждать справедливость нулевой гипотезы о равенстве математических ожиданий по слоям выборки.
Иначе говоря, в данном примере фактор Ф не оказывает существенного влияния на случайную величину.
Проверим нулевую гипотезу H 0: равенство средних значений х.
Находим f набл

Для уровня значимости α=0.05, чисел степеней свободы 1 и 8 находим f кр из таблицы распределения Фишера-Снедекора .
f кр (0.05; 1; 8) = 5.32
В связи с тем, что f набл < f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
Другим словами, распределение вербальных и невербальных предпочтений студентов различаются.

Задание . На заводе установлено четыре линии по выпуску облицовочной плитки. С каждой линии случайным образом в течение смены отобрано по 10 плиток и сделаны замеры их толщины (мм). Отклонения от номинального размера приведены в таблице. Требуется на уровне значимости a = 0,05 установить наличие зависимости выпуска качественных плиток от линии выпуска (фактор A).

Задание . На уровне значимости a = 0,05 исследовать влияние цвета краски на срок службы покрытия.

Пример №1 . Произведено 13 испытаний, из них – 4 на первом уровне фактора, 4 – на втором, 3 – на третьем и 2 на четвертом. Методом дисперсионного анализа при уровне значимости 0,05 проверить нулевую гипотезу о равенстве групповых средних. Предполагается, что выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями. Результаты испытаний приведены в таблице.

Решение :
Находим групповые средние:

N П 1 П 2 П 3 П 4
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
x ср 1.4 1.43 1.33 1.32

Обозначим р - количество уровней фактора (р=4). Число измерений на каждом уровне равно: 4,4,3,2
В последней строке помещены групповые средние для каждого уровня фактора.
Общая средняя вычисляется по формуле:

Для расчета Sобщ по формуле (4) составляем таблицу 2 квадратов вариант:

N П 2 1 П 2 2 П 2 3 П 2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49

Общую сумму квадратов отклонений находят по формуле:


Находим S ф по формуле:


Получаем S ост: S ост = S общ - S ф = 0.0293 - 0.0263 = 0.003
Определяем факторную дисперсию:

и остаточную дисперсию:

Если средние значения случайной величины, вычисленные по отдельным выборкам одинаковы, то оценки факторной и остаточной дисперсий являются несмещенными оценками генеральной дисперсии и различаются несущественно.
Тогда сопоставление оценок этих дисперсий по критерию Фишера должно показать, что нулевую гипотезу о равенстве факторной и остаточной дисперсий отвергнуть нет оснований.
Оценка факторной дисперсии больше оценки остаточной дисперсии, поэтому можно сразу утверждать не справедливость нулевой гипотезы о равенстве математических ожиданий по слоям выборки.
Иначе говоря, в данном примере фактор Ф оказывает существенное влияния на случайную величину.
Проверим нулевую гипотезу H 0: равенство средних значений х.
Находим f набл

Для уровня значимости α=0.05, чисел степеней свободы 3 и 12 находим f кр из таблицы распределения Фишера-Снедекора.
f кр (0.05; 3; 12) = 3.49
В связи с тем, что f набл > f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов принимаем (нулевую гипотезу о равенстве групповых средних отвергаем). Другими словами, групповые средние в целом различаются значимо.

Пример №2 . В школе 5 шестых классов. Психологу ставится задача, определить, одинаковый ли средний уровень ситуативной тревожности в классах. Для этого были приведены в таблице. Проверить уровень значимости α=0.05 предположение, что средняя ситуативная тревожность в классах не различается.

Пример №3 . Для изучения величины X произведено 4 испытания на каждом из пяти уровней фактора F. Результаты испытаний приведены в таблице. Выяснить, существенно ли влияние фактора F на величину X. Принять α = 0.05. Предполагается, что выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями.

Пример №4 . Предположим, что в педагогическом эксперименте участвовали три группы студентов по 10 человек в каждой. В группах применили различные методы обучения: в первой - традиционный (F 1), во второй - основанный на компьютерных технологиях (F 2), в третьей - метод, широко использующий задания для самостоятельной работы (F 3). Знания оценивались по десятибалльной системе.
Требуется обработать полученные данные об экзаменах и сделать заключение о том, значимо ли влияние метода преподавания, приняв за уровень значимости α=0.05.
Результаты экзаменов заданы таблицей, F j - уровень фактора x ij - оценка i-го учащегося обучающегося по методике F j .

Уровень фактора

Пример №5 . Показаны результаты конкурсного сортоиспытания культур (урожайность в ц.с га). Каждый сорт испытывался на четырех участках. Методом дисперсионного анализа изучите влияние сорта на урожайность. Установите существенность влияния фактора (долю межгрупповой вариации в общей вариации) и значимость результатов опыта при уровне значимости 0,05.
Урожайность на сортоиспытательных участках

Сорт Урожайность по повторностям ц. с га
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6