Теория вероятности незримо присутствует в нашей жизни. Мы не обращаем на это внимания, но каждое событие в нашей жизни имеет ту или иную вероятность. Принимая во внимание огромное количество вариантов развития событий, нам становится необходимым определять наиболее вероятные и наименее вероятные из них. Наиболее удобно анализировать такие вероятностные данные графически. В этом нам может помочь распределение. Биномиальное - одно из самых лёгких и самых точных.

Прежде чем перейти непосредственно к математике и теории вероятности, разберёмся с тем, кто же первый придумал такой вид распределения и какова история развития математического аппарата для этого понятия.

История

Понятие вероятности известно ещё с древних времён. Однако древние математики не придавали ей особо значения и смогли заложить только основы для теории, ставшей впоследствии теорией вероятности. Они создали некоторые комбинаторные методы, которые сильно помогли тем, кто позже создал и развил саму теорию.

Во второй половине семнадцатого века началось формирование основных понятий и методов теории вероятности. Были введены определения случайных величин, способы вычисления вероятности простых и некоторых сложных независимых и зависимых событий. Продиктован такой интерес к случайным величинам и вероятностям был азартными играми: каждый человек хотел знать, какие у него шансы победить в игре.

Следующим этапом стало применение в теории вероятности методов математического анализа. Этим занялись видные математики, такие как Лаплас, Гаусс, Пуассон и Бернулли. Именно они продвинули эту область математики на новый уровень. Именно Джеймс Бернулли открыл биномиальный закон распределения. Кстати, как мы позже выясним, на основе этого открытия были сделаны ещё несколько, которые позволили создать закон нормального распределения и ещё множество других.

Сейчас, прежде чем начать описывать распределение биномиальное, мы немного освежим в памяти понятия теории вероятностей, наверняка уже забытые со школьной скамьи.

Основы теории вероятностей

Будем рассматривать такие системы, в результате действия которых возможны только два исхода: "успех" и "не успех". Это легко понять на примере: мы подбрасываем монетку, загадав то, что выпадет решка. Вероятности каждого из возможных событий (выпадет решка - "успех", выпадет орёл - "не успех") равны 50 процентам при идеальной балансировке монеты и отсутствии прочих факторов, которые могут повлиять на эксперимент.

Это было самое простое событие. Но бывают ещё и сложные системы, в которых выполняются последовательные действия, и вероятности исходов этих действий будут различаться. Например, рассмотрим такую систему: в коробке, содержимое которой мы не можем разглядеть, лежат шесть абсолютно одинаковых шариков, три пары синего, красного и белого цветов. Мы должны достать наугад несколько шариков. Соответственно, вытащив первым один из белых шариков, мы уменьшим в разы вероятность того, что следующим нам тоже попадётся белый шарик. Происходит это потому, что меняется количество объектов в системе.

В следующем разделе рассмотрим более сложные математические понятия, вплотную подводящие нас к тому, что означают слова "нормальное распределение", "биномиальное распределение" и тому подобные.

Элементы математической статистики

В статистике, которая является одной из областей применения теории вероятностей, существует множество примеров, когда данные для анализа даны не в явном виде. То есть не в численном, а в виде разделения по признакам, например, по половым. Для того чтобы применить к таким данным математический аппарат и сделать из полученных результатов какие-то выводы, требуется перевести исходные данные в числовой формат. Как правило, для осуществления этого положительному исходу присваивают значение 1, а отрицательному - 0. Таким образом, мы получаем статистические данные, которые можно подвергнуть анализу с помощью математических методов.

Следующий шаг в понимании того, что такое биномиальное распределение случайной величины, - это определение дисперсии случайной величины и математического ожидания. Об этом поговорим в следующем разделе.

Математическое ожидание

На самом деле понять то, что такое математическое ожидание, несложно. Рассмотрим систему, в которой существует много разных событий со своими различными вероятностями. Математическим ожиданием будет называться величина, равная сумме произведений значений этих событий (а математическом виде, о котором мы говорили в прошлом разделе) на вероятности их осуществления.

Математическое ожидание биномиального распределения рассчитывается по той же самой схеме: мы берём значение случайной величины, умножаем его на вероятность положительного исхода, а затем суммируем полученные данные для всех величин. Очень удобно представить эти данные графически - так лучше воспринимается разница между математическими ожиданиями разных величин.

В следующем разделе мы расскажем вам немного о другом понятии - дисперсии случайной величины. Оно тоже тесно связано с таким понятием, как биномиальное распределение вероятностей, и является его характеристикой.

Дисперсия биномиального распределения

Эта величина тесно связана с предыдущей и также характеризует распределение статистических данных. Она представляет собой средний квадрат отклонений значений от их математического ожидания. То есть дисперсия случайной величины - это сумма квадратов разностей между значением случайной величины и её математическим ожиданием, умноженная на вероятность этого события.

В общем, это всё, что нам нужно знать о дисперсии для понимания того, что такое биномиальное распределение вероятностей. Теперь перейдём непосредственно к нашей основной теме. А именно к тому, что же кроется за таким на вид достаточно сложным словосочетанием "биномиальный закон распределения".

Биномиальное распределение

Разберёмся для начала, почему же это распределение биномиальное. Оно происходит от слова "бином". Может быть, вы слышали о биноме Ньютона - такой формуле, с помощью которой можно разложить сумму двух любых чисел a и b в любой неотрицательной степени n.

Как вы, наверное, уже догадались, формула бинома Ньютона и формула биномиального распределения - это практически одинаковые формулы. За тем лишь исключением, что вторая имеет прикладное значение для конкретных величин, а первая - лишь общий математический инструмент, применения которого на практике могут быть различны.

Формулы распределения

Функция биномиального распределения может быть записана в виде суммы следующих членов:

(n!/(n-k)!k!)*p k *q n-k

Здесь n - число независимых случайных экспериментов, p- число удачных исходов, q- число неудачных исходов, k - номер эксперимента (может принимать значения от 0 до n),! - обозначение факториала, такой функции числа, значение которой равно произведению всех идущих до неё чисел (например, для числа 4: 4!=1*2*3*4=24).

Помимо этого, функция биномиального распределения может быть записана в виде неполной бета-функции. Однако это уже более сложное определение, которое используется только при решении сложных статистических задач.

Биномиальное распределение, примеры которого мы рассмотрели выше, - одно из самых простых видов распределений в теории вероятностей. Существует также нормальное распределение, являющееся одним из видов биномиального. Оно используется чаще всего, и наиболее просто в расчётах. Бывает также распределение Бернулли, распределение Пуассона, условное распределение. Все они характеризуют графически области вероятности того или иного процесса при разных условиях.

В следующем разделе рассмотрим аспекты, касающиеся применения этого математического аппарата в реальной жизни. На первый взгляд, конечно, кажется, что это очередная математическая штука, которая, как обычно, не находит применения в реальной жизни, и вообще не нужна никому, кроме самих математиков. Однако это далеко не так. Ведь все виды распределений и их графические представления были созданы исключительно под практические цели, а не в качестве прихоти учёных.

Применение

Безусловно, самое важное применение распределения находят в статистике, ведь там нужен комплексный анализ множества данных. Как показывает практика, очень многие массивы данных имеют примерно одинаковые распределения величин: критические области очень низких и очень высоких величин, как правило, содержат меньше элементов, чем средние значения.

Анализ больших массивов данных требуется не только в статистике. Он незаменим, например, в физической химии. В этой науке он используется для определения многих величин, которые связаны со случайными колебаниями и перемещениями атомов и молекул.

В следующем разделе разберёмся, насколько важно применение таких статистических понятий, как биномиальное распределение случайной величины в повседневной жизни для нас с вами.

Зачем мне это нужно?

Многие задают себе такой вопрос, когда дело касается математики. А между прочим, математика не зря называется царицей наук. Она является основой физики, химии, биологии, экономики, и в каждой из этих наук применяется в том числе и какое-либо распределение: будь это дискретное биномиальное распределение, или же нормальное, не важно. И если мы получше присмотримся к окружающему миру, то увидим, что математика применяется везде: в повседневной жизни, на работе, да даже человеческие отношения можно представить в виде статистических данных и провести их анализ (так, кстати, и делают те, кто работают в специальных организациях, занимающихся сбором информации).

Сейчас поговорим немного о том, что же делать, если вам нужно знать по данной теме намного больше, чем то, что мы изложили в этой статье.

Та информация, что мы дали в этой статье, далеко не полная. Существует множество нюансов, касаемо того, какую форму может принимать распределение. Биномиальное распределение, как мы уже выяснили, является одним из основных видов, на котором зиждется вся математическая статистика и теория вероятностей.

Если вам стало интересно, или в связи с вашей работой вам нужно знать по этой теме гораздо больше, нужно будет изучить специализированную литературу. Начать следует с университетского курса математического анализа и дойти там до раздела теории вероятностей. Также пригодятся знания в области рядов, ведь биномиальное распределение вероятностей - это ни что иное, как ряд последовательных членов.

Заключение

Прежде чем закончить статью, мы хотели бы рассказать ещё одну интересную вещь. Она касается непосредственно темы нашей статьи и всей математики в целом.

Многие люди твердят, что математика - бесполезная наука, и ничто из того, что они проходили в школе, им не пригодилось. Но знание ведь никогда не бывает лишним, и если вам что-то не пригодилось в жизни, значит, вы просто этого не помните. Если у вас есть знания, они могут вам помочь, но если их нет, то и помощи от них ждать не приходится.

Итак, мы рассмотрели понятие биномиального распределения и все связанные с ним определения и поговорили о том, как же это применяется в нашей с вами жизни.

В настоящей и нескольких следующих заметках мы рассмотрим математические модели случайных событий. Математическая модель - это математическое выражение, представляющее случайную величину. Для дискретных случайных величин это математическое выражение известно под названием функция распределения.

Если задача позволяет явно записать математическое выражение, представляющее случайную величину, можно вычислить точную вероятность любого ее значения. В этом случае можно вычислить и перечислить все значения функции распределения. В деловых, социологических и медицинских приложениях встречаются разнообразные распределения случайных величин. Одним из наиболее полезных распределений является биномиальное.

Биномиальное распределение используется для моделирования ситуаций, характеризующихся следующими особенностями.

  • Выборка состоит из фиксированного числа элементов n , представляющих собой исходы некоего испытания.
  • Каждый элемент выборки принадлежит одной из двух взаимоисключающих категорий, исчерпывающих все выборочное пространство. Как правило, эти две категории называют успех и неудача.
  • Вероятность успеха р является постоянной. Следовательно, вероятность неудачи равна 1 – р .
  • Исход (т.е. удача или неудача) любого испытания не зависит от результата другого испытания. Чтобы гарантировать независимость исходов, элементы выборки, как правило, получают с помощью двух разных методов. Каждый элемент выборки случайным образом извлекается из бесконечной генеральной совокупности без возвращения или из конечной генеральной совокупности с возвращением.

Скачать заметку в формате или , примеры в формате

Биномиальное распределение используется для оценки количества успехов в выборке, состоящей из n наблюдений. Рассмотрим в качестве примера оформление заказов. Чтобы сделать заказ клиенты компании Saxon Company могут воспользоваться интерактивной электронной формой и послать ее в компанию. Затем информационная система проверяет, нет ли в заказах ошибок, а также неполной или недостоверной информации. Любой заказ, вызывающий сомнения, помечается и включается в ежедневный отчет об исключительных ситуациях. Данные, собранные компанией, свидетельствуют, что вероятность ошибок в заказах равна 0,1. Компания хотела бы знать, какова вероятность обнаружить определенное количество ошибочных заказов в заданной выборке. Например, предположим, что клиенты заполнили четыре электронных формы. Какова вероятность, что все заказы окажутся безошибочными? Как вычислить эту вероятность? Под успехом будем понимать ошибку при заполнении формы, а все остальные исходы будем считать неудачей. Напомним, что нас интересует количество ошибочных заказов в заданной выборке.

Какие исходы мы можем наблюдать? Если выборка состоит из четырех заказов, ошибочными могут оказаться один, два, три или все четыре, кроме того, все они могут оказаться правильно заполненными. Может ли случайная величина, описывающая количество неправильно заполненных форм, принимать какое-либо иное значение? Это невозможно, поскольку количество неправильно заполненных форм не может превышать объем выборки n или быть отрицательным. Таким образом, случайная величина, подчиняющаяся биномиальному закону распределения, принимает значения от 0 до n .

Допустим, что в выборке из четырех заказов наблюдаются следующие исходы:

Какова вероятность обнаружить три ошибочных заказа в выборке, состоящей из четырех заказов, причем в указанной последовательности? Поскольку предварительные исследования показали, что вероятность ошибки при заполнении формы равна 0,10, вероятности указанных выше исходов вычисляются следующим образом:

Поскольку исходы не зависят друг от друга, вероятность указанной последовательности исходов равна: р*р*(1–р)*р = 0,1*0,1*0,9*0,1 = 0,0009. Если же необходимо вычислить количество вариантов выбора X n элементов, следует воспользоваться формулой сочетаний (1):

где n! = n * (n –1) * (n – 2) * … * 2 * 1 - факториал числа n , причем 0! = 1 и 1! = 1 по определению.

Это выражение часто обозначают как . Таким образом, если n = 4 и X = 3, количество последовательностей, состоящих из трех элементов, извлеченных из выборки, объем которой равен 4, определяется по следующей формуле:

Следовательно, вероятность обнаружить три ошибочных заказа вычисляется следующим образом:

(Количество возможных последовательностей) *
(вероятность конкретной последовательности) = 4 * 0,0009 = 0,0036

Аналогично можно вычислить вероятность того, что среди четырех заказов окажутся один или два ошибочных, а также вероятность того, что все заказы ошибочны или все верны. Однако при увеличении объема выборки n определить вероятность конкретной последовательности исходов становится труднее. В этом случае следует применить соответствующую математическую модель, описывающую биномиальное распределение количества вариантов выбора X объектов из выборки, содержащей n элементов.

Биноминальное распределение

где Р(Х) - вероятность X успехов при заданных объеме выборки n и вероятности успеха р , X = 0, 1, … n .

Обратите внимание на то, что формула (2) представляет собой формализацию интуитивных выводов. Случайная величина X , подчиняющаяся биномиальному распределению, может принимать любое целое значение в диапазоне от 0 до n . Произведение р X (1 – р) n X представляет собой вероятность конкретной последовательности, состоящей из X успехов в выборке, объем которой равен n . Величина определяет количество возможных комбинаций, состоящих из X успехов в n испытаниях. Следовательно, при заданном количестве испытаний n и вероятности успеха р вероятность последовательности, состоящей из X успехов, равна

Р(Х) = (количество возможных последовательностей) * (вероятность конкретной последовательности) =

Рассмотрим примеры, иллюстрирующие применение формулы (2).

1. Допустим, что вероятность неверно заполнить форму равна 0,1. Какова вероятность того, что среди четырех заполненных форм три окажутся ошибочными? Используя формулу (2), получаем, что вероятность обнаружить три ошибочных заказа в выборке, состоящей из четырех заказов, равна

2. Допустим, что вероятность неверно заполнить форму равна 0,1. Какова вероятность того, что среди четырех заполненных форм не менее трех окажутся ошибочными? Как показано в предыдущем примере, вероятность того, что среди четырех заполненных форм три окажутся ошибочными, равна 0,0036. Чтобы вычислить вероятность того, что среди четырех заполненных форм не менее трех будут неправильно заполнены, необходимо сложить вероятность того, что среди четырех заполненных форм три окажутся ошибочными, и вероятность того, что среди четырех заполненных форм все окажутся ошибочными. Вероятность второго события равна

Таким образом, вероятность того, что среди четырех заполненных форм не менее трех окажутся ошибочными, равна

Р(Х > 3) = Р(Х = 3) + Р(Х = 4) = 0,0036 + 0,0001 = 0,0037

3. Допустим, что вероятность неверно заполнить форму равна 0,1. Какова вероятность того, что среди четырех заполненных форм менее трех окажутся ошибочными? Вероятность этого события

Р(X < 3) = P(X = 0) + P(X = 1) + P(X = 2)

Используя формулу (2), вычислим каждую из этих вероятностей:

Следовательно, Р(Х < 3) = 0,6561 + 0,2916 + 0,0486 = 0,9963.

Вероятность Р(Х < 3) можно вычислить иначе. Для этого воспользуемся тем, что событие X < 3 является дополнительным по отношению к событию Х> 3. Тогда Р(Х< 3) = 1 – Р(Х> 3) = 1 – 0,0037 = 0,9963.

По мере увеличения объема выборки n вычисления, аналогичные проведенным в примере 3, становятся затруднительными. Чтобы избегать этих сложностей, многие биномиальные вероятности табулируют заранее. Некоторые из этих вероятностей приведены рис. 1. Например, чтобы получить вероятность, что Х = 2 при n = 4 и p = 0,1, следует извлечь из таблицы число, стоящее на пересечении строки Х = 2 и столбца р = 0,1.

Рис. 1. Биномиальная вероятность при n = 4, Х = 2 и р = 0,1

Биномиальное распределение можно вычислить с помощью функции Excel =БИНОМ.РАСП() (рис. 2), имеющей 4 параметра: число успехов – Х , число испытаний (или объем выборки) – n , вероятность успеха – р , параметр интегральная , принимающий значения ИСТИНА (в этом случае вычисляется вероятность не менее Х событий) или ЛОЖЬ (в этом случае вычисляется вероятность точно Х событий).

Рис. 2. Параметры функции =БИНОМ.РАСП()

Для вышеприведенных трех примеров расчеты приведены на рис. 3 (см. также Excel-файл). В каждом столбце приведено по одной формуле. Цифрами показаны ответы на примеры соответствующего номера).

Рис. 3. Расчет биноминального распределения в Excel для n = 4 и p = 0,1

Свойства биномиального распределения

Биномиальное распределение зависит от параметров n и р . Биномиальное распределение может быть, как симметричным, так и асимметричным. Если р = 0,05, биномиальное распределение является симметричным независимо от величины параметра n . Однако, если р ≠ 0,05, распределение становится асимметричным. Чем ближе значение параметра р к 0,05 и чем больше объем выборки n , тем слабее выражена асимметрия распределения. Таким образом, распределение количества неправильно заполненных форм смещено вправо, поскольку p = 0,1 (рис. 4).

Рис. 4. Гистограмма биномиального распределения при n = 4 и p = 0,1

Математическое ожидание биномиального распределения равно произведению объема выборки n на вероятность успеха р :

(3) Μ = Е(Х) = np

В среднем, при достаточно долгой серии испытаний в выборке, состоящей из четырех заказов, может оказаться р = Е(Х) = 4 х 0,1 = 0,4 неправильно заполненных форм.

Стандартное отклонение биномиального распределения

Например, стандартное отклонение количества неверно заполненных форм в бухгалтерской информационной системе равно:

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 307–313

Рассмотрим Биномиальное распределение, вычислим его математическое ожидание, дисперсию, моду. С помощью функции MS EXCEL БИНОМ.РАСП() построим графики функции распределения и плотности вероятности. Произведем оценку параметра распределения p, математического ожидания распределения и стандартного отклонения. Также рассмотрим распределение Бернулли.

Определение . Пусть проводятся n испытаний, в каждом из которых может произойти только 2 события: событие «успех» с вероятностью p или событие «неудача» с вероятностью q =1-p (так называемая Схема Бернулли, Bernoulli trials ).

Вероятность получения ровно x успехов в этих n испытаниях равна:

Количество успехов в выборке x является случайной величиной, которая имеет Биномиальное распределение (англ. Binomial distribution ) p и n являются параметрами этого распределения.

Напомним, что для применения схемы Бернулли и соответственно Биномиального распределения, должны быть выполнены следующие условия:

  • каждое испытание должно иметь ровно два исхода, условно называемых «успехом» и «неудачей».
  • результат каждого испытания не должен зависеть от результатов предыдущих испытаний (независимость испытаний).
  • вероятность успеха p должна быть постоянной для всех испытаний.

Биномиальное распределение в MS EXCEL

В MS EXCEL, начиная с версии 2010, для Биномиального распределения имеется функция БИНОМ.РАСП() , английское название - BINOM.DIST(), которая позволяет вычислить вероятность того, что в выборке будет ровно х «успехов» (т.е. функцию плотности вероятности p(x), см. формулу выше), и интегральную функцию распределения (вероятность того, что в выборке будет x или меньше «успехов», включая 0).

До MS EXCEL 2010 в EXCEL была функция БИНОМРАСП() , которая также позволяет вычислить функцию распределения и плотность вероятности p(x). БИНОМРАСП() оставлена в MS EXCEL 2010 для совместимости.

В файле примера приведены графики плотности распределения вероятности и .

Биномиальное распределения имеет обозначение B (n ; p ) .

Примечание : Для построения интегральной функции распределения идеально подходит диаграмма типа График , для плотности распределения Гистограмма с группировкой . Подробнее о построении диаграмм читайте статью Основные типы диаграмм.

Примечание : Для удобства написания формул в файле примера созданы Имена для параметров Биномиального распределения : n и p.

В файле примера приведены различные расчеты вероятности с помощью функций MS EXCEL:

Как видно на картинке выше, предполагается, что:

  • В бесконечной совокупности, из которой делается выборка, содержится 10% (или 0,1) годных элементов (параметр p , третий аргумент функции =БИНОМ.РАСП() )
  • Чтобы вычислить вероятность, того что в выборке из 10 элементов (параметр n , второй аргумент функции) будет ровно 5 годных элементов (первый аргумент), нужно записать формулу: =БИНОМ.РАСП(5; 10; 0,1; ЛОЖЬ)
  • Последний, четвертый элемент, установлен =ЛОЖЬ, т.е. возвращается значение функции плотности распределения .

Если значение четвертого аргумента =ИСТИНА, то функция БИНОМ.РАСП() возвращает значение интегральной функции распределения или просто Функцию распределения . В этом случае можно рассчитать вероятность того, что в выборке количество годных элементов будет из определенного диапазона, например, 2 или меньше (включая 0).

Для этого нужно записать формулу:
= БИНОМ.РАСП(2; 10; 0,1; ИСТИНА)

Примечание : При нецелом значении х, . Например, следующие формулы вернут одно и тоже значение:
=БИНОМ.РАСП(2 ; 10; 0,1; ИСТИНА)
=БИНОМ.РАСП(2,9 ; 10; 0,1; ИСТИНА)

Примечание : В файле примера плотность вероятности и функция распределения также вычислены с использованием определения и функции ЧИСЛКОМБ() .

Показатели распределения

В файле примера на листе Пример имеются формулы для расчета некоторых показателей распределения:

  • =n*p;
  • (квадрата стандартного отклонения) = n*p*(1-p);
  • = (n+1)*p;
  • =(1-2*p)*КОРЕНЬ(n*p*(1-p)).

Выведем формулу математического ожидания Биномиального распределения , используя Схему Бернулли .

По определению случайная величина Х в схеме Бернулли (Bernoulli random variable) имеет функцию распределения :

Это распределение называется распределение Бернулли .

Примечание : распределение Бернулли – частный случай Биномиального распределения с параметром n=1.

Сгенерируем 3 массива по 100 чисел с различными вероятностями успеха: 0,1; 0,5 и 0,9. Для этого в окне Генерация случайных чисел установим следующие параметры для каждой вероятности p:

Примечание : Если установить опцию Случайное рассеивание (Random Seed ), то можно выбрать определенный случайный набор сгенерированных чисел. Например, установив эту опцию =25 можно сгенерировать на разных компьютерах одни и те же наборы случайных чисел (если, конечно, другие параметры распределения совпадают). Значение опции может принимать целые значения от 1 до 32 767. Название опции Случайное рассеивание может запутать. Лучше было бы ее перевести как Номер набора со случайными числами .

В итоге будем иметь 3 столбца по 100 чисел, на основании которых можно, например, оценить вероятность успеха p по формуле: Число успехов/100 (см. файл примера лист ГенерацияБернулли ).

Примечание : Для распределения Бернулли с p=0,5 можно использовать формулу =СЛУЧМЕЖДУ(0;1) , которая соответствует .

Генерация случайных чисел. Биномиальное распределение

Предположим, что в выборке обнаружилось 7 дефектных изделий. Это означает, что «очень вероятна» ситуация, что изменилась доля дефектных изделий p , которая является характеристикой нашего производственного процесса. Хотя такая ситуация «очень вероятна», но существует вероятность (альфа-риск, ошибка 1-го рода, «ложная тревога»), что все же p осталась без изменений, а увеличенное количество дефектных изделий обусловлено случайностью выборки.

Как видно на рисунке ниже, 7 – количество дефектных изделий, которое допустимо для процесса с p=0,21 при том же значении Альфа . Это служит иллюстрацией, что при превышении порогового значения дефектных изделий в выборке, p «скорее всего» увеличилось. Фраза «скорее всего» означает, что существует всего лишь 10% вероятность (100%-90%) того, что отклонение доли дефектных изделий выше порогового вызвано только сучайными причинами.

Таким образом, превышение порогового количества дефектных изделий в выборке, может служить сигналом, что процесс расстроился и стал выпускать бо льший процент бракованных изделий.

Примечание : До MS EXCEL 2010 в EXCEL была функция КРИТБИНОМ() , которая эквивалентна БИНОМ.ОБР() . КРИТБИНОМ() оставлена в MS EXCEL 2010 и выше для совместимости.

Связь Биномиального распределения с другими распределениями

Если параметр n Биномиального распределения стремится к бесконечности, а p стремится к 0, то в этом случае Биномиальное распределение может быть аппроксимировано .
Можно сформулировать условия, когда приближение распределением Пуассона работает хорошо:

  • p <0,1 (чем меньше p и больше n , тем приближение точнее);
  • p >0,9 (учитывая, что q =1- p , вычисления в этом случае необходимо производить через q х нужно заменить на n - x ). Следовательно, чем меньше q и больше n , тем приближение точнее).

При 0,1<=p<=0,9 и n*p>10 Биномиальное распределение можно аппроксимировать .

В свою очередь, Биномиальное распределение может служить хорошим приближением , когда размер совокупности N Гипергеометрического распределения гораздо больше размера выборки n (т.е., N>>n или n/N<<1).

Подробнее о связи вышеуказанных распределений, можно прочитать в статье . Там же приведены примеры аппроксимации, и пояснены условия, когда она возможна и с какой точностью.

СОВЕТ : О других распределениях MS EXCEL можно прочитать в статье .

Биномиальное распределение - одно из важнейших распределений вероятностей дискретно изменяющейся случайной величины. Биномиальным распределением называется распределение вероятностей числа m наступления события А в n взаимно независимых наблюдениях . Часто событие А называют "успехом" наблюдения, а противоположное ему событие - "неуспехом", но это обозначение весьма условное.

Условия биномиального распределения :

  • в общей сложности проведено n испытаний, в которых событие А может наступить или не наступить;
  • событие А в каждом из испытаний может наступить с одной и той же вероятностью p ;
  • испытания являются взаимно независимыми.

Вероятность того, что в n испытаниях событие А наступит именно m раз, можно вычислить по формуле Бернулли:

,

где p - вероятность наступления события А ;

q = 1 - p - вероятность наступления противоположного события .

Разберёмся, почему биномиальное распределение описанным выше образом связано с формулой Бернулли . Событие - число успехов при n испытаниях распадается на ряд вариантов, в каждом из которых успех достигается в m испытаниях, а неуспех - в n - m испытаниях. Рассмотрим один из таких вариантов - B 1 . По правилу сложения вероятностей умножаем вероятности противоположных событий:

,

а если обозначим q = 1 - p , то

.

Такую же вероятность будет иметь любой другой вариант, в котором m успехов и n - m неуспехов. Число таких вариантов равно - числу способов, которыми можно из n испытаний получить m успехов.

Сумма вероятностей всех m чисел наступления события А (чисел от 0 до n ) равна единице:

где каждое слагаемое представляет собой слагаемое бинома Ньютона. Поэтому рассматриваемое распределение и называется биномиальным распределением.

На практике часто необходимо вычислять вероятности "не более m успехов в n испытаниях" или "не менее m успехов в n испытаниях". Для этого используются следующие формулы.

Интегральную функцию, то есть вероятность F (m ) того, что в n наблюдениях событие А наступит не более m раз , можно вычислить по формуле:

В свою очередь вероятность F (≥m ) того, что в n наблюдениях событие А наступит не менее m раз , вычисляется по формуле:

Иногда бывает удобнее вычислять вероятность того, что в n наблюдениях событие А наступит не более m раз, через вероятность противоположного события:

.

Какой из формул пользоваться, зависит от того, в какой из них сумма содержит меньше слагаемых.

Характеристики биномиального распределения вычисляются по следующим формулам .

Математическое ожидание: .

Дисперсия: .

Среднеквадратичное отклонение: .

Биномиальное распределение и расчёты в MS Excel

Вероятность биномиального распределения P n (m ) и значения интегральной функции F (m ) можно вычислить при помощи функции MS Excel БИНОМ.РАСП. Окно для соответствующего расчёта показано ниже (для увеличения нажать левой кнопкой мыши).


MS Excel требует ввести следующие данные:

  • число успехов;
  • число испытаний;
  • вероятность успеха;
  • интегральная - логическое значение: 0 - если нужно вычислить вероятность P n (m ) и 1 - если вероятность F (m ).

Пример 1. Менеджер фирмы обобщил информацию о числе проданных в течение последних 100 дней фотокамер. В таблице обобщена информация и рассчитаны вероятности того, что в день будет продано определённое число фотокамер.

День завершён с прибылью, если продано 13 или более фотокамер. Вероятность, что день будет отработан с прибылью:

Вероятность того, что день будет отработан без прибыли:

Пусть вероятность того, что день отработан с прибылью, является постоянной и равна 0,61, и число проданных в день фотокамер не зависит от дня. Тогда можно использовать биномиальное распределение, где событие А - день будет отработан с прибылью, - без прибыли.

Вероятность того, что из 6 дней все будут отработаны с прибылью:

.

Тот же результат получим, используя функцию MS Excel БИНОМ.РАСП (значение интегральной величины - 0):

P 6 (6 ) = БИНОМ.РАСП(6; 6; 0,61; 0) = 0,052.

Вероятность того, что из 6 дней 4 и больше дней будут отработаны с прибылью:

где ,

,

Используя функцию MS Excel БИНОМ.РАСП, вычислим вероятность того, что из 6 дней не более 3 дней будут завершены с прибылью (значение интегральной величины - 1):

P 6 (≤3 ) = БИНОМ.РАСП(3; 6; 0,61; 1) = 0,435.

Вероятность того, что из 6 дней все будут отработаны с убытками:

,

Тот же показатель вычислим, используя функцию MS Excel БИНОМ.РАСП:

P 6 (0 ) = БИНОМ.РАСП(0; 6; 0,61; 0) = 0,0035.

Решить задачу самостоятельно, а затем посмотреть решение

Пример 2. В урне 2 белых шара и 3 чёрных. Из урны вынимают шар, устанавливают цвет и кладут обратно. Попытку повторяют 5 раз. Число появления белых шаров - дискретная случайная величина X , распределённая по биномиальному закону. Составить закон распределения случайной величины. Определить моду, математическое ожидание и дисперсию.

Продолжаем решать задачи вместе

Пример 3. Из курьерской службы отправились на объекты n = 5 курьеров. Каждый курьер с вероятностью p = 0,3 независимо от других опаздывает на объект. Дискретная случайная величина X - число опоздавших курьеров. Построить ряд распределения это случайной величины. Найти её математическое ожидание, дисперсию, среднее квадратическое отклонение. Найти вероятность того, что на объекты опоздают не менее двух курьеров.


Конечно, при вычислении кумулятивной функции распределения следует воспользоваться упомянутой связью биномиального и бета- распределения. Этот способ заведомо лучше непосредственного суммирования, когда n > 10.

В классических учебниках по статистике для получения значений биномиального распределения часто рекомендуют использовать формулы, основанные на предельных теоремах (типа формулы Муавра-Лапласа). Необходимо отметить, что с чисто вычислительной точки зрения ценность этих теорем близка к нулю, особенно сейчас, когда практически на каждом столе стоит мощный компьютер. Основной недостаток приведенных аппроксимаций – их совершенно недостаточная точность при значениях n, характерных для большинства приложений. Не меньшим недостатком является и отсутствие сколько-нибудь четких рекомендаций о применимости той или иной аппроксимации (в стандартных текстах приводятся лишь асимптотические формулировки, они не сопровождаются оценками точности и, следовательно, мало полезны). Я бы сказал, что обе формулы пригодны лишь при n < 200 и для совсем грубых, ориентировочных расчетов, причем делаемых “вручную” с помощью статистических таблиц. А вот связь между биномиальным распределением и бета-распределением позволяет вычислять биномиальное распределение достаточно экономно.

Я не рассматриваю здесь задачу поиска квантилей: для дискретных распределений она тривиальна, а в тех задачах, где такие распределения возникают, она, как правило, и не актуальна. Если же квантили все-таки понадобятся, рекомендую так переформулировать задачу, чтобы работать с p-значениями (наблюденными значимостями). Вот пример: при реализации некоторых переборных алгоритмов на каждом шаге требуется проверять статистическую гипотезу о биномиальной случайной величине. Согласно классическому подходу на каждом шаге нужно вычислить статистику критерия и сравнить ее значение с границей критического множества. Поскольку, однако, алгоритм переборный, приходится определять границу критического множества каждый раз заново (ведь от шага к шагу объем выборки меняется), что непроизводительно увеличивает временные затраты. Современный подход рекомендует вычислять наблюденную значимость и сравнивать ее с доверительной вероятностью, экономя на поиске квантилей.

Поэтому в приводимых ниже кодах отсутствует вычисление обратной функции, взамен приведена функция rev_binomialDF , которая вычисляет вероятность p успеха в отдельном испытании по заданному количеству n испытаний, числу m успехов в них и значению y вероятности получить эти m успехов. При этом используется вышеупомянутая связь между биномиальным и бета распределениями.

Фактически, эта функция позволяет получать границы доверительных интервалов. В самом деле, предположим, что в n биномиальных испытаниях мы получили m успехов. Как известно, левая граница двухстороннего доверительного интервала для параметра p с доверительным уровнем равна 0, если m = 0, а для является решением уравнения . Аналогично, правая граница равна 1, если m = n, а для является решением уравнения . Отсюда вытекает, что для поиска левой границы мы должны решать относительно уравнение , а для поиска правой – уравнение . Они и решаются в функциях binom_leftCI и binom_rightCI , возвращающих верхнюю и нижнюю границы двустороннего доверительного интервала соответственно.

Хочу заметить, что если не нужна совсем уж неимоверная точность, то при достаточно больших n можно воспользоваться следующей аппроксимацией [Б.Л. ван дер Варден, Математическая статистика. М: ИЛ, 1960, гл. 2, разд. 7]: , где g – квантиль нормального распределения. Ценность этой аппроксимации в том, что имеются очень простые приближения, позволяющие вычислять квантили нормального распределения (см. текст о вычислении нормального распределения и соответствующий раздел данного справочника). В моей практике (в основном, при n > 100) эта аппроксимация давала примерно 3-4 знака, чего, как правило, вполне достаточно.

Для вычислений с помощью нижеследующих кодов потребуются файлы betaDF.h , betaDF.cpp (см. раздел о бета-распределении), а также logGamma.h , logGamma.cpp (см. приложение А). Вы можете посмотреть также пример использования функций.

Файл binomialDF.h

#ifndef __BINOMIAL_H__ #include "betaDF.h" double binomialDF(double trials, double successes, double p); /* * Пусть имеется "trials" независимых наблюдений * с вероятностью "p" успеха в каждом. * Вычисляется вероятность B(successes|trials,p) того, что число * успехов заключено между 0 и "successes" (включительно). */ double rev_binomialDF(double trials, double successes, double y); /* * Пусть известна вероятность y наступления не менее m успехов * в trials испытаниях схемы Бернулли. Функция находит вероятность p * успеха в отдельном испытании. * * В вычислениях используется следующее соотношение * * 1 - p = rev_Beta(trials-successes| successes+1, y). */ double binom_leftCI(double trials, double successes, double level); /* Пусть имеется "trials" независимых наблюдений * с вероятностью "p" успеха в каждом * и количество успехов равно "successes". * Вычисляется левая граница двустороннего доверительного интервала * с уровнем значимости level. */ double binom_rightCI(double n, double successes, double level); /* Пусть имеется "trials" независимых наблюдений * с вероятностью "p" успеха в каждом * и количество успехов равно "successes". * Вычисляется правая граница двустороннего доверительного интервала * с уровнем значимости level. */ #endif /* Ends #ifndef __BINOMIAL_H__ */

Файл binomialDF.cpp

/***********************************************************/ /* Биномиальное распределение */ /***********************************************************/ #include #include #include "betaDF.h" ENTRY double binomialDF(double n, double m, double p) /* * Пусть имеется "n" независимых наблюдений * с вероятностью "p" успеха в каждом. * Вычисляется вероятность B(m|n,p) того, что число успехов заключено * между 0 и "m" (включительно), т.е. * сумму биномиальных вероятностей от 0 до m: * * m * -- (n) j n-j * > () p (1-p) * -- (j) * j=0 * * Вычисления не подразумевают тупое суммирование - используется * следующая связь с центральным бета-распределением: * * B(m|n,p) = Beta(1-p|n-m,m+1). * * Аргументы должны быть положительными, причем 0 <= p <= 1. */ { assert((n > 0) && (p >= 0) && (p <= 1)); if (m < 0) return 0; else if (m == 0) return pow(1-p, n); else if (m >= n) return 1; else return BetaDF(n-m, m+1).value(1-p); }/* binomialDF */ ENTRY double rev_binomialDF(double n, double m, double y) /* * Пусть известна вероятность y наступления не менее m успехов * в n испытаниях схемы Бернулли. Функция находит вероятность p * успеха в отдельном испытании. * * В вычислениях используется следующее соотношение * * 1 - p = rev_Beta(y|n-m,m+1). */ { assert((n > 0) && (m >= 0) && (m <= n) && (y >= 0) && (y <= 1)); return 1-BetaDF(n-m, m+1).inv(y); }/*rev_binomialDF*/ ENTRY double binom_leftCI(double n, double m, double y) /* Пусть имеется "n" независимых наблюдений * с вероятностью "p" успеха в каждом * и количество успехов равно "m". * Вычисляется левая граница двухстороннего доверительного интервала * с уровнем значимости y. */ { assert((n > 0) && (m >= 0) && (m <= n) && (y >= 0.5) && (y < 1)); return BetaDF(m, n-m+1).inv((1-y)/2); }/*binom_leftCI*/ ENTRY double binom_rightCI(double n, double m, double y) /* Пусть имеется "n" независимых наблюдений * с вероятностью "p" успеха в каждом * и количество успехов равно "m". * Вычисляется правая граница доверительного интервала * с уровнем значимости y. */ { assert((n > 0) && (m >= 0) && (m <= n) && (y >= 0.5) && (y < 1)); return BetaDF(m+1, n-m).inv((1+y)/2); }/*binom_rightCI*/