Вниманию читателя предлагается книга, продолжающая реализацию замысла авторов: создать многотомное справочное пособие по современным математическим методам статистической обработки данных, включающее в себя одновременное освещение необходимого математического аппарата, соответствующего программного обеспечения ЭВМ и рекомендаций по преодолению вычислительных трудностей, связанных с использованием описываемых методов и алгоритмов. Книга адресована специалистам различных сфер человеческой деятельности, использующим методы математической статистики и анализа данных в своей работе.

Для понимания материала книги читателю достаточно обладать математической подготовкой в объеме программ экономического или технического вуза либо ознакомиться с базовыми понятиями теории вероятностей и математической статистики, описанными в первом томе справочного издания . В свою очередь освоение материала предлагаемой книги может служить надежной и удобной базой для более глубокого проникновения в предмет исследования, основанного на изучении специальных монографий и журнальных статей.

Тема книги, бесспорно, центральная во всем справочном издании. Она является таковой как по глубине и разнообразию разработанного к настоящему времени математического аппарата, так и по удельному весу использования описываемых методов и моделей в практических разработках разнообразного профиля.

Главная цель, которую ставили перед собой автоы - оснастить исследователя, использующего в своей работе статистические методы, инструментарием, необходимым для решения ключевой проблемы всякого исследования: как на основании частных результатов статистического наблюдения за анализируемыми событиями или показателями выявить и описать существующие между ними взаимосвязи. Именно эта проблема, проблема статистического исследования зависимостей, оказывается главной в решении таких типовых задач практики, как нормирование, прогноз, планирование, диагностика, оценка труднодоступных для непосредственного наблюдения и измерения характеристик анализируемой системы, оценка эффективности функционирования или качества объекта, регулирование параметров процесса или системы.

Авторы стремились к объективно сбалансированному представлению материала как по структуре книги, так и по ее содержанию. Однако широта и разноплановость затронутой проблемы не позволяют им претендовать на всеобъемлющий охват темы. Так, например, относительно узко представлена в данном томе тематика статистического анализа динамических зависимостей; не дано описания весьма полезного, в определенных типах задач, аппарата логических решающих правил; не вошел в книгу материал, посвященный актуальной в прикладном плане (особенно в задачах управления технологическими процессами) тематике планирования регрессионных экспериментов.

Книга состоит из введения и четырех разделов.

Введение играет особую роль в понимании описываемых в дальнейшем методов и логики всей книги в целом. Можно сказать, что в нем в доступной для неискушенного читателя форме представлены содержание и логические связи всех частей книги. Приводятся основные постановки задач и «адреса» (в книге) их решения. Изложение проиллюстрировано простыми примерами. Поэтому сравнительно слабо подготовленному читателю рекомендуем не пожалеть времени на чтение введения.

Раздел I посвящен методам и приемам, позволяющим ответить на вопросы, имеется ли вообще какая-либо связь между исследуемыми переменными, как измерить их тесноту и какова структура связей между показателями исследуемого набора? При этом под структурой понимается характер всевозможных попарных двоичных взаимоотношений рассматриваемых признаков (по типу «связь есть» или «связи нет»), но не форма зависимости одного от другого. Методы, описанные в данном разделе, составляют содержание корреляционного анализа.

Раздел II содержит описание методов и моделей, позволяющих исследовать вид зависимости интересующего нас «выходного» (или «результирующего») количественного показателя от набора объясняющих переменных количественной природы (регрессионный анализ). В отдельной главе (гл. 12) рассмотрен случай, когда роль объясняющей переменной играет «время».

В разделе III решаются те же задачи, что и в разделе II, но в ситуации, когда в качестве объясняющих переменных выступают неколичественные или одновременно неколичественные и количественные признаки (дисперсионный и ковариационный анализ).

И наконец, в раздел IV включены глава, посвященная описанию методов статистического анализа так называемых систем одновременных эконометрических уравнений (т. е. набора одновременно выполняющихся соотношений, в которых одни и те же переменные могут участвовать в разных соотношениях: и в роли результирующего показателя, и в роли предсказывающей переменной), и глава, в которой дается обзор наиболее интересного отечественного и зарубежного программного обеспечения методов статистического исследования зависимостей.

Типы переменных:

  1. номинальные используются только для качественной классификации (пол, национальность и т.д.);
  2. порядковые переменные позволяют ранжировать объекты, указав, какие из них в большей или меньшей степени обладают качеством, выраженными данной переменной (не согласен…не знаю…согласен);
  3. интервальные переменные позволяют численно выразить и сравнить отличия между ними (шкала температуры);
  4. относительные. Характерная черта – наличие точки абсолютного нуля.

Понятие зависимости, используемое в статистике, не тождественно понятию причинности. Зависимость носит вероятностный характер. Существует много способов определения зависимости. Каждый из них лучше подходит для вполне конкретных данных. Но, обобщая, можно сказать, что методы и алгоритмы определения взаимосвязи переменных зависят, прежде всего, от типов переменных. При исследовании зависимости принято делить переменные на зависимые и независимые.

Переменные любых типов связаны (зависимы) между собой, если наблюдаемые значения этих переменных изменяются (распределены) согласованным образом.

Можно отметить 3 характеристики зависимости между переменными: величину зависимости, надёжность зависимости, форму зависимости .

Величина и надёжность зависимости

Надежность показывает, насколько вероятно, что зависимость, подобная найденной, будет вновь обнаружена (иными словами, подтвердится) на данных другой выборки, извлечённой из той же популяции. Если исследование удовлетворяет некоторым специальным критериям, то надёжность найденных зависимостей между переменными нашей выборки можно количественно оценить и представить с помощью стандартной стат. меры, называемой р-уровень , или стат. уровнем значимости . Это оценочная мера уверенности в его «истинности». Р-уровень представляет собой вероятность ошибки, связанной с распределением наблюдаемого результата на всю генеральную совокупность.

Выбор определённого уровня значимости, выше которого результаты могут быть отвергнуты как ложные, является достаточно произвольным.

Чем больше величина зависимости между переменными в выборке обычного объёма, тем более она надёжна . Однако точная количественная связь между зависимостью и значимостью имеет место только при фиксированном объёме выборки, поскольку одна и та же зависимость может оказаться как высоко значимой, так и не значимой вовсе. Если наблюдений мало, то соответственно имеется мало возможных комбинаций значений этих переменных и таким образом, вероятность случайно обнаружить комбинацию значений, показывающую сильную зависимость, относительно высока.

Если зависимость между переменными «объективно» мала, не существует иного способа проверить такую зависимость, кроме как исследовать выборку большого объёма. Даже если выборка совершенно репрезентативна, эффект не будет статистически значимым, если выборка мала. Если зависимость между переменными почти отсутствует, объём выборки, необходимый для его значимого обнаружения, почти равен объёму всей популяции, который предполагается бесконечным.

Все зависимости принято делить на линейные и нелинейные. Линейность зависимости означает, что при изменении значения одной переменной, пропорционально изменяется и другая переменная.

Любой закон природы или общественного развития может быть выражен в конечном счете в виде описания характера или структуры взаимосвязей (зависимостей), существующих между изучаемыми явлениями или показателями (переменными величинами или просто переменными). Если эти зависимости: а) сто-хаотичны по своей природе, т. е. позволяют устанавливать лишь вероятностные логические соотношения между изучаемыми событиями А и 5, а именно соотношения типа «из факта осуществления события А следует, что событие В должно произойти, но не обязательно, а лишь с некоторой (как правило, близкой к единице) вероятностью Р»; б) выявляются на основании статистического наблюдения за анализируемыми событиями или переменными, осуществляемого по выборке из интересующей нас генеральной совокупности , то мы оказываемся в рамках проблемы статистического исследования зависимостей. Соответствующий математический аппарат, будучи таким образом нацеленным в первую очередь на решение основной проблемы естествознания: как по отдельным, частным наблюдениям выявить и описать интересующую нас общую закономерность? - занимает, бесспорно, центральное место во всем прикладном математическом анализе.

Перед тем как перейти к формулировке общей и частных задач статистического исследования зависимостей, условимся описывать функционирование изучаемого реального объекта (системы, процесса, явления) набором переменных (рис. В.1), среди которых:

Так называемые «входные» переменные, описывающие условия функционирования (часть из них, как правило, поддается регулированию или частичному управлению); в соответствующих математических моделях их называют независимыми, факторами-аргументами, экзогенными, предикторными (или просто предикторами, т. е. предсказателями), объясняющими (в книге мы будем использовать в основном два последних термина);

Выходные переменные, характеризующие поведение или результат (эффективность) функционирования; в математических моделях их называют зависимыми, откликами, эндогенными, результирующими или объясняемыми (в книге используются в основном два последних термина);

Латентные (т. е. скрытые, не поддающиеся непосредственному измерению) случайные «остаточные» компоненты, отражающие влияние (соответственно на неучтенных «на входе» факторов, а также случайные ошибки в измерении анализируемых показателей (в математических моделях мы их, как правило, будем именовать просто «остатками»).

Рис. В.1. Общая схема взаимодействия переменных при статистическом исследовании зависимостей

Тогда общая задача статистического исследования зависимостей (в терминах изучаемых показателей) может быть сформулирована следующим образом: по результатам измерений

исследуемых переменных на объектах (системах, процессах) анализируемой совокупности построить такую (векторнозначную) функцию

которая позволила бы наилучшим (в определенном смысле) образом восстанавливать значения результирующих (прогнозируемых) переменных по заданным значениям объясняющих (предикторных) переменных

Рис. В.2. Графическое представление результатов обследования 40 семей по их среднедушевому доходу и среднедушевым денежным сбережениям

Данная формулировка задачи нуждается в уточнениях. В частности, прежде всего мы должны ответить на следующие вопросы:

а) каково математическое выражение (или структура модели ) искомой зависимости между Y и X, записанное в терминах Y, X, и

б) в соответствии с каким именно критерием качества аппроксимации значений У с помощью функции мы будем определять наилучший способ восстановления значений результирующих показателей по заданным значениям объясняющих переменных?

в) с какой именно прикладной целью мы проводим все наше исследование, т. е. для решения каких конкретных задач мы собираемся использовать построенную в результате исследования функцию ?

Прежде чем обсуждать эти вопросы, рассмотрим пример.

Пример В.1. Анализируется «поведение» двумерной случайной величины где - среднедушевой доход и - среднедушевые денежные сбережения в семье, случайно извлеченной из рассматриваемой совокупности семей, однородной по своему потребительскому поведению (см., например, , т. е. как определить те значения объясняющих (предикторных) переменных и то распределение заданного общего числа наблюдений между этими значениями, которые являются в некотором смысле наиболее выгодными с точки зрения достижения наивысшей точности наших статистических выводов?

Вернемся к нашему примеру и попробуем ответить на некоторые из поставленных здесь вопросов, в том числе на принципиальные вопросы а), б) и в), ответы на которые позволяют уточнить общую формулировку задачи статистического исследования зависимостей, данную выше.

Начнем «с конца», т. е. с уточнения конечных прикладных целей исследования (см. вопросы 1, а также а) и в)). Известно, что из двух анализируемых характеристик материальной сосостоятельности семьи характеристика денежных сбережений относится к категории статистически труднодоступных: содержащиеся в ежегодных и единовременных выборочных семейных бюджетных обследованиях ЦСУ сведения о сбережениях, как правило, непредставительны.

Таблица В.1

Поэтому главной конечной целью нашего исследования (опирающегося, как мы будем всегда предполагать, на достоверную и репрезентативную выборку исходных данных) является возможность восстановления (прогноза):

удельной (т. е. в расчете на одного члена семьи за определенный отрезок времени) величины денежных сбережений в конкретной семье (у(x)) по заданному значению ее среднедушевого дохода

удельной величины средних денежных сбережений в семьях данной группы х по доходам.

Таблица B.l

Этой цели мы сможем достигнуть, если сумеем математически описать закономерность изменения условных теоретических средних значений в зависимости от а также изучить характер случайного разброса денежных сбережений отдельных семей данной группы по доходам относительно своего среднего значения (при любом интересующем нас значении среднедушевого дохода ).

Это естественным образом приводит нас к необходимости рассмотрения математической модели вида

в которой остаточная компонента отражает случайное отклонение денежных сбережений наугад выбранной отдельной семьи с доходом от среднего значения этих сбережений, подсчитанного по всем семьям данной группы по доходам, а функция описывает характер изменения условного среднего (при ) в зависимости от изменения если дополнительно прийти к соглашению, что характер случайного разброса величин относительно своих средних таков, что при всех

Таким образом, из (В.3) мы непосредственно получаем

Чтобы покончить с вопросами 1, а) и в), остается уточнить общую структуру модели, т. е. определить, в каком классе F функций мы будем производить аппроксимацию искомой зависимости

В нашем случае, учитывая однородный (по характеру потребительского поведения) состав исследуемой совокупности семей, естественно исходить из гипотезы об одинаковой (в среднем) склонности семей к сбережениям, выражающейся, в частности, в том, что все семьи начиная с некоторого «порогового» уровня дохода, склонны отделять в сбережения в среднем одинаковую долю дохода. Математически, как легко понять, это выразится в виде

где и - некоторые константы (неизвестные параметры модели). Так что

где под понимается семейство всех тех функций , которые могут быть получены при подстановке вместо ее различных конкретных значений ( - векторный параметр).

Такой выбор «класса допустимых решений» подтверждается и характером расположения совокупности точек, являющихся геометрическим изображением исходных данных в нашлем примере (см. на рис. В.2 расположение «крестиков», ординаты которых определяются экспериментально подсчитанными, т. е. вычисленными на основании имеющихся выборочных данных, условными средними

И наконец, следует уточнить, в соответствии с каким именно критерием качества аппроксимации неизвестных величин среднедушевых семейных денежных сбережений у с помощью функции мы будем определять наилучший способ прогноза по х. Наиболее обоснованное и точное решение этого вопроса опирается на знание вероятностной природы (а именно типа закона распределения вероятностей) остатков в модели (В.3). Так, например, известно , что если предположить, что при любых значениях х распределение вероятностей остатков описывается - нормальным законом (т. е. нормальным законом со средним значением, равным нулю, и с некоторой, вообще говоря, неизвестной, но постоянной, т. е. не зависящей от х дисперсией ) и что остатки , характеризующие различные наблюдения, статистически независимы, то наименьшая ошибка прогноза с помощью модели (т. е. функция подбирается из класса F) обеспечивается требованием метода наименьших квадратов

Ученые установили, что одно лишь физическое присутствие телефона неподалеку рассеивает внимание и мешает заниматься другими делами. Даже если он выключен

Фото: http://www.buynothingnew.org/2017/06/sole-treadmill-reviews.html

Я сажусь за стол, кладу салфетку на колени и переворачиваю телефон экраном вниз. Я в ресторане, я расслаблен и начинаю обманывать себя. Я не собираюсь смотреть в телефон, говорю я себе. (Телефон моего собеседника тоже лежит экраном вниз на столе.) Он просто полежит здесь на случай, если что-нибудь случится.

Конечно, ничего не случилось. Но в течение следующих 90 минут я буду заглядывать в смски, просматривать лайки, а также пуш-уведомления от New York Times, как только мне станет скучно либо я начну ощущать беспокойство, расслабление, разочарование или усталость. Я буду заглядывать в телефон в туалете и когда выйду оттуда. Не то, чтобы мне это нравилось, но это очень интересно, даже если какая-то возмущенная часть моей психики стонет, что я делаю себя глупее каждый раз, когда смотрю в телефон. И это действительно так.

Смартфон может занимать сознание его хозяина, даже когда просто лежит рядом на столе или где-нибудь в одной комнате с ним, говорится в статье, опубликованной недавно в Journal of the Association for Consumer Research. По данным исследования, смартфон требует внимания пользователя, даже когда человек не использует его или сознательно не думает о нем. Даже если телефон находится вне поля зрения в сумке, даже если он в беззвучном режиме или выключен, одно его присутствие ослабляет рабочую память и навыки решения проблем.

Эти эффекты больше всего проявляются у людей, зависимых от своих смартфонов, которые утверждают: «Мне было бы сложно провести обычный день без мобильного телефона».

Но мало кто догадывается, что платит этот когнитивный налог на смартфон. Немногие участники исследования признавали, что во время тестирования отвлекались на телефон, даже если данные показывали, что их внимание задействовано не полностью.

«У нас ограниченные ресурсы внимания, и мы используем часть из них, чтобы направить остальные в правильном направлении. Обычно разные вещи важны в разных контекстах, но некоторые вещи - например, ваше имя - имеют действительно привилегированный статус», — говорит Адриан Уорд, автор исследования и психолог Техасского университета в Остине, изучающий особенности принятия решений потребителями.

«В случае со смартфонами это происходит постоянно, и они получают это привилегированное внимание, — говорит Уорд. — Если вы делаете что-то другое, кроме, скажем, использования своего имени, есть довольно высокая вероятность, что ваш телефон будет для вас важнее всего остального».

Другими словами: если вы становитесь зависимыми от своего смартфона, он превращается в волшебное устройство, которое постоянно кричит ваше имя в вашем мозгу. (Теперь вспомните, что это волшебное кричащее устройство - самый популярный потребительский продукт в истории. В развитом мире почти у каждого есть хотя бы одно из этих волшебных устройств, которое он носит с собой повсюду.)

В своем исследовании Уорд и его коллеги рассмотрели результаты более 500 студентов в двух разных психологических тестах на память и внимание. В первом эксперименте некоторых участников попросили перевести телефоны в беззвучный режим без вибрации и либо оставить их в сумке, либо положить на стол. Других участников попросили оставить все свои вещи, в том числе сотовый телефон, вне комнаты для тестирования.

Во втором эксперименте студентам было предложено оставить телефоны на столе, в сумке или в холле, как и в первом эксперименте. Но некоторых студентов также попросили выключить телефон, независимо от того, где они его оставят.

В обоих экспериментах студенты, оставившие телефоны за пределами комнаты, как правило, показывали хорошие результаты теста. Кроме того, они посчитали задания более легкими, хотя и не связывали это с отсутствием или присутствием смартфонов. Вообще на протяжении всего исследования респонденты редко приписывали свой успех или неудачу в тестах своим смартфонам и почти никогда не заявляли о том, что не справились с тестами.

Дэниэл Оппенгеймер, профессор психологии Калифорнийского университета в Лос-Анджелесе, отметил, что этот эффект хорошо известен для желанных объектов, но не смартфонов. Он не участвовал в этом исследовании, хотя его собственные работы были сосредоточены на других особенностях цифровой жизни. Несколько лет назад он и его коллеги установили, что студенты лучше запоминают лекцию, когда делают заметки вручную, а не в ноутбуке.

«Притягательные объекты отвлекают внимание, и необходимо приложить умственные усилия, чтобы сохранить нужную концентрацию, когда объект отвлечения находится поблизости, — говорит Оппенгеймер. — Положите шоколадный торт на стол рядом с человеком, который сидит на диете, пачку сигарет рядом с курильщиком или посадите супермодель в комнате с кем угодно, и можно ожидать, что у них будет больше проблем с тем, что они должны делать».

«Мы знаем, что сотовые телефоны очень желанны, и что многие люди привязаны к ним, так что в этом смысле не удивительно, что один вид смартфона отнимает психические ресурсы. Но это первое исследование, которое на самом деле демонстрирует эффект, имеющий очень важные последствия, учитывая распространенность телефонов в современном обществе», — подчеркивает он.

Уорд продолжает исследования психологических издержек и преимуществ новых технологий в повседневной жизни. Его диссертация в Гарварде посвящена последствиям делегирования когнитивных задач облачным сервисам. «Большие перемены происходят так быстро. iPhone существует 10 лет, интернет - только 25 лет, но мы уже не можем представить свою жизнь без этих технологий, — говорит он. — Радостные, положительные и захватывающие аспекты очень сильны, и мы пока не знаем отрицательных аспектов».

«Мы можем спорить до посинения и устраивать дискуссии между сторонниками и противниками технологий. Но я хотел бы иметь конкретные данные», — сказал он мне.

Стоит отметить, что категория психологических исследований, проводимых Уордом, — испытания на студентах-добровольцах, которые часто участвуют в исследованиях, чтобы получить зачет на курсе, - в последние годы вызывают недоверие. Психологи столкнулись со сложностями при воспроизведении некоторых известных экспериментов в этой области. И это исследование еще не было повторено.

Изучение зависимостей – основной род занятий экспериментаторов в любой области знаний. Исследуемый объект, особенно такой сложный как биологический, невозможно изучать целиком. Приходится выделять в нем определенные причинно-следственные связи, которые и формализуются в виде зависимостей. Изучаются зависимости следствий от причин или зависимости между несколькими следствиями, обусловленными общей причиной.

Частным случаем является зависимость какого-либо атрибута объекта от времени – изучению таких зависимостей была посвящена глава 7. В этой (восьмой) главе, напротив, будут рассматриваться преимущественно статические зависимости, в описании которых время не участвует, и все равно предмет этой главы чрезвычайно обширен. Ввиду ограниченного объема курса придется представить только “скелет” рассматриваемой темы. Остается надеяться, что читатели освоят конкретные вопросы изучения зависимостей в ходе собственной исследовательской работы, используя обширную литературу по различным аспектам этой сложной задачи, а также имеющееся программное обеспечение.

Непосредственно рассматриваемой теме посвящено, например, основательное справочное издание , сложное для первоначального знакомства. Более простым источником может послужить учебное пособие . Совсем просто и коротко, в прикладном плане рассмотрены вопросы исследования зависимостей в брошюре . Современные методы обработки экспериментальных данных изложены в монографии . Однако, наряду со сложными статистическими методами анализа и обработки данных, во многих случаях полезны методы наглядного “разведочного анализа” , которые не будут здесь рассматриваться, хотя о них, конечно, тоже не следует забывать.

8.2. Общая структура эксперимента по исследованию зависимостей

При общей постановке задачи исследования зависимостей предполагается (рис. 8.1), что на исследуемый объект воздействует множество факторов (в предыдущей главе почти в том же смысле использовался термин стимул ), а результатом этого воздействия является отклик , в общем случае тоже многокомпонентный. Среди параметров, характеризующих компоненты воздействия и отклика, вообще говоря, могут быть и количественные, и порядковые, и классификационные, причем, конечно, типы используемых шкал сильно влияют на методику проведения эксперимента и обработки данных.

Некоторая часть факторов (точнее – параметров факторов, но в дальнейшем за строгостью выражений не будем следить) может быть задана или измерена; значения других обычно остаются неизвестными – они вносят неопределенность в реакции объекта на изменения контролируемых факторов. К этой неопределенности добавляется еще и неопределенность измерения (или классифицирования) компонентов отклика. Поведение самого объекта тоже не обязано быть полностью детерминированным. Все это приводит к необходимости широко использовать методы математической статистики.

Таким образом, можно сказать, что математический аппарат исследования зависимостей нацелен на решение проблемы: как на основании частных результатов статистического наблюдения анализируемых событий выявить и описать существующие между ними стохастические (вероятностные) связи.

Для сокращения формул при исследовании зависимостей можно рассматривать независимые (“предикторные”) переменные x 1 x k как компоненты вектора x , а зависимые переменные y 1 y m – как компоненты вектора y . Довольно часто можно ограничиться исследованием зависимости одной переменной y от k компонентов вектора x (или рассматривать y 1 y m по отдельности, как бы разбивая единый эксперимент на m частных экспериментов).