Теорема байеса для чайников

Введение в Байесовские методы

В качестве введения

В настоящее время Байесовские методы получили достаточно широкое распространение и активно используются в самых различных областях знаний. Однако, к сожалению, не так много людей имеют представление о том, что же это такое и зачем это нужно. Одной из причин является отсутствие большого количества литературы на русском языке. Поэтому здесь попытаюсь изложить их принципы настолько просто, насколько смогу, начав с самых азов (прошу прощения, если кому-то это покажется слишком простым).
В дальнейшем я бы хотел перейти к непосредственно Байесовскому анализу и рассказать об обработке реальных данных и о, на мой взгляд, отличной альтернативе языку R (о нем немного писалось ) — Python с модулем pymc. Лично мне Python кажется гораздо более понятным и логичным, чем R с пакетами JAGS и BUGS, к тому же Python дает гораздо большую свободу и гибкость (хотя в Python есть и свои трудности, но они преодолимы, да и в простом анализе встречаются нечасто).

Немного истории

В качестве краткой исторической справки скажу, что формула Байеса была опубликована аж в 1763 году спустя 2 года после смерти ее автора, Томаса Байеса. Однако, методы, использующие ее, получили действительно широкое распространение только к концу ХХ века. Это объясняется тем, что расчеты требуют определенных вычислительных затрат, и они стали возможны только с развитием информационных технологий.

О вероятности и теореме Байеса

Формула Байеса и все последующее изложение требует понимания вероятности. Подробнее о вероятности можно почитать на Википедии.
На практике вероятность наступления события есть частота наступления этого события, то есть отношение количества наблюдений события к общему количеству наблюдений при большом (теоретически бесконечном) общем количестве наблюдений.
Рассмотрим следующий эксперимент: мы называем любое число из отрезка и смотрим за тем, что это число будет между, например, 0.1 и 0.4. Как нетрудно догадаться, вероятность этого события будет равна отношению длины отрезка к общей длине отрезка (другими словами, отношение «количества» возможных равновероятных значений к общему «количеству» значений), то есть (0.4 — 0.1) / (1 — 0) = 0.3, то есть вероятность попадания в отрезок равна 30%.
Теперь посмотрим на квадрат x .

Допустим, мы должны называть пары чисел (x, y), каждое из которых больше нуля и меньше единицы. Вероятность того, что x (первое число) будет в пределах отрезка (показан на первом рисунке как синяя область, на данный момент для нас второе число y не важно), равна отношению площади синей области к площади всего квадрата, то есть (0.4 — 0.1) * (1 — 0) / (1 * 1) = 0.3, то есть 30%. Таким образом можно записать, что вероятность того, что x принадлежит отрезку равна p(0.1 <= x <= 0.4) = 0.3 или для краткости p(X) = 0.3.
Если мы теперь посмотрим на y, то, аналогично, вероятность того, что y находится внутри отрезка равна отношению площади зеленой области к площади всего квадрата p(0.5 <= y <= 0.7) = 0.2, или для краткости p(Y) = 0.2.

Теперь посмотрим, что можно узнать о значениях одновременно x и y.
Если мы хотим знать, какова вероятность того, что одновременно x и y находятся в соответствующих заданных отрезках, то нам нужно посчитать отношение темной площади (пересечения зеленой и синей областей) к площади всего квадрата: p(X, Y) = (0.4 — 0.1) * (0.7 — 0.5) / (1 * 1) = 0.06.
А теперь допустим мы хотим знать какова вероятность того, что y находится в интервале , если x уже находится в интервале . То есть фактически у нас есть фильтр и когда мы называем пары (x, y), то мы сразу отбрасывает те пары, которые не удовлетворяют условию нахождения x в заданном интервале, а потом из отфильтрованных пар мы считаем те, для которых y удовлетворяет нашему условию и считаем вероятность как отношение количества пар, для которых y лежит в вышеупомянутом отрезке к общему количеству отфильтрованных пар (то есть для которых x лежит в отрезке ). Мы можем записать эту вероятность как p(Y|X). Очевидно, что эта вероятность равна отношению площади темной области (пересечение зеленой и синей областей) к площади синей области. Площадь темной области равна (0.4 — 0.1) * (0.7 — 0.5) = 0.06, а площадь синей (0.4 — 0.1) * (1 — 0) = 0.3, тогда их отношение равно 0.06 / 0.3 = 0.2. Другими словами, вероятность нахождения y на отрезке при том, что x уже принадлежит отрезку равна p(Y|X) = 0.2.
Можно заметить, что с учетом всего вышесказанного и всех приведенных выше обозначений, мы можем написать следующее выражение
p(Y|X) = p(X, Y) / p(X)
Кратко воспроизведем всю предыдущую логику теперь по отношению к p(X|Y): мы называем пары (x, y) и фильтруем те, для которых y лежит между 0.5 и 0.7, тогда вероятность того, что x находится в отрезке при условии, что y принадлежит отрезку равна отношению площади темной области к площади зеленой:
p(X|Y) = p(X, Y) / p(Y)
В двух приведенных выше формулах мы видим, что член p(X, Y) одинаков, и мы можем его исключить:

Мы можем переписать последнее равенство как

Это и есть теорема Байеса.
Интересно еще заметить, что p(Y) это фактически p(X,Y) при всех значениях X. То есть, если мы возьмем темную область и растянем ее так, что она будет покрывать все значения X, она будет в точности повторять зеленую область, а значит, она будет равна p(Y). На языке математики это будет означать следующее:
Тогда мы можем переписать формулу Байеса в следующем виде:

Применение теоремы Байеса

Давайте рассмотрим следующий пример. Возьмем монетку и подкинем ее 3 раза. С одинаковой вероятностью мы можем получить следующие результаты (О — орел, Р — решка): ООО, ООР, ОРО, ОРР, РОО, РОР, РРО, РРР.
Мы можем посчитать какое количество орлов выпало в каждом случае и сколько при этом было смен орел-решка, решка-орел:

Мы можем рассматривать количество орлов и количество изменений как две случайные величины. Тогда таблица вероятностей будет иметь следуюший вид:

Теперь мы можем увидеть формулу Байеса в действии.
Но прежде проведем аналогию с квадратом, который мы рассматривали ранее.
Можно заметить, что p(1O) есть сумма третьего столбца («синяя область» квадрата) и равна сумме всех значений ячеек в этом столбце: p(1O) = 2/8 + 1/8 = 3/8

p(1С) есть сумма третьей строки («зеленая область» квадрата) и, аналогично, равна сумме всех значений ячеек в этой строке p(1С) = 2/8 + 2/8 = 4/8
Вероятность того, что мы получили одного орла и одну смену равна пересечению этих областей (то есть значение в клетке пересечения третьего столбца и третьей строки) p(1С, 1О) = 2/8
Тогда, следуя формулам описанным выше, мы можем посчитать вероятность получить одну смену, если мы получили одного орла в трех бросках:
p(1С|1О) = p(1С, 1О) / p(1О) = (2/8) / (3/8) = 2/3
или вероятность получить одного орла, если мы получили одну смену:
p(1О|1С) = p(1С, 1О) / p(1С) = (2/8) / (4/8) = 1/2
Если мы посчитаем вероятность получить одну смену при наличии одного орла p(1О|1С) через формулу Байеса, то получим:
p(1О|1С) = p(1С|1О) * p(1О) / p(1С) = (2/3) * (3/8) / (4/8) = 1/2
Что мы и получили выше.
Но какое практическое значение имеет приведенный выше пример?
Дело в том, что, когда мы анализируем реальные данные, обычно нас интересует какой-то параметр этих данных (например, среднее, дисперсия и пр.). Тогда мы можем провести следующую аналогию с вышеприведенной таблицей вероятностей: пусть строки будут нашими экспериментальными данными (обозначим их Data), а столбцы — возможными значениями интересующего нас параметра этих данных (обозначим его). Тогда нас интересует вероятность получить определенное значение параметра на основе имеющихся данных.
Мы можем применить формулу Баейса и записать следующее:

А вспомнив формулу с интегралом, можно записать следующее:

То есть фактически как результат нашего анализа мы имеет вероятность как функцию параметра. Теперь мы можем, например, максимизировать эту функцию и найти наиболее вероятное значение параметра, посчитать дисперсию и среднее значение параметра, посчитать границы отрезка, внутри которого интересующий нас параметр лежит с вероятностью 95% и пр.
Вероятностьназывают апостериорной вероятностью. И для того, чтобы посчитать ее нам надо иметь
— функцию правдоподобия и— априорную вероятность.
Функция правдоподобия определяется нашей моделью. То есть мы создаем модель сбора данных, которая зависит от интересующего нас параметра. К примеру, мы хотим интерполировать данные с помощью прямой y = a * x + b (таким образом мы предполагаем, что все данные имеют линейную зависимость с наложенным на нее гауссовым шумом с известной дисперсией). Тогда a и b — это наши параметры, и мы хотим узнать их наиболее вероятные значения, а функция правдоподобия — гаусс со средним, заданным уравнением прямой, и данной дисперсией.
Априорная вероятность включает в себя информацию, которую мы знаем до проведения анализа. Например, мы точно знаем, что прямая должна иметь положительный наклон, или, что значение в точке пересечения с осью x должно быть положительным, — все это и не только мы можем инкорпорировать в наш анализ.
Как можно заметить, знаменатель дроби является интегралом (или в случае, когда параметры могут принимать только определенные дискретные значения, суммой) числителя по всем возможным значениям параметра. Практически это означает, что знаменатель является константой и служит для того, что нормализировать апостериорную вероятность (то есть, чтобы интеграл апостериорной вероятности был равен единице).

Формула полной вероятности и формулы Байеса

На данном уроке мы рассмотрим важное следствие теорем сложения и умножения вероятностей и научимся решать типовые задачи по теме. Читателям, которые ознакомились со статьёй о зависимых событиях, будет проще, поскольку в ней мы уже по факту начали использовать формулу полной вероятности. Если Вы зашли с поисковика и/или неважно разбираетесь в теории вероятностей (ссылка на 1-й урок курса), то сначала рекомендую посетить указанные страницы.

Собственно, продолжаем. Рассмотрим зависимое событие , которое может произойти лишь в результате осуществления одной из несовместных гипотез , которые образуют полную группу. Пусть известны их вероятности и соответствующие условные вероятности . Тогда вероятность наступления события равна:

Эта формула получила название формулы полной вероятности. В учебниках она формулируется теоремой, доказательство которой элементарно: согласно алгебре событий, (произошло событие и после него наступило событие или произошло событие и после него наступило событие или произошло событие и после него наступило событие или …. или произошло событие и после него наступило событие ). Поскольку гипотезы несовместны, а событие – зависимо, то по теореме сложения вероятностей несовместных событий (первый шаг) и теореме умножения вероятностей зависимых событий (второй шаг):

Наверное, многие предчувствуют содержание первого примера =)

Куда ни плюнь – везде урна:

Задача 1

Имеются три одинаковые урны. В первой урне находятся 4 белых и 7 черных шаров, во второй – только белые и в третьей – только черные шары. Наудачу выбирается одна урна и из неё наугад извлекается шар. Какова вероятность того, что этот шар чёрный?

Решение: рассмотрим событие – из наугад выбранной урны будет извлечён чёрный шар. Данное событие может произойти в результате осуществления одной из следующих гипотез:
– будет выбрана 1-я урна;
– будет выбрана 2-я урна;
– будет выбрана 3-я урна.

Так как урна выбирается наугад, то выбор любой из трёх урн равновозможен, следовательно:

Обратите внимание, что перечисленные гипотезы образуют полную группу событий, то есть по условию чёрный шар может появиться только из этих урн, а например, не прилететь с бильярдного стола. Проведём простую промежуточную проверку:
, ОК, едем дальше:

В первой урне 4 белых + 7 черных = 11 шаров, по классическому определению:
– вероятность извлечения чёрного шара при условии, что будет выбрана 1-я урна.

Во второй урне только белые шары, поэтому в случае её выбора появления чёрного шара становится невозможным: .

И, наконец, в третьей урне одни чёрные шары, а значит, соответствующая условная вероятность извлечения чёрного шара составит (событие достоверно).

По формуле полной вероятности:
– вероятность того, что из наугад выбранной урны будет извлечен чёрный шар.

Ответ:

Разобранный пример снова наводит на мысль о том, как важно ВНИКАТЬ В УСЛОВИЕ. Возьмём те же задачи с урнами и шарами – при их внешней схожести способы решения могут быть совершенно разными: где-то требуется применить только классическое определение вероятности, где-то события независимы, где-то зависимы, а где-то речь о гипотезах. При этом не существует чёткого формального критерия для выбора пути решения – над ним почти всегда нужно думать. Как повысить свою квалификацию? Решаем, решаем и ещё раз решаем!

Задача 2

В тире имеются 5 различных по точности боя винтовок. Вероятности попада­ния в мишень для данного стрелка соответственно равны 0,5; 0,55; 0,7; 0,75 и 0,4. Чему равна вероятность попадания в мишень, если стрелок делает один выстрел из слу­чайно выбранной винтовки?

Краткое решение и ответ в конце урока.

В большинстве тематических задач гипотезы, конечно же, не равновероятны:

Задача 3

В пирамиде 5 винтовок, три из которых снабжены оптическим прицелом. Вероятность того, что стрелок поразит мишень при выстреле из винтовки с оптическим прицелом, равна 0,95; для винтовки без оптического прицела эта вероятность равна 0,7. Найти вероятность того, что мишень будет поражена, если стрелок производит один выстрел из наудачу взятой винтовки.

Решение: в этой задаче количество винтовок точно такое же, как и в предыдущей, но вот гипотезы всего две:
– стрелок выберет винтовку с оптическим прицелом;
– стрелок выберет винтовку без оптического прицела.
По классическому определению вероятности: .
Контроль:

Рассмотрим событие: – стрелок поразит мишень из наугад взятой винтовки.
По условию: .

По формуле полной вероятности:

Ответ: 0,85

На практике вполне допустим укороченный способ оформления задачи, который вам тоже хорошо знаком:

Решение: по классическому определению: – вероятности выбора винтовки с оптическим и без оптического прицела соответственно.

По условию, – вероятности попадания в мишень из соответствующих типов винтовок.

По формуле полной вероятности:
– вероятность того, что стрелок поразит мишень из наугад выбранной винтовки.

Ответ: 0,85

Следующая задача для самостоятельного решения:

Задача 4

Двигатель работает в трёх режимах: нормальном, форсированном и на холостом ходу. В режиме холостого хода вероятность его выхода из строя равна 0,05, при нормальном режиме работы – 0,1, а при форсированном – 0,7. 70% времени двигатель работает в нормальном режиме, а 20% – в форсированном. Какова вероятность выхода из строя двигателя во время работы?

На всякий случай напомню – чтобы получить значения вероятностей проценты нужно разделить на 100. Будьте очень внимательны! По моим наблюдениям, условия задач на формулу полной вероятности частенько пытаются подзапутать; и я специально подобрал такой пример. Скажу по секрету – сам чуть не запутался =)

Решение в конце урока (оформлено коротким способом)

Задачи на формулы Байеса

Материал тесно связан с содержанием предыдущего параграфа. Пусть событие наступило в результате осуществления одной из гипотез . Как определить вероятность того, что имела место та или иная гипотеза?

При условии, что событие уже произошло, вероятности гипотез переоцениваются по формулам, которые получили фамилию английского священника Томаса Байеса:

– вероятность того, что имела место гипотеза ;
– вероятность того, что имела место гипотеза ;
– вероятность того, что имела место гипотеза ;

– вероятность того, что имела место гипотеза .

На первый взгляд кажется полной нелепицей – зачем пересчитывать вероятности гипотез, если они и так известны? Но на самом деле разница есть:

– это априорные (оцененные до испытания) вероятности.

– это апостериорные (оцененные после испытания) вероятности тех же гипотез, пересчитанные в связи «со вновь открывшимися обстоятельствами » – с учётом того факта, что событие достоверно произошло.

Рассмотрим это различие на конкретном примере:

Задача 5

На склад поступило 2 партии изделий: первая – 4000 штук, вторая – 6000 штук. Средний процент нестандартных изделий в первой партии составляет 20%, а во второй – 10%. Наудачу взятое со склада изделие оказалось стандартным. Найти вероятность того, что оно: а) из первой партии, б) из второй партии.

Первая часть решения состоит в использовании формулы полной вероятности. Иными словами, вычисления проводятся в предположении, что испытание ещё не произведено и событие «изделие оказалось стандартным» пока не наступило.

Рассмотрим две гипотезы:
– наудачу взятое изделие будет из 1-й партии;
– наудачу взятое изделие будет из 2-й партии.

Всего: 4000 + 6000 = 10000 изделий на складе. По классическому определению:
.

Контроль:

Рассмотрим зависимое событие: – наудачу взятое со склада изделие будет стандартным.

В первой партии 100% – 20% = 80% стандартных изделий, поэтому: – вероятность того, что наудачу взятое на складе изделие будет стандартным при условии, что оно принадлежит 1-й партии.

Аналогично, во второй партии 100% – 10% = 90% стандартных изделий и – вероятность того, что наудачу взятое на складе изделие будет стандартным при условии, что оно принадлежит 2-й партии.

По формуле полной вероятности:
– вероятность того, что наудачу взятое на складе изделие будет стандартным.

Часть вторая. Пусть наудачу взятое со склада изделие оказалось стандартным. Эта фраза прямо прописана в условии, и она констатирует тот факт, что событие произошло.

По формулам Байеса:

а) – вероятность того, что выбранное стандартное изделие принадлежит 1-й партии;

б) – вероятность того, что выбранное стандартное изделие принадлежит 2-й партии.

После переоценки гипотезы , разумеется, по-прежнему образуют полную группу:
(проверка ;-))

Ответ:

Понять смысл переоценки гипотез нам поможет Иван Васильевич, которой снова сменил профессию и стал директором завода. Он знает, что сегодня 1-й цех отгрузил на склад 4000, а 2-й цех – 6000 изделий, и приходит удостовериться в этом. Предположим, вся продукция однотипна и находится в одном контейнере. Естественно, Иван Васильевич предварительно подсчитал, что изделие, которое он сейчас извлечёт для проверки, с вероятностью будет выпущено 1-м цехом и с вероятностью – вторым. Но после того как выбранное изделие оказывается стандартным, он восклицает: «Какой же классный болт! – его скорее выпустил 2-й цех». Таким образом, вероятность второй гипотезы переоценивается в лучшую сторону , а вероятность первой гипотезы занижается: . И эта переоценка небезосновательна – ведь 2-й цех произвёл не только больше изделий, но и работает в 2 раза лучше!

Вы скажете, чистый субъективизм? Отчасти – да, более того, сам Байес интерпретировал апостериорные вероятности как уровень доверия. Однако не всё так просто – в байесовском подходе есть и объективное зерно. Ведь вероятности того, что изделие будет стандартным (0,8 и 0,9 для 1-го и 2-го цехов соответственно) это предварительные (априорные) и средние оценки. Но, выражаясь философски – всё течёт, всё меняется, и вероятности в том числе. Вполне возможно, что на момент исследования более успешный 2-й цех повысил процент выпуска стандартных изделий (и/или 1-й цех снизил), и если проверить бОльшее количество либо все 10 тысяч изделий на складе, то переоцененные значения окажутся гораздо ближе к истине.

Кстати, если Иван Васильевич извлечёт нестандартную деталь, то наоборот – он будет больше «подозревать» 1-й цех и меньше – второй. Предлагаю убедиться в этом самостоятельно:

Задача 6

На склад поступило 2 партии изделий: первая – 4000 штук, вторая – 6000 штук. Средний процент нестандартных изделий в первой партии 20%, во второй – 10%. Наудачу взятое со склада изделие оказалось нестандартным. Найти вероятность того, что оно: а) из первой партии, б) из второй партии.

Условие отличатся двумя буквами, которые я выделил жирным шрифтом. Задачу можно решить с «чистого листа», или воспользоваться результатами предыдущих вычислений. В образце я провёл полное решение, но чтобы не возникло формальной накладки с Задачей №5, событие «наудачу взятое со склада изделие будет нестандартным» обозначено через .

Байесовская схема переоценки вероятностей встречается повсеместно, причём её активно эксплуатируют и различного рода мошенники. Рассмотрим ставшее нарицательным АО на три буквы, которое привлекает вклады населения, якобы куда-то их инвестирует, исправно выплачивает дивиденды и т.д. Что происходит? Проходит день за днём, месяц за месяцем и всё новые и новые факты, донесённые путём рекламы и «сарафанным радио», только повышают уровень доверия к финансовой пирамиде (апостериорная байесовская переоценка в связи с произошедшими событиями!). То есть, в глазах вкладчиков происходит постоянное увеличение вероятности того, что «это серьёзная контора»; при этом вероятность противоположной гипотезы («это очередные кидалы»), само собой, уменьшается и уменьшается. Дальнейшее, думаю, понятно. Примечательно, что заработанная репутация даёт организаторам время успешно скрыться от Ивана Васильевича, который остался не только без партии болтов, но и без штанов.

К не менее любопытным примерам мы вернёмся чуть позже, а пока на очереди, пожалуй, самый распространенный случай с тремя гипотезами:

Задача 7

Электролампы изготавливаются на трех заводах. 1-й завод производит 30% общего количества ламп, 2-й – 55%, а 3-й – остальную часть. Продукция 1-го завода содержит 1% бракованных ламп, 2-го – 1,5%, 3-го – 2%. В магазин поступает продукция всех трех заводов. Купленная лампа оказалась с браком. Какова вероятность того, что она произведена 2-м заводом?

Заметьте, что в задачах на формулы Байеса в условии обязательно фигурирует некое произошедшее событие, в данном случае – покупка лампы.

Событий прибавилось, и решение удобнее оформить в «быстром» стиле.

Алгоритм точно такой же: на первом шаге находим вероятность того, что купленная лампа вообще окажется бракованной.

Пользуясь исходными данными, переводим проценты в вероятности:
– вероятности того, что лампа произведена 1-м, 2-м и 3-м заводами соответственно.
Контроль:

Аналогично: – вероятности изготовления бракованной лампы для соответствующих заводов.

По формуле полной вероятности:
– вероятность того, что купленная лампа окажется с браком.

Шаг второй. Пусть купленная лампа оказалась бракованной (событие произошло)

По формуле Байеса:
– вероятность того, что купленная бракованная лампа изготовлена вторым заводом

Ответ:

Почему изначальная вероятность 2-й гипотезы после переоценки увеличилась ? Ведь второй завод производит средние по качеству лампы (первый – лучше, третий – хуже). Так почему же возросла апостериорная вероятность, что бракованная лампа именно со 2-го завода? Это объясняется уже не «репутацией», а размером. Так как завод №2 выпустил самое большое количество ламп, то на него (по меньшей мере, субъективно) и пеняют: «скорее всего, эта бракованная лампа именно оттуда».

Интересно заметить, что вероятности 1-й и 3-й гипотез, переоценились в ожидаемых направлениях и сравнялись:

Контроль: , что и требовалось проверить.

К слову, о заниженных и завышенных оценках:

Задача 8

В студенческой группе 3 человека имеют высокий уровень подготовки, 19 человек – средний и 3 – низкий. Вероятности успешной сдачи экзамена для данных студентов соответственно равны: 0,95; 0,7 и 0,4. Известно, что некоторый студент сдал экзамен. Какова вероятность того, что:

а) он был подготовлен очень хорошо;
б) был подготовлен средне;
в) был подготовлен плохо.

Проведите вычисления и проанализируйте результаты переоценки гипотез.

Задача приближена к реальности и особенно правдоподобна для группы студентов-заочников, где преподаватель практически не знает способностей того или иного студента. При этом результат может послужить причиной довольно-таки неожиданных последствий (особенно это касается экзаменов в 1-м семестре). Если плохо подготовленному студенту посчастливилось с билетом, то преподаватель с большой вероятностью сочтёт его хорошо успевающим или даже сильным студентом, что принесёт неплохие дивиденды в будущем (естественно, нужно «поднимать планку» и поддерживать свой имидж). Если же студент 7 дней и 7 ночей учил, зубрил, повторял, но ему просто не повезло, то дальнейшие события могут развиваться в самом скверном ключе – с многочисленными пересдачами и балансировкой на грани вылета.

Что и говорить, репутация – это важнейший капитал, не случайно многие корпорации носят имена-фамилии своих отцов-основателей, которые руководили делом 100-200 лет назад и прославились своей безупречной репутацией.

Да, байесовский подход в известной степени субъективен, но… так устроена жизнь!

Закрепим материал заключительным индустриальным примером, в котором я расскажу о до сих пор не встречавшихся технических тонкостях решения:

Задача 9

Три цеха завода производят однотипные детали, которые поступают на сборку в общий контейнер. Известно, что первый цех производит в 2 раза больше деталей, чем второй цех, и в 4 раза больше третьего цеха. В первом цехе брак составляет 12%, во втором – 8%, в третьем – 4%. Для контроля из контейнера берется одна деталь. Какова вероятность того, что она окажется бракованной? Какова вероятность того, что извлечённую бракованную деталь выпустил 3-й цех?
Таки Иван Васильевич снова на коне =) Должен же быть у фильма счастливый конец =)

Решение: в отличие от Задач №№5-8 здесь в явном виде задан вопрос, который разрешается с помощью формулы полной вероятности. Но с другой стороны, условие немного «зашифровано», и разгадать этот ребус нам поможет школьный навык составлять простейшие уравнения. За «икс» удобно принять наименьшее значение:

Пусть – доля деталей, выпускаемая третьим цехом.

По условию, первый цех производит в 4 раза больше третьего цеха, поэтому доля 1-го цеха составляет .

Кроме того, первый цех производит изделий в 2 раза больше, чем второй цех, а значит, доля последнего: .

Составим и решим уравнение:
Таким образом: – вероятности того, что извлечённая из контейнера деталь выпущена 1-м, 2-м и 3-м цехами соответственно.

Контроль: . Кроме того, будет не лишним ещё раз посмотреть на фразу «Известно, что первый цех производит изделий в 2 раза больше второго цеха и в 4 раза больше третьего цеха» и убедиться, что полученные значения вероятностей действительно соответствуют этому условию.

За «икс» изначально можно было принять долю 1-го либо долю 2-го цеха – вероятности выйдут такими же. Но, так или иначе, самый трудный участок пройден, и решение входит в накатанную колею:

Из условия находим:
– вероятности изготовления бракованной детали для соответствующих цехов.

По формуле полной вероятности:
– вероятность того, что наугад извлеченная из контейнера деталь окажется нестандартной.

Вопрос второй: какова вероятность того, что извлечённую бракованную деталь выпустил 3-й цех? Данный вопрос предполагает, что деталь уже извлечена, и она оказалось бракованной. Переоцениваем гипотезу по формуле Байеса:
– искомая вероятность. Совершенно ожидаемо – ведь третий цех производит не только самую малую долю деталей, но и лидирует по качеству!

В данном случае пришлось упрощать четырёхэтажную дробь, что в задачах на формулы Байеса приходится делать довольно часто. Но для данного урока я как-то так случайно подобрал примеры, в которых многие вычисления можно провести без обыкновенных дробей.

Коль скоро в условии нет пунктов «а» и «бэ», то ответ лучше снабдить текстовыми комментариями:

Ответ: – вероятность того, что извлечённая из контейнера деталь окажется бракованной; – вероятность того, что извлечённую бракованную деталь выпустил 3-й цех.

Как видите, задачи на формулу полной вероятности и формулы Байеса достаточно простЫ, и, наверное, по этой причине в них так часто пытаются затруднить условие, о чём я уже упоминал в начале статьи.

Дополнительные примеры есть в файле с готовыми решениями на Ф.П.В. и формулы Байеса, кроме того, наверное, найдутся желающие более глубоко ознакомиться с данной темой в других источниках. А тема действительно очень интересная – чего только стОит один парадокс Байеса, который обосновывает тот житейский совет, что если у человека диагностирована редкая болезнь, то ему имеет смысл провести повторное и даже два повторных независимых обследования. Казалось бы, это делают исключительно от отчаяния… – а вот и нет! Но не будем о грустном.

Везения в главном!

Решения и ответы:

Задача 2: Решение: рассмотрим гипотезы , состоящие в том, что стрелок выберет 1-ю, 2-ю, 3-ю, 4-ю и 5-ю винтовку соответственно. Выбор любой винтовки равновозможен, следовательно: .
Рассмотрим событие – стрелок попадёт в мишень из наугад взятой винтовки.
По условию: .
По формуле полной вероятности:
Ответ: 0,58

Задача 4: Решение: из условия находим – вероятности того, что двигатель работает на холостом ходу, в нормальном и форсированном режимах соответственно.
По условию – вероятности выхода из строя двигателя для холостого, нормального и форсированного режима соответственно.
По формуле полной вероятности:
– вероятность того, что двигатель выйдет из строя
Ответ: 0,215

Задача 6: Решение: рассмотрим две гипотезы:
– наудачу взятое изделие будет из 1-й партии;
– наудачу взятое изделие принадлежит 2-й партии.
Всего: 4000 + 6000 = 10000 изделий на складе. По классическому определению:
.
Рассмотрим событие: – наудачу взятое со склада изделие будет нестандартным.
Из условия находим: – вероятности того, что изделие из соответствующих партий будет нестандартным.
По формуле полной вероятности:
Примечание: данную вероятность легко найти, пользуясь результатом Задачи 5:
Пусть событие произошло (извлечено нестандартное изделие).

По формулам Байеса:
а) – вероятность того, что выбранное нестандартное изделие принадлежит 1-й партии;
б) – вероятность того, что выбранное нестандартное изделие принадлежит 2-й партии.
Ответ:

Задача 8: Решение: всего: 3 + 19 + 3 = 25 студентов в группе. По классическому определению:
– вероятности того, что экзаменующийся студент имеет высокий, средний и низкий уровень подготовки соответственно.
Контроль:
По условию: – вероятности успешной сдачи экзамена для студентов соответствующих уровней подготовки.
По формуле полной вероятности:
– вероятность того, что произвольно выбранный студент сдаст экзамен.
Пусть студент сдал экзамен. По формулам Байеса:
а) – вероятность того, что студент, сдавший экзамен, был подготовлен очень хорошо. Объективная исходная вероятность оказывается завышенной, поскольку почти всегда некоторым «середнячкам» везёт с вопросами и они отвечают очень сильно, что вызывает ошибочное впечатление безупречной подготовки.
б) – вероятность того, что студент, сдавший экзамен, был подготовлен средне. Исходная вероятность оказывается чуть завышенной, т.к. студентов со средним уровнем подготовки обычно большинство, кроме того, сюда преподаватель отнесёт неудачно ответивших «отличников», а изредка и плохо успевающего студента, которому крупно повезло с билетом.
в) – вероятность того, что студент, сдавший экзамен, был подготовлен плохо. Исходная вероятность переоценилась в худшую сторону. Неудивительно.
Проверка:
Ответ:

Емелин Александр

Простое объяснение теоремы Байеса

Подробно теорема Байеса излагается в отдельной статье. Это замечательная работа, но в ней 15 000 слов. В этом же переводе статьи от Kalid Azad кратко объясняется самая суть теоремы.

  • Результаты исследований и испытаний – это не события. Существует метод диагностики рака, а есть само событие — наличие заболевания. Алгоритм проверяет, содержит ли письмо спам, но событие (на почту действительно пришел спам) нужно рассматривать отдельно от результата его работы.
  • В результатах испытаний бывают ошибки. Часто наши методы исследований выявляют то, чего нет (ложноположительный результат), и не выявляют то, что есть (ложноотрицательный результат).
  • С помощью испытаний мы получаем вероятности определенного исхода. Мы слишком часто рассматриваем результаты испытания сами по себе и не учитываем ошибки метода.
  • Ложноположительные результаты искажают картину. Предположим, что вы пытаетесь выявить какой-то очень редкий феномен (1 случай на 1000000). Даже если ваш метод точен, вероятнее всего, его положительный результат будет на самом деле ложноположительным.
  • Работать удобнее с натуральными числами. Лучше сказать: 100 из 10000, а не 1%. При таком подходе будет меньше ошибок, особенно при умножении. Допустим, нам нужно дальше работать с этим 1%. Рассуждения в процентах неуклюжи: «в 80% случаев из 1% получили положительный исход». Гораздо легче информация воспринимается так: «в 80 случаях из 100 наблюдали положительный исход».
  • Даже в науке любой факт — это всего лишь результат применения какого-либо метода. С философской точки зрения научный эксперимент – это всего лишь испытание с вероятной ошибкой. Есть метод, выявляющий химическое вещество или какой-нибудь феномен, и есть само событие — присутствие этого феномена. Наши методы испытаний могут дать ложный результат, а любое оборудование обладает присущей ему ошибкой.

Tеорема Байеса превращает результаты испытаний в вероятность событий.

  • Если нам известна вероятность события и вероятность ложноположительных и ложноотрицательных результатов, мы можем исправить ошибки измерений.
  • Теорема соотносит вероятность события с вероятностью определенного исхода. Мы можем соотнести Pr(A|X): вероятность события А, если дан исход X, и Pr(X|A): вероятность исхода X, если дано событие А.

Разберемся в методе

В статье, на которую дана ссылка в начале этого эссе, разбирается метод диагностики (маммограмма), выявляющий рак груди. Рассмотрим этот метод подробно.

  • 1% всех женщин болеют раком груди (и, соответственно, 99% не болеют)
  • 80% маммограмм выявляют заболевание, когда оно действительно есть (и, соответственно, 20% не выявляют)
  • 9,6% исследований выявляют рак, когда его нет (и, соответственно, 90,4% верно определяют отрицательный результат)

Теперь оформим такую таблицу:

Болеют (1%) Не болеют (99%)
Положительный результат метода 80% 9,6%
Отрицательный результат метода 20% 90,4%

Как работать с этим данными?

  • 1% женщин болеют раком груди
  • если у пациентки выявили заболевание, смотрим в первую колонку: есть 80% вероятность того, что метод дал верный результат, и 20% вероятность того, что результат исследования неправильный (ложноотрицательный)
  • если у пациентки заболевание не выявили, смотрим на вторую колонку. С вероятностью 9,6% можно сказать, что положительный результат исследования неверен, и с 90,4% вероятностью можно сказать, что пациентка действительно здорова.

Насколько метод точен?

Теперь разберем положительный результат теста. Какова вероятность того, что человек действительно болен: 80%, 90%, 1%?
Давайте подумаем:

  • Есть положительный результат. Разберем все возможные исходы: полученный результат может быть как истинным положительным, так и ложноположительным.
  • Вероятность истинного положительного результата равна: вероятность заболеть, умноженная на вероятность того, что тест действительно выявил заболевание. 1% * 80% = .008
  • Вероятность ложноположительного результата равна: вероятность того, что заболевания нет, умноженная на вероятность того, что метод выявил заболевание неверно. 99% * 9.6% = .09504

Теперь таблица выглядит так:

Болеют (1%) Не болеют (99%)
Положительный результат метода Истинный положительный:
1% * 80% = .008
Ложноположительный:
99% * 9.6% = .09504
Отрицательный результат метода Ложноотрицательный:
1% * 20% = .002
Истинный
отрицательный:
99% * 90,4% = .89496

Какова вероятность, что человек действительно болен, если получен положительный результат маммограммы? Вероятность события — это отношение количества возможных исходов события к общему количеству всех возможных исходов.
вероятность события = исходы события / все возможные исходы
Вероятность истинного положительного результата – .008. Вероятность положительного результата — это вероятность истинного положительного исхода + вероятность ложноположительного.
(.008 + 0.09504 = .10304)
Итак, вероятность заболевания при положительном результате исследования рассчитывается так: .008/.10304 = 0.0776. Эта величина составляет около 7.8%.

То есть положительный результат маммограммы значит только то, что вероятность наличия заболевания – 7,8%, а не 80% (последняя величина — это лишь предполагаемая точность метода). Такой результат кажется поначалу непонятным и странным, но нужно учесть: метод дает ложноположительный результат в 9,6% случаев (а это довольно много), поэтому в выборке будет много ложноположительных результатов. Для редкого заболевания большинство положительных результатов будут ложноположительными.
Давайте пробежимся глазами по таблице и попробуем интуитивно ухватить смысл теоремы. Если у нас есть 100 человек, только у одного из них есть заболевание (1%). У этого человека с 80% вероятностью метод даст положительный результат. Из оставшихся 99% у 10% будут положительные результаты, что дает нам, грубо говоря, 10 ложноположительных исходов из 100. Если мы рассмотрим все положительные результаты, то только 1 из 11 будет верным. Таким образом, если получен положительный результат, вероятность заболевания составляет 1/11.
Выше мы посчитали, что эта вероятность равна 7,8%, т.е. число на самом деле ближе к 1/13, однако здесь с помощью простого рассуждения нам удалось найти приблизительную оценку без калькулятора.

Теорема Байеса

Теперь опишем ход наших мыслей формулой, которая и называется теоремой Байеса. Эта теорема позволяет исправить результаты исследования в соответствии с искажением, которое вносят ложноположительные результаты:

  • Pr(A|X) = вероятность заболевания (А) при положительном результате (X). Это как раз то, что мы хотим знать: какова вероятность события в случае положительного исхода. В нашем примере она равна 7,8%.
  • Pr(X|A) = вероятность положительного результата (X) в случае, когда больной действительно болен (А). В нашем случае это величина истинных положительных – 80%
  • Pr(A) = вероятность заболеть (1%)
  • Pr(not A) = вероятность не заболеть (99%)
  • Pr(X|not A) = вероятность положительного исхода исследования в случае, если заболевания нет. Это величина ложноположительных – 9,6 %.

Можно сделать заключение: чтобы получить вероятность события, нужно вероятность истинного положительного исхода разделить на вероятность всех положительных исходов. Теперь мы можем упростить уравнение:

Pr(X) – это константа нормализации. Она сослужила нам хорошую службу: без нее положительный исход испытаний дал бы нам 80% вероятность события.
Pr(X) – это вероятность любого положительного результата, будет ли это настоящий положительный результат при исследовании больных (1%) или ложноположительный при исследовании здоровых людей (99%).
В нашем примере Pr(X) – довольно большое число, потому что велика вероятность ложноположительных результатов.
Pr(X) создает результат 7,8%, который на первый взгляд кажется противоречащим здравому смыслу.

Смысл теоремы

Мы проводим испытания, чтоб выяснить истинное положение вещей. Если наши испытания совершенны и точны, тогда вероятности испытаний и вероятности событий совпадут. Все положительные результаты будут действительно положительными, а отрицательные — отрицательными. Но мы живем в реальном мире. И в нашем мире испытания дают неверные результаты. Теорема Байеса учитывает искаженные результаты, исправляет ошибки, воссоздает генеральную совокупность и находит вероятность истинного положительного результата.

Спам-фильтр

Теорема Байеса удачно применяется в спам-фильтрах.
У нас есть:

  • событие А — в письме спам
  • результат испытания — содержание в письме определенных слов:

Фильтр берет в расчет результаты испытаний (содержание в письме определенных слов) и предсказывает, содержит ли письмо спам. Всем понятно, что, например, слово «виагра» чаще встречается в спаме, чем в обычных письмах.
Фильтр спама на основе черного списка обладает недостатками — он часто выдает ложноположительные результаты.
Спам-фильтр на основе теоремы Байеса использует взвешенный и разумный подход: он работает с вероятностями. Когда мы анализируем слова в письме, мы можем рассчитать вероятность того, что письмо — это спам, а не принимать решения по типу «да/нет». Если вероятность того, что письмо содержит спам, равна 99%, то письмо и вправду является таковым.
Со временем фильтр тренируется на все большей выборке и обновляет вероятности. Так, продвинутые фильтры, созданные на основе теоремы Байеса, проверяют множество слов подряд и используют их в качестве данных.
Дополнительные источники:

  • Теорема Байеса на википедии
  • Обсуждение на coding horror
  • Объемное эссе, посвященное теореме Байеса