Все, наверное, слышали эту фразу, приписываемую Марку Твену (впрочем, он сам утверждал, что она не его). Фраза не отдаёт должное такой замечательной дисциплине, как статистика. Статистика сама по себе не может лгать, ложью её либо по незнанию, либо намеренно, делают люди при толковании.
Люди воспринимают окружающую действительность через набор предрассудков, от которых никто по-настоящему не свободен. Предрассудки же эти основываются очень часто на ошибочных суждениях.
Начнём с шуточного вопроса: как, по-вашему, в среднем, на протяжении всей жизни больше сексуальных партнёров бывает у мужчин или у женщин?
Пример абстрактный, поэтому, несколько упростим задачу и рассмотрим только гетеросексуальные контакты. Если в поисках ответа провести опрос случайных прохожих, можно получить очень разные ответы, в зависимости от личного опыта и наблюдений респондента за своим окружением. Возможно, меня сочтут «Капитаном Очевидность», но всё же уточню момент, который, как выяснилось, не так уж и очевиден для некоторых: если мужчина имел сексуальный контакт с женщиной, то это автоматически значит, что и женщина имела сексуальный контакт с этим мужчиной – счёт 1:1.
Теперь посмотрим на тот факт, что женщин в целом на земле меньше, чем мужчин. Для наглядности, давайте представим себе «мир», в котором всего 4 женщины и 5 мужчин:
Думаю, теперь, глядя на эту диаграмму, очевидно, что вне зависимости от того, кто и сколько раз с кем-то переспал, общее количество сексуальных контактов у мужчин и у женщин должно совпадать. Но теперь, давайте разделим общее количество связей на количество мужчин:
7 / 5 = 1,4 – в среднем, один мужчина имеет 1,4 сексуальных партнёров.
Теперь ту же операцию проделаем с женской половиной:
7 / 4 = 1,75 – в среднем, у женщины 1,75 сексуальных партнёров, то есть на 25% больше, чем у мужчин. Ну а теперь, когда мы сделали это сенсационное открытие, представим заголовок:
Британские учёные: женщины занимаются сексом на 25% больше, чем мужчины!
Виновата в этом статистика? Нет! Британские учёные? Тоже нет!
Если задуматься, вовсе не обязательно было проводить опрос, в ходе которого, кстати, ещё и не исключено, что люди будут врать по такому деликатному поводу. Достаточно было разделить количество женщин на количество мужчин и получить ту же разницу в 25%.
Пример притянут за уши? Хорошо! А как вам скандал, начатый с публикации The Boston Globe так называемого «исследования», которое показало, что «…в среднем, представители меньшинств проводят больше занятий с представителями не меньшинств, чем наоборот…».
Причина просто в том, что они «меньшинства», то есть пример из реальной жизни в точности повторил тот абстрактный пример про секс чуть выше. Случилось то, что математически просто обязано было случиться.
Что ж, оставим эту ложь на совести журналистов из «The Boston Globe» и пойдём дальше.
Парадокс Берксона
Чтобы проиллюстрировать его, возьмём стереотип, будто красивые женщины всегда стервы. Стереотип родился, разумеется, не на пустом месте, а из «жизненных наблюдений». Чтобы доказать, что это всего лишь стереотип, построим график, где по горизонтальной оси будем отмечать степень привлекательности: от очень страшной до божественной красоты, а по вертикальной – характер: от милашки до стервы. Давайте будем честны, мы согласимся встречаться с женщиной только, если выполнится условие:
Характер + Внешность > X
Иными словами, наши кандидаты лежат в области, закрашенной красным, других мы просто проигнорируем.
Но это ещё не всё. Если мы встретим очень милую и очень красивую женщину, то, скорее всего, мы подумаем, что сами не очень-то и хороши для неё, и что сами не подходим под критерии её оценки, тем самым, мы искусственно «обрезаем» верхний правый угол нашей красной области:
Думаю, на графике уже видны корни данного стереотипа. Суть парадокса Берксона или «Ошибки Берксона» в том, что когда нам кажется, что между двумя событиями или факторами имеется корреляция (в рассмотренном случае зависимость между внешностью и характером), в действительности её может и не быть, так как мы сами исключили из «исследования» случаи, когда соблюдаются (или не соблюдаются) условия для обоих критериев.
Другой пример.
Представим себе больницу во время эпидемии гриппа. Сейчас мы станем «британскими учёными» и докажем, что грипп каким-то образом защищает нас от приступов аппендицита.
Исходим из следующих данных:
• 10% населения заражено гриппом
• В больнице доля заражённых разумеется больше: 30% пациентов поступило с гриппом
• 10% поступило с приступом аппендицита
Пациент с аппендицитом может, разумеется, заразиться ещё и гриппом, равно как и у больного гриппом может случиться приступ аппендицита. Наши вводные данные говорят нам, что больных, которых коснулись обе напасти, составляет 10% от 10%, то есть, 1% от всех пациентов:
Пациенты больницы: синие – грипп, красные – аппендицит, у одного пациента – и то, и другое.
Если случайным образом выбрать пациента, с 30% вероятностью, у него грипп, с 10% вероятностью – аппендицит.
Теперь давайте обследуем пациентов, не заражённых гриппом, и проверим, у скольких их них приступ аппендицита, то есть, обследуем мы только область, обведённую жёлтым:
Мы знаем следующее:
• У тридцати пациентов, больных гриппом, лишь у одного аппендицит
• Из 100 пациентов, аппендицит у 10 пациентов
• При этом аппендицит ещё у 9 пациентов из 72, не заражённых гриппом.
Произведём расчёт: у тех, кто не болеет гриппом, аппендицит у 12,9%. Это на 2,5% выше, чем 10% среди больных гриппом.
Ура! Получаем грант и пишем в пресс-релизе:
Британские учёные доказали, что грипп снижает риск приступов аппендицита на 2,5%!
Вам может показаться, что пример искусственный и притянут за уши? Однако, тем, кто сомневается, можно ознакомиться с делом несчастной Салли Кларк, потерявшей двух детей, умерших в результате синдрома внезапной детской смертности (СВДС), после чего против неё выдвинули обвинение в их убийстве. На суде выступал профессор-педиатр Рой Мидоу, давший показания о том, что вероятность наступления СВДС 1 к 8500, а вероятность наступления двух случаев – 1 к 72 миллионам. Только на основании этих статистических данных, 9 ноября 1999 года присяжные осудили Салли 10 голосами против 2, после чего она была приговорена к пожизненному заключению, после чего она с «репутацией» детоубийцы и дочери полицейского отправилась отбывать наказание. И лишь спустя 4 года, в 2003 её вторая апелляция возымела действие, когда приняли к сведению то, что в анализах крови и спиномозговой жидкости её второго сына присутствовала бактерия Staphylococuus aureus (Золотистый стафилококк).
Кларк выпустили на свободу, но её жизнь была окончательно сломлена и в 2007 году она скончалась от алкогольного отравления.
После этого случая в Великобритании были пересмотрены сотни дел, где в качестве доказательной базы использовались статистическим методы, а Королевское статистическое общество даже выпустило заявление, где выражалась озабоченность злоупотреблениями статистическими данными в судах.
Ошибка обвинителя состояла в предположении, что два события СВДС в одной семье являются независимыми, поэтому он просто возвёл 8500 в квадрат, получив цифру в ~73 млн. Пресса, далёкая от понимания происходящего растиражировала мнение, что «1 к 73 миллионам, что Салли Невиновна». Чтобы действительно оценить вероятность невиновности Салли, присяжные должны были сравнивать относительные вероятности разных версий смерти детей, а не только вероятность того, что она невиновна – наступление двух случаев СВДС – редкость, но статистически двойное детоубийство могло быть событием ещё более редким. Профессор математики Рэй Хилл, используя статистику СВДС по всей Великобритании, пришёл к выводу, что после первого случая СВДС, вероятность наступления второго возрастает в 5 – 10 раз. В своём исследовании, он пришёл к выводу, что в случае Салли, вероятность того, что она была убийцей составляла 1:9, в то время как вероятность повторного СВДС – 4,5:1. Если сравнить две вероятности, то, по сути, она могла быть невиновной в соотношении ½, а не 1/73000000.
Данный феномен называется «Заблуждение прокурора» (Prosecutor’s fallacy).
Систематическая ошибка выжившего
Эта реальная история времён второй мировой войны. Двигатели на самолётах были слабыми, поэтому бронировать самолёт целиком означало существенно сократить дальность полёта и боезапас. Поэтому венгерскому математику Абрахаму Вальду поставили задачу – найти оптимальную схему бронирования самолётов. В качестве исходных данных была предоставлена схема пробоин от снарядов, которые получили вернувшиеся из боя самолёты. Что-то вроде этого:
Вальд рассудил здраво, исследование показывает, что самолёт, получивший пробоины в данных местах, ещё может вернуться на базу. Самолёт, которому попали в двигатель или бензобак, выходит из строя и не возвращается. Поскольку попадания от вражеского огня на самом деле (в первом приближении) распределены равномерно, укреплять надо те места, которые у вернувшихся в массе наиболее «чистые».
К этой же ошибке можно отнести и расхожее мнение о доброте дельфинов, основанное на рассказах пловцов, которых животные толкали к берегу, но нет данных от тех, кого толкали в обратном направлении… или истории успеха известных людей, которые бросили учёбу в молодости, но всё равно добились успеха – никто не знает судьбы тех, кто поступил так же, но не стал ни богатым, ни знаменитым.
Очень часто можно слышать рассуждения о том, что «раньше было лучше». Говоря это, люди приводят в пример архитектуру прошлых лет, музыку, книги, фильмы и пр. Всё это – проявления всё той же систематической ошибки выжившего. До нас не дошли плохие здания, которые были разрушены со временем, как не дошли до нас ни всеми забытые плохие книги, фильмы и музыка.
Статистика в рекламе
Мы очень часто видим рекламу, в которой нам любезно сообщают, что «80% стоматологов рекомендуют нашу зубную пасту*» или нечто подобное (заметьте звёздочку после текста). Технически, реклама не врёт, если потратить время, докопаться до исследования, то можно будет увидеть нечто подобное:
Как показывает наше исследование, 80% стоматологов действительно порекомендовали зубную пасту «Бренд А» в опросе. Но что в рекламе не говорят, что «Бренд Б» так же порекомендовали 80% стоматологов. Говорит ли это что-нибудь о том, что паста А лучше других? Разумеется, нет!
Ещё глупее, если разобраться, выглядит реклама, говорящая, что волосы стали на 15% мягче, кожа – на 20% нежнее, и т. д.
Темпы роста и темпы прироста
Представим ситуацию, когда, например, в прошлом году уровень безработицы составлял 1% от количества занятых, а в этом году их число составило уже 2%. Два разных аналитика могут сказать два утверждения, однако подтексты будут абсолютно разными. Один скажет: «Уровень безработицы вырос на 100%!» и будет прав, так как, действительно если безработных было, скажем 100 тыс. человек, а теперь их стало 200 тыс., это означает 100% рост. Другой аналитик (на другом сайте или телеканале) напишет, что безработица поднялась на 1%, и тоже будет прав, так как был 1%, стало 2%. Если обыватель не будет вдаваться в детали, в первом случае он может подумать «Это катастрофа!», а во втором «1% – это не так уж и много».
Повышенные риски для здоровья
Когда мы слышим или читаем очередную статью, где написано «Учёные установили, {что-то} повышает риски заболеваний на {N}%», относиться к этому тоже надо с осторожностью. В этой связи показателен пример британской комиссии по безопасности лекарственных препаратов, которая в 1995 году выпустила пресс-релиз, в котором говорилось, что использование противозачаточных таблеток для женщин нового поколения повышает риски закупорки сосудов на 100% по сравнению с предыдущим препаратом.
В действительности же, исследование показывало, что если при использовании старых таблеток, лишь у одной женщины из 7000 развивались подобные симптомы, то с новыми таблетками таких женщин было уже две из 7000. И действительно, количество случаев выросло на 100%. Но если брать количество осложнений от общего количества обследованных, то рост составит всего 0,14%. Результатом этого пресс-релиза стало то, что десятки тысяч женщин отказались от приёма данного препарата, что, в свою очередь привело, к обвинениям данной комиссии в 13 тыс. случаев нежелательной беременности, особенно среди подростков.
Корреляция и причинно-следственная связь
Это не одно и то же. Пример – знаете ли вы то, что наличие вшей на вашей голове полезно для здоровья? Абсурд? Да, но в средневековье такое мнение было широко распространено. Дело в том, что люди с педикулёзом были, в целом, здоровы, а вот у больных людей вшей обычно не было. Это наблюдение позволило сделать неверный вывод о том, что вши положительно влияют на здоровье людей. В действительности же, эти насекомые оказались чувствительны к повышенной температуре человеческого тела и покидали носителя, у которого была лихорадка.
Дело в том, что корреляцию между двумя явлениями А и Б в статистике выявить довольно просто, но наличие корреляции ещё не доказывает причинно-следственной связи между двумя событиями, то есть, это не значит, что Б является следствием А.
Скорость вращения ветряного генератора коррелирует со скоростью ветра, но это не значит, что генератор является причиной возникновения ветра. Здесь причина и следствие перепутаны местами, это вам и ребёнок объяснит, однако, далеко не всегда ситуация настолько очевидна. Известное утверждение «жестокие компьютерные игры воспитывают в детях жестокость», – тому пример. Но что если предположить, что жестокие дети будут с большим удовольствием играть в жестокие игры?
Скрытые переменные
Хотел бы я, чтобы они пореже включали табличку насчёт ремней безопасности. Каждый раз, когда она включается, начинает трясти.
Давно известно, что если спать в ботинках, то с утра велика вероятность, что будет болеть голова, а если вы будете есть много мороженого, то рискуете получить сердечный приступ. Разумеется, это шутки, голова у вас болит с похмелья, потому что вы были слишком пьяны вчера вечером, чтобы снять обувь, а мороженое едят в основном летом, а при жаркой погоде повышается количество сердечных приступов.
Это шутки, конечно же, но вот исследование университета Пенсильвании, опубликованного в авторитетном и уважаемом журнале Nature в 1999 году показало, что сон при включённом свете вызывает развитие у детей миопии (близорукости). Но как выяснилось в более позднем исследовании университета Огайо, близорукие родители чаще оставляли на ночь включённый свет в детской, поэтому развитие близорукости у их детей связано не с включённым освещением, а с наследственными факторами.
Здесь мы имеем дело со скрытой переменной, когда между событиями А и Б причинно-следственная связь отсутствует, но есть скрытый от исследователя фактор В, являющийся причиной А и Б.
Таких примеров можно привести ещё много: выбросы углекислого газа в атмосферу вызывает ожирение, курящие студенты учатся хуже, чем некурящие.
Парадокс Симпсона
Суть парадокса: для каждой из групп (синяя и красная линия) по отдельности проявляется положительная тенденция, но при их объединение (пунктир) – тенденция становится отрицательной.
Здесь хочется рассказать о нашумевшей истории 1973 года, когда университет в Беркли обвинили в дискриминации абитуриентов по половому признаку. И действительно, из 8442 мужчин, подавших заявку, к обучению были допущены 44%, тогда как из 4321 девушек допуск получили только 35%. Уже в то время это были достаточно серьёзные обвинения (в наши дни шум вообще бы поднялся до небес). Однако, если более детально взглянуть на ту же статистику, выявится несколько иная закономерность:
Как видно, по большей части факультетов доля допущенных к обучению женщин была даже больше, чем мужчин. Позднее, исследователи опубликовали работу, где наглядно было показано, что среди женщин наблюдалась тенденция подавать заявки на факультеты с большим конкурсом (например, факультет английского языка), в то время, как абитуриенты мужского пола чаще подавали заявки на факультеты с более низким конкурсом (инженерный и химический факультеты).
Визуальное представление и инфографика
Не секрет, что технологии манипуляции общественным мнением активно развиваются. Вот пример:
В 2019 году относительно существующего сейчас среднего размера пенсии в России (более 14 тыс. рублей) сумма повышения соответствует прибавке на 7,05% (при годовой инфляции 4,3%). Предполагается, что такой темп «в два раза выше инфляции» будет сохранен и в последующие годы, благодаря чему к 2024 году средний размер пенсионного обеспечения россиян составит 20 тыс. руб. (увеличение на 35% относительно 2018 года).
Посмотрите на левую и правую диаграммы. Они правдиво показывают одни и те же данные, однако, путём «правильного» подбора масштабов вертикальной шкалы можно добиться совершенно разного визуального впечатления.
Чтобы не быть голословным, приведу пример, где подобная инфографика буквально решала вопросы жизни и смерти – дело Терри Шайво. Вкратце, женщина находилась в больнице в вегетативном состоянии, и решался вопрос об её отключении от системы жизнеобеспечения. Родители же были против и прибегли к апелляции к общественному мнению, что впоследствии привело к серьёзным политическим дебатам в отношении вопроса о принудительном отключении подобных больных от системы питания. История довольно драматичная, но нам интересен результат опроса, проведённый CNN, а так же форма представления результатов:
Поскольку шкала начинается на 53, создаётся впечатление, что согласных отключить Терри от аппарата среди демократов во много раз больше. Согласитесь, если бы была приведена такая диаграмма, то впечатление бы не было столь сильным:
Подобные приёмы нашли широкое применение не только в политике, но и при составлении всевозможных рейтингов, хит-парадов, чартов и прочих маркетинговых инструментов.
Послесловие
Статистика – замечательная дисциплина, позволяющая анализировать данные, находить закономерности и связи, достоверно предсказывать развитие сложных систем, однако, как и любой другой инструмент, его обращение во благо или во зло находится на совести применяющего его человека. А сама наука тут не причём.