Введение
Привет. Все мы живём в век цифры. Создаётся и публикуется огромное количество информации в сети интернет, и наибольшая её часть проходит через IT-специалистов, которые, по причине профессиональных потребностей вынуждены пропускать через себя большие объёмы информации по самым различным направлениям и из самых разных источников. Кроме этого, как правило, IT-специалисты, лучше других умеют пользоваться техникой и любым прикладным ПО.
Проблема в том, что информация, которую мы видим, чаще всего является неполной, искажённой или попросту ложной.
Пример
Любой пример "с работы" будет скучным, изучение специальных данных требуют знания предметной области, поэтому, проще всего взять тему о которой знают почти все, но при этом, информация неполная и противоречивая.
Сейчас, почти все развлекаются, играя в поиск правды о COVID-19, и IT-специалисты, находясь в самом эпицентре всевозможной информации "обо всём" конечно не могут этого избежать. И увы, мне тоже этого не удаётся.
Даже если Вы не любите судачить о таких вещах, но как часть оценки адекватности при анализе данных в сети интернет, для обучения ИИ или нейросетей, ситуация вполне пригодная.
Итак, информация которая пришла быстро и была воспринята и передана без факт-чекинга. Приходит сообщение в чате, "пилотов гражданской авиации всех прокололи, была средняя смертность 5-6, в этом году 118".
Скармливаем этот текст Яндексу, и получаем кучу ссылок, что не удивительно, раз информация уже добралась до одного из твоих коллег, например, "Смертность у пилотов гражданских авиалиний выросла более чем в 100 раз", в которой рассказывается, что:
Анализ данных
Что бросается в глаза сразу:
На странице есть некрологи сразу за несколько лет, 2019, 2020, 2021. Если журнал занимается публикацией оперативной статистики, то как это может выглядеть таким образом? Возникает гипотеза, "эти данные не являются оперативными, а публикуются как заметки, по обращению родственников".
На той же странице есть ещё один скрин, который якобы подтверждает низкую смертность в другие годы:
И здесь мы видим подтверждение, но не тому, что умерло так мало людей за прошлые годы, а тому, что данные предоставляются произвольным образом, в одной заметке прощаются с людьми умершими в 2013, 2015, 2016 и 2017 годах.
Уже этого факта достаточно, чтобы моментально возникло сомнение в правильность выводов, которые делает автор и выкинуть эту информацию как недостоверную, и такой факт-чекинг занимает обычно не больше пары минут.
Но если нужно что-то обосновать, доказать, то как проверить? Если есть час времени, например в обед:
Проверка №1
Для начала включить здравый смысл. Первое, этот журнал называется ALPA, что видно на скриншоте, а это https://www.alpa.org, Второе, указаны компании-перевозчики в которых работали погибшие, это в основном США и Канада.
Нет смысла оценивать все компании и страны, достаточно взять США www.faa.gov, которое публикует подробные данные обо всём, что касается самолётов, полётах и пилотах:
И пожалуйста, полные данные по типам лицензии, по годам и даже возрастам пилотов. Даже если мы возьмём количество пилотов с лицензией для Коммерческих авиа-линий, то их будет 116572. И сразу вопрос, "сколько живёт человек?" 100 лет? Только в возрасте 80+, есть действующих 2087 пилотов. Как могут умирать то 1, то 0 человек в год? Или всего 111 человек при таком количестве пилотов? Даже самая простая статистика покажет, что их будет умирать около 1000 ежегодно без всяких условий, по любым причинам, начиная от аварий, бытовых травм, любых болезней и просто от старости.
Проверка №2
На скриншоте с именами пилотов, умерших в 2017 году, мы видим, что смерти завершаются в октябре 2017 года. Значит надо зайти на ALPA и посмотреть, что это вообще за журнал такой:
Кроме 2 выпусков, журнал ежемесячный. Если данные опубликованы за октябрь, то вероятно, опубликованы они в ноябрьском выпуске или позже.
К сожалению, портал не даёт доступа к архиву публикаций всем подряд, а только для членов этой ALPA, а членство там они не раздают налево и направо.
Но надо соответствовать заявлению тому, что IT-специалисты умеют пользоваться интернетом немного лучше всех остальных, то я само собой скачал все 10 выпусков в формате pdf, и сделал скриншоты заметок о смерти из каждого выпуска.
Январь-Февраль 2017 года, опубликовал часть данных за 2016 год.
Март 2017, подборка за несколько лет, включая 2013, 2014, 2015, 2016 и 2017, если сравнивать с данными из той статьи, то вскрывается её фейковость. В 2014 у них "погибло" 0, здесь уже есть +1. В 2016 у них, якобы только 2, тут добавили ещё 43. Что доказывает версию того, что это не некоторые финальные статистические результаты.
Но нас интересует 2017 год. Тут 14 записей.
Апрель 2017, ещё больше обновлений, за 2017 - 31.
Декабрь 2017, - 28, вот тот самый скрин, только с указанием выпуска и страницы на которой опубликованы данные.
И на закуску, страничка из журнала за Январь-Февраль 2018 года, где добавили ещё 38 записей за 2017 год, и так будет продолжаться из номера в номер. Приходят сообщение от участников, с просьбой опубликовать прощальную запись, её публикуют. Вот и всё.
Проверка №3 и остальные
Действительно, чтобы забить окончательный гроб, надо поднять несколько имён, чтобы убедиться, от чего именно умирали все эти люди, в каком возрасте и т.п.
Возможно, поднять статистику смертности по профессиям, но тут вопрос в том, будет ли там детальная разбивка или по отраслям в целом.
Так или иначе, для оценки и доказательства недостоверности статьи, этого не требуется.
В любом случае, это фактологическое доказательство того, что в статье, была использована неполная информация, случайно или намеренно использованная для дезинформации. Журналы с исходными данными недоступны для скачивания и обычный человек ничего проверить не сможет, поэтому, проверять такие данные действительно сложно.
Зачем кому-либо создавать такой фейкньюс, вопрос открытый, но факт в том, что такого рода информации чрезвычайно много.
Если Вы просто фильтруете информацию для себя, то достаточно простого интуитивного фильтра, который подскажет "это просто лажа какая-то".
Если эта информация побуждает Вас распространять её, то следует проверить такую информацию на достоверность, ведь иначе, Вы фактически становитесь участником распространения дезинформации. Друзьям будет всё равно, а вот при общении с другими людьми, это может стать частью Вашей репутации.
Если Вы специалист по анализу информации, то следует принять такое положение как данность. И вероятно, что для обучения ИИ, следует сперва подобрать ресурсы с по-настоящему достоверными данными, и сравнивать всё с ними, иначе Ваш ИИ будет состоять на 90% из фейков, фантазий и даже откровенного бреда.