Одной из проблем жизни на суше были температурные колебания. Амниоты были холоднокровными животными, и их стратегия была – найти место потеплее. Так делают их потомки из линии рептилий. Они чаще всего замирают на ночь, когда мышцы не могут двигаться, как следует. Однако замершее пресмыкающееся ночью – достойная добыча. Для кого? Для терапсидов, например. Это была другая эволюционная линия, проистекшая из амниотов. Они смогли регулировать температуру своего тела, то есть были теплокровными. Да, это стоило энергии, но зато можно было охотиться по ночам. Это позволило им стать наиболее успешными животными Пермского периода, который начался 300 миллионов лет назад. Некоторые из них были размером с тигра и выглядели, как большие волосатые ящеры.
250 миллионов лет назад случилось ещё одно массовое Пермское вымирание, в результате которого вымерло 96% морской жизни и 70% наземной. Есть много предположений, почему оно случилось: в качестве причин предлагаются вулканизм, астероиды, метанопроизводящие микробы или комбинации нескольких факторов. Никто не знает точно. Но мы имеем представление о последствиях. Крупные терапсиды ушли в историю. Их прожорливость сыграла против них. Более экономичные рептилии удержались. Около пяти миллионов лет жизнь пряталась по крошечным карманам, разбросанным по планете. Линия терапсидов не исчезла, но её представляла всего лишь мелочь вроде цинодонтов, которая пряталась по норам.
Властителями суши стали рептилии, которые возглавили пищевую пирамиду. Чтобы сбежать от хищного ящера, нашим предкам пришлось уменьшиться в размерах вплоть до десятка сантиметров и прятаться днём в норах, выходя на свежий воздух по ночам, когда архозавры малоподвижны и плохо видят. Они стали первыми млекопитающими. В какое-то время этой эры господства динозавров, они развили новую способность, которая помогала им выживать. Это была крупнейшее новшество со времён рыб Кембрийского периода. Они учились не только методом проб и ошибок, но и через воображение. Почему именно они? Возможно, повлияло более совершенное зрение предоставляющее больше данных. А может быть и теплокровие, способствующая нервным процессам. Мозг млекопитающего был быстрее.
От первых хордовых и вплоть до терапсид прогресс мозга был весьма незначителен. Эволюция трудилась над другими органами. Мозг ящерицы мало отличается от мозга рыбы. Но у млекопитающих он уже имеет новую кору (неокортекс). Хоть она невелика по сравнению с сенсорной корой, она стала ядром, из которого развился человеческий разум. Наша новая кора составляет 70% объёма нашего огромного мозга. Толщина её составляет от двух до четырёх миллиметров, а большая площадь (размером с небольшой стол) привела к образованию извилин. В ходе экспериментов выяснилось, что она выполняет сразу множество функций, которые «разбросаны» по её площади.
Один из пионеров электродного исследования активности нейронов коры Вернон Маунткасл обнаружил, что нейроны коры возбуждаются в вертикальных колонках, толщиной в примерно в 500 микрон. Соответственным образом они и соединены чаще всего вертикально. И, наконец, он установил однородность строения всей площади новой коры. Она вся составлена из по сути идентичных неокортикальных колонок. Единственное различие между разными зонами состоит в том, откуда они получают информацию и куда отдают. Это приводит нас к мысли, что участки коры в принципе взаимозаменяемы, что и подтвердилось экспериментально. Это объясняет нам постепенное восстановление функций мозга спустя некоторое время после инсульта. Некоторые пациенты даже снова начинают видеть после того, как ослепли.
Устройство колонки, этой базовой «микросхемы» новой коры можно видеть под микроскопом. Она построена из шести соединённых между собой слоёв нейронов (а не из трёх, как у ранних позвоночных). Пятый слой связан с с базальными ганглиями, таламусом и моторными областями. Четвёртый получает импульсы прямо из таламуса, а шестой отдаёт туда свои импульсы.
Особенности человеческого восприятия проливают свет на то, как работает неокортекс. Во-первых, наш разум заполняет недостающее. Во-вторых, в один момент времени мы держим в уме лишь одну интерпретацию. В-третьих, раз увидев, потом трудно развидеть. Немецкий физик Герман Гельмгольц предположил ещё в девятнадцатом веке, что мы воспринимаем не то, что на самом деле, а лишь виртуальную, сымитированную реальность, которую мы выстраиваем на основе того, что видим. Эта идея и объясняет нам эти особенности восприятия.
На этой идее Джеффри Хинтон со своей командой (в которую входил и Питер Даян, помогший в своё время установить роль дофамина в TD-обучении) попытался построить систему ИИ, которая работает по Гельмгольцу. Его система, которую он назвал «Гельмгольц-машина», была похожа на другие нейронные сети, но имела в своём составе связи, которые шли в обратную сторону: от выходов к входам. Получая снизу рукописные цифры (один нейрон на пиксель), сеть передавала информацию наверх, активизируя выходные нейроны. В этом режиме распознавания работает обычная нейронная сеть. Но у Хинтона был и режим генерации, когда выходные нейроны запускают обратную активацию нейронов нижних слоёв. Процесс повторяется до наступления равновесного состояния с соответствием входа обратному сигналу сверху. При этом никто не объясняет сети, семёрку ей дают или двойку. Она учится сама. И делает это вполне прилично, генерируя то же, что и получает.
Казалось бы, что такого? Однако оказалось, что Гельмгольц-машина сама распознаёт несовершенные образы, прекрасно обобщает информацию, а главное: она генерирует совершенно новые образы. Да, это была одна из первых генеративных моделей. Способность генерации реалистичных новых картин требует от модели понимания сути исходного образа и способов его варьирования.
Дополню то, что не успело войти в книгу: в 2024 году Хинтону за его исследования в области обучения присудили Нобелевскую премию по физике. А могли бы и по медицине дать, в принципе. Ведь свидетельств того, что неокортекс работает сходным образом, много: и особенности восприятия, и симметрия между восприятием и воображением.
Можно представить себе, что те, у кого глаза перестают функционировать, перестают видеть. По факту они видят много. Они галлюцинируют. Этот феномен объясняется в рамках модели Гельмгольца. Некоторые учёные называют нормальное восприятие «сдержанной галлюцинацией». Без сенсорного входа она просто перестаёт быть сдержанной. Также в рамках генеративной модели объясняется наличие у нас сновидений. Они могут служить стабилизацией после дневного потока сенсорной информации через вынужденную генерацию в обратную сторону. Следует отметить, что воображение и распознавание не могут осуществляться одновременно. И там, и там задействованы те же самые нейроны. Поэтому не за горами время, когда мы сможем определять, что снится человеку.
По всей видимости, неокортекс находится в режиме непрерывного предсказания сенсорного входа. Если рефлексные контуры предсказывают рефлексы, а базальные ганглии предсказывают вознаграждение, то новая кора предсказывает окружающий мир посредством его реконструкции. Вполне может быть, оригинальной функцией неокортекса и было моделирование мира, а не распознавание, которое уже имелось.
Модели, возникающие в головах млекопитающих, придали им три новых способности, которые помогли нашим предкам выживать. Во-первых, они стали способны на косвенные пробы и ошибки (vicarious trial and error), когда включается воображение, чтобы представить результаты будущих действий. Опыты на крысах показали ещё в тридцатых годах, что животное останавливается в раздумьи на развилке лабиринта, глядя то в одну, то в другую сторону. Позднее, присоединив электроды к мозгу, удалось буквально увидеть, как крыса представляет себе будущие маршруты. Получив модель внешнего окружения, наши предки смогли мысленно обследовать его для нахождения оптимального маршрута.
Вторая способность состоит в том, что мы учимся на своих ошибках. Без этого невозможно различать причины и следствия. Мы представляем себе альтернативное прошлое и делаем вывод о том, что послужило причиной случившихся событий. Вот вам ещё одно решение проблемы приписывания заслуги. Причинность – конструкция нашего мозга, позволяющая нам учиться на альтернативных сценариях прошлого.
И третье: мы получили эпизодическую память. Но что интересно: и представляя себе будущее, и вспоминая о прошлом, мы их моделируем в своей голове. Это подтверждается тем, что при этом работают те же самые нейроны. Мы не вспоминаем, мы воображаем. Те, кто часто бывают в суде, знают о ненадёжности свидетельских показаний. 77% несправедливо осуждённых стали их жертвой. Большую роль в эпизодической памяти играет гиппокамп. Он отвечает за запоминание, но не за вспоминание уже запомненного. Это потому, что эволюция приспособила его для решения новых задач. Помимо распознавания образов, он стал отвечать и за быстрое запоминание. Однако он не может строить модели. Моделировать может неокортекс, но в свою очередь он не может быстро учиться новым образам. Их взаимодействие даёт нам новое решение проблемы катастрофического забывания: вспоминая параллельно старые и недавние события, гиппокамп помогает неокортексу интегрировать новые события без того, чтобы разрушить память о старых.
Процесс моделирования прошлого и будущего имеет аналоги в системах искусственного интеллекта с подкрепляющим обучением на основе моделей. Эти системы проигрывают возможные сценарии на будущее перед тем, как принимают решение. Это даёт гибкость, но предусматривает решение сложной задачи построения модели. Сложно также и выбрать, что нужно моделировать (так называемая проблема поиска). Поэтому большинство известных алгоритмов ИИ обходится без моделей. Они реагируют немедленно, без раздумий.
С проблемой поиска столкнулись разработчики ИИ-системы AlphaZero при игре в го. Она просчитывала ходы в рамках своей модели, но число вариантов было столь велико, что пришлось выбирать на основе системы приоритетов. Выбирается несколько многообещающих ходов, остальные игнорируются. AlphaGo Zero была первой программой, победившей человека в го. Но не стоит переоценивать её успех. Конечно, го отличается от реального мира во многих отношениях, но не это главное. Главное – это способность мозга млекопитающего изменять подход к планированию в зависимости от ситуации. AlphaZero ищет всегда одинаково.
Новая кора всех млекопитающих состоит из двух половин. Задняя содержит сенсорные области: зрение, слух, соматика. Там воспроизводится модель окружающего мира, будь то через восприятие или моделирование. Но есть ещё фронтальный неокортекс. Он состоит из трёх регионов: моторной коры, а также гранулярной и агранулярной префронтальной коры (gPFC и aPFC). Что интересно: в aPFC отсутствует четвёртый слой нейронов, пока неизвестно почему. Это самый древний фронтальный регион, который есть у всех млекопитающих.
Судя по всему, задачей фронтального неокортекса является управление моделью, а именно принятие решения, когда и что воображать. Крысы с повреждением в этой области больше не задумываются над тем, куда идти на развилке, и всегда выбирает путь наименьшего сопротивления, имеют затруднения с памятью и становятся более импульсивными. Так и люди после инсульта с последствиями в этой области испытывают кризис с намерениями. Им ничего не хочется. По-видимому, фронтальный неокортекс делает то же самое, что и остальная новая кора: он моделирует. Но моделирует не окружающий мир, а свой организм. Его входы соединены не с системами чувств, а с гиппокампом, миндалевидным телом и гипоталамусом. И потому он не объясняет действительность, а вникает в собственные желания. А также пытается их предсказать, объяснить своё поведение. Зачем? Чтобы сделать правильный выбор.
Когда принимаемое решение не очевидно, колонки aPFC находятся в несогласованном между собой состоянии. Предсказания, совершаемые отдельными регионами, противоречат друг другу. По всей видимости, эта неопределённость запускает моделирование. В таких случаях aPFC может запаузить организм посредством прямой связи с базальными ядрами. Крыса застывает на развилке лабиринта.
Затем наступает второй шаг алгоритма: aPFC не просчитывает каждый вариант, а выбирает из тех, что были предсказаны разными колонками. Результаты моделирования этих вариантов явно видны на активности прилегающего сенсорного неокортекса, который в этой ситуации работает синхронно с фронтальным. Возможно, aPFC пытается предсказать, что случится в случае выбора конкретного варианта. А может быть, это базальные ядра определяют варианты для моделирования.
И, наконец, принимается решение. Науке пока известно мало конкретного на этот счёт, но можно предположить, что базальные ядра накапливают все «за» и «против» для отдельных вариантов. Ведь им не привыкать. Выбирается тот вариант, который больше всего возбуждает. Что вызовет большее возбуждение – вода или еда – туда и побежит крыса. Базальные ядра не знают, что моделирует сенсорный неокортекс – фантазию или реальный мир. Всё, что они знают – это если пойти налево, они простимулируются. Этого достаточно.
Если выбор повторяется много-много раз (порядка пятисот), базальные ядра перестают нуждаться в коре для принятия решения. Сигнал от сенсоров автоматически преобразуется в моторный ответ. Формируется привычка. Мы не думаем, куда поставить ногу во время прогулки, как выговаривать слова во время речи. Ну и скроллим ленту в социальных сетях тоже бездумно. Мы экономим время и энергию. Этот дуализм между сознательными решениями и привычными действиями повсюду. Эти две системы (медленная и быстрая) описал Канеман в своём бестселлере «Думай медленно... решай быстро».
В психологии эти два основных поведения называются целенаправленным и привычным. Именно млекопитающие стали первыми животными, которые имеют намерения. Базальные ганглии не имеют цели. Они просто учатся повторять подкреплённое поведение. А вот префронтальная кора имеет цель: сходить к холодильнику или попить воды. Конечным итогом моделирования будущего всегда будет целевое состояние, которое необходимо достигнуть. aPFC конструирует намерение и пытается предсказать поведение, которое приведёт к его реализации. Не играет роли, насколько тернист окажется путь, цель должна быть достигнута. Поэтому мало интересует, насколько соответствует текущее поведение намерениям. Поэтому четвёртый слой нейронов не нужен.
Конструируются же цели на основе выученного через базальные ядра поведения. Они служат для префронтальной коры учителями на первых порах, но по мере развития млекопитающего роли меняются, и уже кора начинает направлять ганглии. Это подтверждается медленной атрофией четвёртого слоя нейронов в aPFC в процессе роста и развития животного.
Функции, приписываемые нейронаукой фронтальному нейрокортексу – планирование, внимание, рабочая память – все они реализованы в aPFC, поскольку являются, в принципе, одним и тем же процессом: попыткой выбрать модель для реализации через убеждение базальных ганглий посредством показа выбора. В результате животное делает более разумный выбор. Оно может выбрать между обдуманным поведением и привычкой. Потому что имеет цель. Ящерица не имеет цели, и потому обречена на вечные пробы и ошибки при выходе из лабиринта. А вот крысу с пути не собьёшь. Она способна подавить врождённые предпочтения.
Помимо aPFC и gPFC, префронтальная кора имеет ещё моторный отдел. Можно было бы себе представить из названия, что он является своеобразным контроллером движения, как предполагали предыдущие поколения исследователей. Но это не так. Карл Фристон придумал альтернативное объяснение: она выдаёт не команды, но предсказания на основе анализа сигналов близлежащей сенсорной коры. Эти предсказания поступают в спинной мозг и контролируют наши движения. Модус операнди – такой же, как и aPFC, только предсказывается не выбор маршрута, а движение отдельных конечностей. Если повредить у кота моторную кору, он не сможет ходить по веткам, аккуратно переступая через препятствия, а также не сможет выучивать новые движения. Это говорит нам о том, что моторная кора изначально занималась планированием, а не управлением движением. Ведь надо выбрать место, куда поставить лапу и представить себе заранее весь процесс. Для уже заученных движений кора не нужна: работает привычка, за которые отвечают базальные ганглии. Идею Фристона подкрепляют экспериментальные данные. Премоторная и моторная кора человека возбуждаются не только при действительном, но и при воображаемом движении. Так, с помощью воображения и планирования, наши предки решили задачу выработки точных движений и научились, например, лазить по деревьям.
Как же это всё работает вместе? Ведь каждый из участков мозга имеет своё целеполагание. Разумеется, цели имеют свою иерархию. На её верху находится aPFC, которая генерирует намерение, например, «попить воды». Эти цели направляются в сопредельные премоторные регионы, которые конструируют подчинённые цели для того, чтобы направить их дальше в моторную кору, которая в свою очередь разбивает их на движения отдельных частей тела. И это эффективно: главнокомандующего не должны интересовать задачи отдельного взвода. Все эти регионы мозга связаны также с базальными ядрами, которые придают автоматизм их функциям. Цель каждого уровня имеет в них «бездумный», но быстрый аналог, работающий автоматически. Повреждение aPFC лишает нас намерений, повреждение моторной коры не даёт нормально двигаться нашим конечностям: нарушена иерархия, и пациент может не двигаться, а может совершать и непроизвольные движения. Ну а повреждение базальных ганглий способно избавить от укоренившихся привычек, полезных или вредных. Например, избавить от наркотической зависимости.