Коротко для ЛЛ: позвоночные развили свой мозг до возможности обучения с подкреплением, при котором они используют дофамин. Их мозг работает по принципу нейронной сети, который взят на вооружение и в системах ИИ. Это позволяет распознавать образы, а также обобщать информацию в процессе построения модели внешнего мира.
Следующий скачок в эволюции мозга случился ещё через 50 миллионов лет, во время Кембрийского взрыва, который стал самым драматическим расширением биологического разнообразия животных. Животные с мозгом стали властителями фауны. Членистоногие, которые независимо развили свой мозг, вытеснили на обочину червей, а также наших предков хордовых. Мозг у хордовых уже был структурирован, подобно нашему. На этапе эмбрионального развития он формируется через три пузыря, которые становятся каркасом для образования переднего, среднего и ромбовидного мозга. После этого передний мозг развивается в две подсистемы. Одна из них становится корой и базальными ядрами, а другая формирует таламус и гипоталамус. Всё это наличествует у всех позвоночных. Простой протомозг билатерий стал сложной машиной из подмодулей, слоёв и систем обработки.
Примерно в одно время с Павловым свои опыты с животными проводил Эдвард Торндайк. Он наблюдал за курами, кошками и собаками, которых помещал в клетки, из которых можно было выбраться, лишь решив определённую задачу: нажать на рычаг, облизнуться или совершить определённую последовательность движений. Торндайк хотел узнать, научаются ли коты посредством имитации. Да, научаются, но не коты, а другие животные. Торндайку не повезло в этом смысле. Зато он обнаружил общий для всех позвоночных механизм обучения. Его кошки учились методом проб и ошибок. С помощью этого метода можно выработать весьма сложное поведение, которое базируется на усилении действий с положительной валентностью и ослаблении – с отрицательной. К обучению с подкреплением способны и рыбы, которые оттачивают свои действия в зависимости от результата. Эта способность и стала вторым эволюционным прорывом.
Первый алгоритм обучения с подкреплением под названием SNARC разработал пионер ИИ Марвин Минский. Его нейронная сеть искала выход из лабиринта, усиливая синапсы, активизированные перед успешным завершением задачи. Работало оно не так, чтобы очень, и тем хуже, чем длиннее лабиринт. Проблема здесь в том, что если для выхода из лабиринта или победы в партии нужно сделать несколько ходов, трудно сказать, какой из этих ходов стал решающим. Проблема приписывания заслуги в чистом виде. Минский пришёл к выводу, что необходима стратегия по приписыванию заслуги во времени. То есть мы имеем дело с временной проблемой приписывания заслуги. Очевидным решением будет подкреплять или ослаблять действия, непосредственно предшествующие победе или поражению. Так работал SNARC, и работал он не очень хорошо, поскольку даже в игре в шашки всё решает далеко не всегда последний ход. Можно подкреплять все ходы в партии, в надежде, что со временем ИИ разберётся, какие ходы были хорошие, а какие плохие. Но и это тоже не будет работать: слишком много вариантов, чтобы решить эту задачу за приемлемое время.
Проблема оставалось нерешённой десятилетиями, пока в 1984 году свой метод временных разниц (temporal difference learning, TD-learning) не предложил Ричард Саттон. Он предложил подкреплять не те ходы, которые приводят к победе, а те, которые повышают её вероятность (по мнению самой системы ИИ). Это позволяет учиться на ходу. Несмотря на интуитивность, эффективность метода не является очевидной. При нём критик зависит от исполнителя, а исполнитель – от критика. Однако по ходу времени они оба учатся, улучшая способности друг друга и приводя систему в состояние совершать весьма разумные решения.
Первым, кто встроил метод Саттона в свою систему был молодой физик Джеральд Тезауро, который учил компьютер играть в нарды. До этого его Neurogammon мог похвастаться лишь средним уровнем игры. Новая программа TD-Gammon училась не на примерах успешной игры людей-корифеев, а методом проб и ошибок, постигая всё своим опытом. И это заработало! TD-Gammon стала игроком мирового уровня. Сегодня метод временных разниц реализован не только в игровых автоматах, но и во многих других программах, включая системы автономного вождения.
Что это было? Лишь одна из удачных придумок или нечто основополагающее? Во втором случае можно надеяться найти нечто подобное и в живой природе. Коллеги Саттона во главе с Питером Даяном стали искать. Они знали, что в этой истории не обошлось без дофамина. Глубоко в мозгу всех позвоночных находится группа дофаминовых нейронов, стимуляция которых заставляет крысу забыть даже о пище. Алкоголь, кокаин, никотин – все работают посредством выброса дофамина. Было ясно, что дофамин обеспечивает подкрепление в обучении, но механизм этого процесса оставался под вопросом. Изначально думали, что этот гормон обеспечивает удовольствие, но мы знаем, что это не так.
Единственным путём добиться ясности было измерить активность дофаминовых нейронов. К восьмидесятым годам появились технические возможности для этого, чем и воспользовался немец Вольфрам Шульц. Он поил обезьян сладкой водой после демонстрации определённых картинок. Оказалось, что на первых порах дофамин выделяется в ответ на вознаграждение. Но в процессе научения дофаминовый скачок перемещается вперёд во времени, на момент демонстрации «сахарной» картинки. Если же после демонстрации уже выученной картинки сладкой воды не доставалось, наблюдался скачок активности дофаминовых нейронов в обратную сторону (при нормальных условиях они щёлкают два раза в секунду). Шульц не мог представить себе, что это значит, если это не сюрприз и не удовольствие.
В первом сценарии дофамин генерируется сразу после получения неожиданной дозы сахара, во втором – непосредственно после предъявления «сахарной» картинки, а в третьем тоже, но когда обезьяна не получает сахар, она получает негативный скачок дофамина.
И вот здесь десятком лет спустя подключилась команда Даяна. Они выяснили, что дофаминовые скачки Шульца совпадали с TD-сигналами Саттона. Дофаминовые нейроны у обезьяны возбуждаются сигналами предсказания по той причине, что они приводят к увеличению ожидаемого вознаграждения. И наоборот, при отрицательной обратной связи. Совпадение было точным, вплоть до усиления сигналов у тех предсказаний, которые имеют более близкий временной горизонт.
Итак, дофамин – это сигнал не вознаграждения, но подкрепления. Таким образом обучение становится более эффективным, как выяснил Саттон. Эволюция приспособила этот нейромедиатор в качестве сигнала обучения. У позвоночных дофамин совмещает функции желания и подкрепления. Обучение с подкреплением привело к появлению таких знакомых психологических состояний, как расстройство и облегчение. Это есть даже у рыб, которые реагируют на прикосновение после включения света тем, что уплывают в другое место. Так они добиваются облегчения, то есть отсутствия наказания. Это работает и в другую сторону: мы расстраиваемся, когда не получаем ожидаемого вознаграждения. Нематода так не умеет. Как не знает она и счёта времени. В отличие от неё, обезьяна способна отсчитать пять секунд после демонстрации картинки. Что естественно: чувство времени необходимо при обучении с подкреплением.
Реализуется оно с помощью базальных ядер (ганглий), расположенных между корой и таламусом. Они связаны также со средним мозгом, что позволяет реагировать на действия животного и на внешнее окружение. В свою очередь их тормозные нейроны связаны с моторными центрами ствола мозга, модулируя их активацию. Без базальных ядер мы неспособны двигаться, что демонстрируют больные синдромом Паркинсона.
Исследователи определили, что базальные ганглии научаются повторять действия, которые максимизируют выпуск дофамина от дофаминовых нейронов. Почти излишним будет упомянуть, что эта структура мозга есть в наличии и у нас, и у рыб, и у других позвоночных, как есть и гипоталамус, который со своими валентными нейронами (сигналами добра и зла) был унаследован от билатерий. Он и наводняет базальные ядра дофамином, когда ему хорошо. Он говорит нам, когда выиграна шахматная партия, но не когда сделан удачный ход. TD-сигнал же реализуется посредством параллельных цепей внутри базальных ганглий, функции и образ действия которых ещё не до конца изучены. Там и делается предсказание и оценка перспективности сделанного хода.
Мозг позвоночных способен также распознавать образы. Такие важные и сложные вещи, как запах, звук, свет, можно и нужно анализировать более серьёзно, нежели просто определять превышение порога. Для того, чтобы различать разные запахи, нужны тысячи обонятельных нейронов самых разных типов, что можно найти уже у рыбы. Чем больше нейронов – тем больше комбинаций может составить их возбуждение, тем более сложный запах можно идентифицировать. Всё это имеет смысл, конечно, если запаху можно обучиться, а не кодировать его жёстким образом через эволюцию.
Распознать образ нелегко. Ведь перекрывающиеся образы могут задействовать общие группы нейронов. Кроме этого, необходимо отличать похожее от идентичного. В системах технического зрения стандартным подходом является использование нейронных сетей из нескольких слоёв, где путём настраивания весовых коэффициентов для связей между нейронами отдельных слоёв можно добиться соответствия сенсорного входа его интерпретации на выходе. Проблема в том, как найти это верное сочетание коэффициентов. Для этого нейронную сеть обучают. Стандартным методом обучения является демонстрация разных вариантов исходных данных параллельно с готовой их интерпретацией. Машине задают различные комбинации запахов яйца и всякий раз говорят, что это яйцо. Ей заранее сообщают правильный ответ. Она сверяет результат со своим выходом и корректирует, если нужно, свои коэффициенты, начиная с последнего уровня. Сигнал рассогласования проходит, таким образом, в сторону, противоположную ходу сигнала: так называемый метод обратного распространения ошибки (backpropagation).
Подобное обучение с учителем является стандартным методом для систем технического зрения, распознавания речи и автономного вождения. Но биологический мозг работает не так. У него нет учителя, он учится сам.
Обонятельные нейроны рыбы соединяются с трёхслойной корой её мозга. Пирамидальные нейроны слоёв имеют сотни дендритов и получают сигналы от тысяч синапсов. Каждый обонятельный нейрон возбуждает сразу много нейронов коры, но далеко не все. Таким образом картина возбуждения коры для разных запахов будет разной, что обеспечивает возможность различения образа. При этом пирамидальные нейроны соединены и с самими собой, и с многочисленными соседними нейронами в слое. А мы уже знаем, что связи между нейронами усиливаются при синхронной активации. Подобная автоассоциация обеспечивает распознавание похожего образа. Это говорит нам о том, что биологический мозг не извлекает, подобно компьютеру, содержимое из адресованной ячейки памяти, а восстанавливает целый образ из фрагмента. Для него не страшно потерять адрес информации. Но зато можно случайно перезаписать память новым содержимым.
С проблемой катастрофического забывания впервые столкнулись исследователи в институте Джона Хопкинса в конце восьмидесятых. Они пытались научить свою нейронную сеть сложению. У них получилось заставить её прибавлять единицу. Потом – прибавлять двойку. Но при этом их сеть забывала сложение с единицей! В процессе обратного распространения ошибки переписывалась память, ответственная за решение более ранних задач. Как это решается? Да пока никак: приходится замораживать систему ИИ после окончания её обучения. Умный автомобиль учится раз и навсегда. Для нас же верна поговорка: век живи – век учись. Даже рыба справляется с катастрофическим забыванием. Она находит прореху в сети даже спустя год. Как это ей удаётся – мы достоверно не знаем.
А ведь есть ещё проблема инвариантности (неизменности). Мы узнаём образы с разных ракурсов, несмотря на то, что визуальная картинка может быть совершенно иной в каждом отдельном случае. Мы понимаем речь, сказанную разными голосами. Эту проблему изучали в том же институте ещё в пятидесятых годах. Учёные вживляли электроды в различные зоны мозга у кота, чтобы установить активацию участков коры при демонстрации разных картинок. Первой возбуждалась зона V1. Её нейроны оказались удивительно селективны в своём восприятии: они реагировали лишь на линии определённой ориентации в определённой области. Таким образом всё поле зрения оказалось картировано зоной V1. Эти распознанные линии и углы служат входной информацией для соседней зоны коры V2, затем наступает очередь участка V4, и последними возбуждаются нейроны зоны IT. При движении вверх по этой иерархии нейроны каждого уровня реагируют на всё более изощрённые визуальные стимулы: от линий через формы и объекты вплоть до конкретных лиц.
В конце семидесятых японец Кунихико Фукусима бился над проблемой распознавания визуальных образов с помощью нейронных сетей. У него плохо получалось: поверни картинку – и она уже не распознается. Ему были известны результаты вышеописанных исследований, и он решил применить иерархичность обработки и однородность на уровне каждой из зон для своего проекта. Так он изобрёл неокогнитрон – нейронную сеть свёрточного типа (CNN). В нём информация после распознавания на одном из уровней передаётся в сжатом виде на следующий, который отвечает уже за большую площадь распознаваемого образа. Линии и углы сливаются в более сложные формы. Всё, как у млекопитающих. И это работало! Правда, природа всё-таки работает несколько по-другому. Иерархичность у неё не столь чёткая. Она прекрасно распознаёт вращение предмета, в отличие от CNN. И обратного распространения ошибки у неё нет. А главное – она работает и у более простого мозга рыбы, которая тоже распознаёт образы. Как она это делает – никто пока не догадался.
Эволюция органов чувств ускорила эволюцию зон обработки информации, и наоборот. Они постепенно усложнялись с течением времени. Результатом стала кора, чудесным образом решающая задачу распознавания образов. Также не случайной стала параллельная эволюция обучения. Работала положительная обратная связь: чем способнее мозг научаться, тем большую пользу он может извлечь из новой информации.
На волне успеха TD-Gammon Саттона исследователям удалось добиться экспертного уровня в таких «неразрешимых» к тому моменту видеоиграх, как Pinball, Star Gunner или Robotank- Но была игрушка фирмы Атари, которая по-прежнему оставалась непокорённой: Montezuma’s Revenge. Там нужно найти выход, попадая из одной комнаты с препятствиями в другую. Найти решение удалось лишь в 2018 году. Чтобы успешно научиться методом проб и ошибок, надо ведь достаточно часто пробовать.
Более раннее поколение алгоритмов пыталось для этого действовать совершенно случайно в течение определённого процента времени. Но при большом количестве вариантов это не работает. Альтернативным способом стало придание системе любопытства, вознаграждая её за исследование новых мест и испробование новых вещей. Подобный алгоритм стал играть, подобно нам, обшаривая все закоулки в поисках плюшек. Как можно догадаться, оно заработало.
Эффективность алгоритма заставила задуматься и о любознательности как факторе обучения в мозге позвоночных. И действительно: научные данные говорят нам о том, что первые хордовые отличались от своих предков в том числе своим любопытством. Сюрприз даёт нам новую дозу дофамина. Любопытство может объяснить нам привлекательность азартных игр. Игрок знает, что вероятность выигрыша в рулетку у него 48%. Но это не удерживает его от участия. Так и крыса постоянно нажимает на рычаг в ожидании случайного вознаграждения. Так и мы скроллим Инстаграм в поисках чего-нибудь интересного.
Ещё одним отличием позвоночных от остального мира является их уникальная способность построить модель мира. Мы можем найти дорогу к щитку с выбившей пробкой, когда пропал свет. Так и рыба находит корм, ориентируясь по меткам, нанесённым на стены аквариума. В отличие от пчёл и муравьёв, которые неспособны решать пространственные задачи, а просто выучивают свой маршрут. Если посадить муравья, идущего с добычей обратно в муравейник, на выход из него, он начнёт свой цикл по новой, вместо того, чтобы просто развернуться, как это сделала бы рыба. Имеешь карту – должен уметь ориентироваться. Для этого эволюция предоставила в наше распоряжение вестибулярный аппарат, благодаря которому у нас кружится голова на каруселях. Визуальная и вестибулярная информация вместе с сигналом положения головы поступают в среднюю кору позвоночного (которая у нас стала гиппокампом). Там они смешиваются и преобразуются в пространственную карту. Действительно, рыбы с нарушенным гиппокампом перестают запоминать ориентиры. Они могут плыть к объекту или от него, но не могут найти выход из произвольного места лабиринта. То же самое случается с ящерицами и крысами.
Функция и структура гиппокампа достались нам от наших далёких позвоночных предков. Наш гиппокамп имеет нейроны местоположения, которые возбуждаются лишь при нахождении в определённом месте. Быть может, способность нашего мозга распознавать объекты, несмотря на их вращение, связана и с ориентированием в пространстве. Это ориентирование, несомненно, стало огромным преимуществом наших предков в ходе эволюции. Они могли запомнить, где спрятаться, как сбежать и где найти поесть. Также они смогли отличать себя от внешнего мира. В своей модели они представляли себя маленьким пешеходом, ищущим дорогу из пункта А в пункт Б. Но эта внутренняя модель стала основой для дальнейшей эволюции, для очередного прорыва.