Продолжаем знакомиться с книгой Макса Беннета.
Предыдущая часть выложена в серии.
Коротко для ЛЛ: билатерии сформировали мозг, который решил им задачу навигации и пилотирования. Для решения пришлось делить весь мир на добро и зло и обзавестись разными состояниями организма. Наша система управления программируется жёстко и гибко, а значит способна к обучению. Которое не без проблем, что мы знаем и по искусственному интеллекту.
Большинство животных имеют двустороннюю симметрию тела. Почему? Потому что так эффективнее всего двигаться: идёшь вперёд, а если надо – поворачивай. Животные более древнего происхождения имеют осевую симметрию. Если им понадобится двигаться, то и за добычей придётся присматривать во все стороны сразу, и органы движения должны быть тоже разнонаправленными. Это чрезвычайно неэффективно. Первые «двусторонники», то есть билатерии, походили на червей. И если мы посмотрим на современных нематод, то найдём в них много общего с ними: голова, рот, желудок, клоака, мышцы. И мозг.
У нематоды он состоит всего из 302 нейронов, что несравнимо с человеческими 85 миллиардами. И всё же, несмотря на скромные возможности, этот червь способен на относительно сложное поведение. Главным отличием его образа жизни от более древних животных, тех же кораллов, является, конечно, движение. Нематода ищет и всегда находит пищу, и делает это быстрее, чем, если бы она искала случайным образом. И что интересно: она не идёт напрямую, а приближается, сужая круги. Глаз у неё нет, зато она чувствует запах и его интенсивность. Всё, этого достаточно. Алгоритм прост:
1. Запах усиливается – продолжай движение.
2. Запах ослабевает – поворачивай.
С этой задачей 302 нейрона превосходно справляются. Пилотирование – вот суть первого эволюционного прорыва.
В восьмидесятых годах прошлого века в сообществе разработчиков ИИ образовался раскол. Одни учёные выступали за анализ человеческого мозга для того, чтобы наделить его чертами разрабатываемые системы. Другие, и среди них Родни Брукс из MIT, считали это слишком сложной задачей, и потому нужно начинать с имитации более простых организмов. Нельзя построить Боинг-747 с чистого листа. Брукс оказался первым, кто создал коммерчески окупившийся робот-пылесос Румба. Он, подобно нематоде, обладает простой системой очувствления, подобно нематоде не имеет сложных мозгов. Наконец, он обладает двусторонней симметрией. Навигационная стратегия его отличалась от первых билатерий, но, тем не менее, была так же несложна. Просто, дёшево и работает!
Прорыв пилотирования потребовал от билатерий сортировки окружающих объектов на «добро» и «зло». Румба тоже так делает: для неё препятствия являются злом, а зарядная станция – добром. Говоря научным языком, стимулы стали наделяться валентностью. Сенсорные нейроны нематоды кодируют сигнал привлекательности движения к объекту. Этот сигнал, как мы знаем, усиливается при усилении сенсорного стимула (работает нейронная адаптация). В зависимости от баланса привлекательности, нейроны, направляющие движение, принимают решение продолжать двигаться или повернуть. Путём изменения условий возбуждения валентных нейронов можно получить новые варианты навигационного поведения. Например, сигнал температуры может быть «хорошим» или «плохим» в зависимости от его значения. Для этого у нематоды есть нейроны «слишком жарко» или «слишком холодно», которые возбуждаются лишь при превышении температурного порога в ту или иную сторону.
Проблема возникает при наличии нескольких противоположных стимулов. Как поступать в этом случае? Учёные провели эксперименты с нематодами, и выяснилось, что даже столь простые организмы справляются с задачей выработки компромиссного решения. Возможно, необходимость интеграции сигналов от нескольких каналов и послужила одной из причин формирования мозга у наших предков. Нельзя идти сразу в нескольких направлениях, поэтому нужно принимать решение, рассмотрев все обстоятельства. Нейроны с позитивной валентностью соединены с нейроном, который включает движение вперёд, а негативные – с «поворотным» нейроном. Чем больше сигналов на возбуждение, тем сильнее возбуждаются эти два нейрона, которые, кстати, взаимно тормозят друг друга. Выиграет тот, кто сильнее возбуждён. Он и сделает выбор. Так эволюция приспособила механизм раскрытия рта у полипа для принятия решений у животных с двусторонней симметрией тела.
Следует заметить о ещё одном обстоятельстве. Валентность не объективный параметр, она зависит от внутреннего состояния тела. Если мы голодны, мы не стремимся наесться. Механизм для осуществления этого прост, и он присутствует у всех билатерий. Животные клетки выделяют специальные вещества (гормоны) в ответ на получение энергии. Если энергии не хватают – тоже выделяются, но уже другие. Эти вещества распределяются по телу и представляют собой обобщённый сигнал уровня голода, на который реагируют специальные рецепторы. Эти рецепторы делают нейроны с позитивной валентностью более восприимчивыми к запаху пищи. Так и Румба не будет обращать внимания на сигнал от зарядной станции, пока у неё не сядет батарея.
Двусторонней симметрии, валентности, мозга и модуляции валентности в зависимости от внутреннего состояния уже хватило для пилотирования. Но эволюция шла дальше, и обеспечила нас эмоциями. Эмоциональное возбуждение добавляет новую размерность состояния организма.
Все человеческие культуры имеют подходящие слова для выражения этих комбинаций возбуждения и валентности. Младенцы всех народов смеются и плачут. Даже нематоды имеют аффективные состояния, хоть и в примитивном виде. Её матрица проста: там, где человек расстроен и страдает – нематода стремится сбежать, быстро двигаясь. Человек ликует – нематода медленно движется в процессе эксплуатации. Человек спокоен – сытая нематода неподвижна. Человек подавлен – в стрессе нематода тоже не движется.
Определяющей чертой этих аффективных состояний является их сохранение после исчезновения стимула. Это действительно для любого организма. И это имеет смысл: нужно продолжать искать еду, раз натолкнувшись на неё. Так и пилот сохраняет курс, увидев лишь проблеск в тусклом окне в ночной полёт. Мозг нематоды генерирует аффективные состояния с помощью специальных нейромедиаторов, с дофамином и серотонином в их числе. Нейромедиаторные нейроны работают скрыто, долго и широко и могут направлять активность всего мозга. Именно баланс разных нейромедиаторов и определяет аффективное состояние организма. Дофамин выделяется тогда, когда еда поблизости (состояние эксплуатации), а серотонин – когда она уже поглощена (насыщение). А что выделяется, когда надо сбежать? Адреналин, конечно. Что важно: все эти нейромедиаторные нейроны завязаны также на внутренние состояния организма.
Несмотря на расхожее описание дофамина как гормона удовольствия, он является сигналом не удовольствия, а его предвкушения, что было подтверждено экспериментально. Это имеет смысл: реакция нематоды на дофамин – замедление и поиск еды – является примитивной версией желания. В отличие от дофамина, серотонин снижает реакцию организма. Он успокаивает.
Стимулы негативной валентности включают выделение адреналина, октофамина и других стрессовых нейромедиаторов. Действие их подобно для всех билатерий: бейся или беги! При этом адреналин выключает энергопотребление многих процессов, направляя все ресурсы в мышцы. Сахар вытесняется из клеток, прекращается пищеварение, сдерживается иммунная система. Но так не может продолжаться долго. Поэтому приходится противостоять стрессу выделением специальных гормонов для того, чтобы приготовиться к тому, что будет потом. Например, опиоидов. Они включают обратно замороженные процессы и тормозят нейроны негативной валентности, что поможет отдохнуть и восстановиться после стресса. Некоторые процессы «роскоши», как то функции воспроизводства, будут оставаться подавлены. Но аппетит точно появится. Нематода, лишённая еды на протяжении всего 12 часов, съест в 30 раз больше еды, чем в состоянии обычного голода.
Опиоиды делают всё лучше, они усиливают реакции симпатии и ослабляют реакции неприязни, усиливают удовольствие и ослабляют боль.
Однако если стресса слишком много – мы можем сдаться. Так делает и нематода. И это имеет смысл: в состоянии ожидания консервируется энергия. Точный биохимический механизм хронического стресса недостаточно изучен даже у червей, но, как минимум, в одном отношении он отличается от острого стресса: он отключает возбуждение и мотивацию и включает выработку серотонина, погружая организм в состояние вялой депрессии. Пропадают желания, которые не появляются ещё долгое время после того, как удаётся выкарабкаться из кризисной ситуации.
Нам легче, чем нематодам. Мы можем принять лекарство и хакнуть систему. Однако это чревато возможным злоупотреблением веществами, что в наше время представляет серьёзную опасность для общества.
Зачем понадобились аффекты нашим далёким предкам? Вероятно, выделение нейромедиаторов стало особым ответом на два важнейших вопроса пилотирования: тратить ли энергию на движение или оставаться на месте. Как бы то ни было, впоследствии им пришлось решать более глобальные задачи.
12 декабря 1904 года Иван Петрович Павлов выступал перед шведскими академиками после вручения ему Нобелевской премии за исследования пищеварения. Да, он был физиолог, не психолог. Он изучал работу внутренних органов. Но большая часть его тогдашней речи была посвящена новому открытию: условным рефлексам. «Психическая стимуляция», как он называл их, мешала его исследованиям: его собаки часто начинали исходить слюной ещё до еды. И лишь позднее Иван Петрович пришёл к выводу, что она заслуживает особого внимания. В отличие от врождённых безусловных, условные рефлексы приобретаются и требуют ассоциации. Но, как и с безусловными, организм реагирует автоматически: собака не может не выделять желудочный сок, как и солдат, вернувшийся с войны, не может не пригнуться, услышав звук летящей мины.
Этот автоматизм заставил исследователей задуматься о более древней природе обучения и памяти. Для того, чтобы научиться, не нужны структуры мозга, появившиеся в позднем ходе эволюции. Даже нематода, которую заставили поголодать в солёной воде, избегает её впоследствии. Это говорит о том, что мозг, созданный для контроля движения, сразу оказался под эволюционным давлением. Ему потребовалось включить опыт в принятие решений.
В настоящий момент подавляющее большинство систем искусственного интеллекта не учатся непрерывно. Их обучают, после чего отправляют работать. Биологический мозг учится всегда. У наших предков не было иного выбора. Поэтому условный рефлекс может быть приобретён, но может быть и утерян. Если звонить и не кормить после этого, собака Павлова постепенно перестанет реагировать на звонок слюновыделением. Наступает истощение рефлекса. Однако стоит снова покормить раз-другой после звонка – и старый рефлекс быстро вернётся в процессе спонтанного восстановления. Эволюционно имеет смысл быстро вспомнить об ассоциации, чтобы быстрее отреагировать: причинные связи не всегда стопроцентно вероятны. Вот она, древняя память!
Но есть одна проблема: мы очень часто не можем быть уверены в причине наступившего события. Сенсорных стимулов много, и какой из них послужил настоящим предсказателем? В машинном обучении это назвали проблемой приписывания заслуги. Древний мозг животных с двусторонней симметрией выработал четыре простых, но эффективных средства её решения. Во-первых, он смотрит на предсказательный сигнал, непосредственно предшествовавший событию (за секунду до него, например). Во-вторых, берётся самый сильный сигнал. В-третьих, играет роль новизна информации. И в-четвёртых, если ассоциация установлена, то все остальные сигналы игнорируются. Так работает и наш супермозг, и примитивный мозг червя. Да, это не всегда работает оптимально. Но весьма часто. С ходом эволюции мозг разработал более сложные стратегии решения проблемы приписывания заслуги. Но об этом будет рассказано потом.
А пока осталось упомянуть о том, что современные исследования позволили пролить свет на природу обучения. Когда мозг учится, синапсы изменяют свою силу. Или же образуются новые синапсы. Или удаляются старые синапсы. Если связь слабая, то входной нейрон должен намного чаще выстреливать, чтобы активизировать выходной. При сильной связи может хватить даже нескольких активаций входа. Синапсы имеют несколько древних механизмов для усиления или ослабления связи. Например, связь усиливается при синхронной активации. Это установил ещё Дональд Хебб в сороковых годах прошлого столетия.
Как видим, способность нашего мозга изменять свои связи была унаследована нами от далёкого предка, жившего свыше 550 миллионов лет назад. Всё, что развилось потом, базируется на этой основе. Обучение не было главной задачей первого мозга. Он был заточен на управление движением. Но эта его фича оказалась трансформирована впоследствии, став основной функцией.
Фазиль Искандер давно подметил, что ожидание праздника – это уже праздник. Будем знать: предновогоднее настроение – это дофамин. А просмотр «Голубого огонька» – это уже серотонин.
На этом материале можно было бы сделать хороший выпуск КОАПП, и не один. Раньше, когда речь заходила о бионике, в голову приходили птичьи крылья или уши медузы. А сегодня она прочно связана, прежде всего, с кибернетикой. Потому что она сейчас бурно развивается. И будет оставаться на переднем крае науки ещё долгое время. Я на это надеюсь.