Томас Миколов — известный специалист по машинному обучению. Сейчас он работает в исследовательской группе Facebook, которая занимается искусственным интеллектом (Facebook AI Research).
Раньше Томас работал в Google, где научил нейронную сеть различать кошек на видео. Rusbase побеседовал с Томасом о том, следит ли соцсеть за пользователями, когда искусственный интеллект станет реальностью и как изменится Facebook через 30 лет.
— Как и почему вы перешли из Google в Facebook?
Я всегда увлекался искусственным интеллектом. Facebook занялась этим в 2013 году, когда открыла лабораторию по изучению ИИ (тогда объявлялось, что разработки будут применяться в основном для персонализации новостной ленты, — ред.). И я заинтересовался. Конечно, у Google были подобные проекты, но у Facebook оказались иные взгляды на некоторые вещи и более амбициозные цели. Они не ставили задачу решить все проблемы за 2-3 года, а подошли к ним основательно. Было видно, что Facebook будет работать над ИИ долгие годы.
— В каких процессах работы сети используются технологии машинного обучения? Это выдача ленты, или еще какие-то процессы?
Я вот работаю в команде искусственного интеллекта — но мы не связаны, например, с фид-лентой. Так что не знаю всех процессов. Вообще не могу сказать, что в Facebook есть какое-то ядро, которое разрабатывает технологии для всей соцсети. Есть много команд под разные задачи. Они могут использовать ИИ, а могут не использовать.
— Некоторые рядовые пользователи подозревают, что Facebook может их прослушивать, следить за ними. Насколько обоснованы их опасения?
И у Google, и у Facebook очень строгая политика приватности. При работе с данными пользователей запускается процесс деанонимизации: сотрудник не видит реальных имен, а только список ID и обезличенные данные. Чтобы получить к ним доступ, сотрудники проходят довольно сложную процедуру — нужно подробно обосновать причину и дождаться одобрения. Я прибегал к ней лишь однажды, когда работал в Google. Так что рядовым пользователям не стоит опасаться слежки.
Конечно, в мире есть группы людей, которые мечтают получить доступ к данным пользователей — это хакеры, правительства и прочие. Но Facebook и Google не предоставляют данные правительствам — они и так зарабатывают много денег, зачем им несколько лишних миллионов от властей? Испортив репутацию, они потеряют пользователей.
Около года назад появились слухи о том, что Агентство национальной безопасности пыталось получить какие-то данные от Google с помощью прослушки. Google ответила на это улучшением защиты своих линий связи.
Когда алгоритм (без участия человека) анализирует обезличенные данные пользователей, это не может считаться нарушением приватности. Запоминая ваши запросы, он предлагает вам больше интересной информации и отсекает нерелевантную рекламу. Это экономит ваше время и выгодно обеим сторонам. Вот зачем ИТ-компании хранят такое огромное количество данных.
— Какие мировые компании вы считаете лидерами в сфере машинного обучения?
Во-первых, это Google, которая давно работает над искусственным интеллектом. Она использует машинное обучение во многих своих сервисах, в частности в поиске. Огромный проект по машинному обучению есть у IBM, он направлен на более традиционную сферу. Еще есть Microsoft, они тоже находятся в топе исследований по машинному обучению, у них работает очень много хороших специалистов.
Я знаю, что над машинным обучением работает еще и Apple. У них много денег, но пока не совсем ясно, что именно они делают. Вряд к ним сейчас пойдут лучшие специалисты по машинному обучению. Присоединившись к Apple, они уже не смогут публиковать результаты своих разработок, а для исследователя это очень важно.
— Компании как-то обмениваются своими наработками по машинному обучению или каждая заново изобретает велосипед?
Я работал в Microsoft, Google и Facebook, и могу сказать, что все они очень открыты. Каждый раз, когда исследователи добиваются значимых результатов, они стараются сразу их опубликовать. Мы в Facebook публикуем практически всю информацию, которую находим нужной для других, рассказываем о своей работе на мероприятиях, ничего не прячем. Некоторые компании, такие как Apple и Amazon, ведут себя более скрытно.
В последнее время крупные корпорации выкладывают в открытый доступ библиотеки инструментов для машинного обучения (TensorFlow от Google, DMTK от Microsoft). Означает ли это, что в данной профессии стало больше рутины и меньше творчества?
Да, происходит некая стандартизация. Если посмотреть на историю программирования, люди сначала экспериментировали, а потом появились языки, стандарты и шаблоны. Это происходит и с машинным обучением.
Полуавтоматические программы выполняют сложные задачи, которые не под силу человеку. Например, мы на самом деле не знаем, как правильно написать программу распознавания речи или изображений. Машинное обучение позволяет задать много примеров и определенный фреймворк, и программа автоматически учится интерпретировать изображения.
— Чтобы попасть в мир машинного обучения, обязательно идти в университет или можно освоить профессию самостоятельно — например, с помощью Coursera и таких хакатонов, как DeepHack?
Сложный вопрос. Думаю, что все составляющие важны. Учебные заведения дают возможность общения с лучшими профессорами, которые достигли серьезных научных результатов. Университеты дают более качественное образование, но не дают свободно экспериментировать. Например, если твоя работа идет вразрез с привычными представлениями, тебе даже могут не дать PhD.
Альтернатива университетам — самообучение. Я посвятил этому много времени, проходил различные курсы. Лучше всего, когда академическое образование сопровождается самостоятельной подготовкой.
— Какие проблемы в сфере машинного обучения сейчас больше всего интересуют специалистов?
Исследователи сейчас много спорят о том, что делать дальше. Нам всем хочется поскорей добиться удивительных результатов. Чтобы искусственный интеллект решал за людей крутые задачи. Вопрос в том, как мы придем к этому.
Некоторые по 20 лет работают над одной небольшой проблемой в сфере машинного обучения и не интересуются большими задачами. А молодые специалисты мыслят шире — например, думают не об улучшении распознавания речи, а о создании универсального ИИ.
Вопрос в том, где мы сейчас, что мы упускаем и что нам нужно делать? Одни исследователи убеждены, что все необходимые технологии для создания искусственного интеллекта уже разработаны, нужно просто применить их в большем масштабе. Другие считают, что лучше концентрироваться на мелких задачах.
Также специалистов очень смущает пропасть между обучением машины и человека. Машинное обучение часто основано на огромных массивах данных, в тысячи раз больших, чем может усвоить человек за всю жизнь. При этом человек все равно эффективнее (хотя в некоторых вещах машины могут быть лучше).
Кстати, умный алгоритм необязательно должен видеть в тысячи раз больше примеров, чем человек, чтобы научиться что-то распознавать. Чтобы программа приблизилась к способностям человека, недостаточно просто создать более крупные модели с более вместительными базами данных. Тут нужны более тонкие настройки и новые открытия.
— В 70-е годы прошлого века многие ждали, что вот-вот появится искусственный интеллект. Потом все как-то затихло. Сейчас эта волна снова поднимается. А как вы думаете, когда станет возможен полноценный искусственный интеллект?
Да, случаются скачки интереса к ИИ. Когда исследователи совершают некий прорыв, они увлекаются и начинают давать нереалистичные обещания. В итоге обыватели начинают бояться восстания машин. Но человечеству рано волноваться по этому поводу — машины еще нескоро научатся сами ставить себе цели. Можно возразить, что никто не знает, когда это произойдет, а потом может быть поздно. Я уверен в том, что в ближайшие годы этого не случится — этому препятствуют фундаментальные проблемы, на решение которых уйдут десятки лет.
Например, в распознавании речи, изображений, машинном переводе мы добились впечатляющих результатов. Эти темы существовали и 10 лет назад, но сейчас у нас новое оборудование и новые подходы. Но для создания полноценного искусственного интеллекта нам не хватает фундаментальных вещей. Если вы хотите знать мой прогноз, то я скажу, что это может произойти как через 10, так и через 100 лет.
Источник: http://rb.ru/interview/tomas-mikolov/