[RU] a talk with Dmitry Vertrov

Here goes a transcript of my talk with Dmitry Vetrov. Dmitry is a research professor in the Department of Computer Science, Higher School of Economics, and Head of the Bayesian methods research group. This is originally posted as a Habr.com article.

В рамках открытого курса по машинному обучению мы продолжаем общаться с заметными представителями этой области. Нашими первыми собеседниками были Александр Дьяконов, Константин Воронцов и Евгений Соколов, см. видео в YouTube-канале курса. В этот раз мы пообщались с Дмитрием Ветровым.

Добрый день! Сегодня у нас в гостях Дмитрий Петрович Ветров — профессор-исследователь факультета компьютерных наук и руководитель исследовательской группы байесовских методов. Дмитрий Петрович продолжает читать курсы на кафедре математических методов прогнозирования ВМК МГУ, на которой он в свое время учился. Так получается, может быть случайно, что мы уже встречались и общались с Александром Дьяконовым, Константином Воронцовым, Евгением Соколовым, и вот вы уже четвертый представитель кафедры математических методов прогнозирования ВМК МГУ. Расскажите, как вы оказались все вместе, работали ли вы вместе над каким-либо проектом, как вас жизнь раскидала, и общаетесь ли Вы сейчас с коллегами?

Конечно, мы активно общаемся. Мы все вышли из одной научной школы академика Журавлева, который и основал в 1997 г. кафедру математических методов прогнозирования на ВМК. На ней активно преподавали и частично преподают сейчас Константин Вячеславович, Александр Геннадьевич, Евгений Андреевич и ваш покорный слуга. Касательно работы над совместными исследованиями, мне кажется, это была моя главная ошибка. Я 5 лет занимал пост ученого секретаря кафедры, осуществлял оперативное управление кафедрой и за это время так ни над каким исследовательским проектом вместе мы и не поработали. Казалось, времени много, еще успеем поработать, но получилось, что жизнь нас начала раскидывать. Константин Воронцов сконцентрировался на работе на Физтехе, Александр Дьяконов ушел в индустрию, мы с Евгением Соколовым основные усилия перенесли на факультет компьютерных наук НИУ ВШЭ. В итоге мы проработали в одном подразделении несколько лет, вместе преподавали, общались, но никаких совместных исследований так и не провели. Сейчас я об этом жалею. Я многому научился у своих коллег, но мог бы научиться большему…

То есть ваше сотрудничество заключалось скорее в преподавании, да?

Да. И поэтому, несмотря на то, что жизнь нас раскидала, на мой взгляд, кафедра математических методов прогнозирования сегодня является сильнейшей на ВМК и, чем могу, я ей стараюсь помочь. Мы по-прежнему читаем там курсы: и Дьяконов, и Соколов, и Воронцов, и Ветров. То есть хоть мы аффилиацию с кафедрой и потеряли, но продолжаем участвовать в ее жизни, хотя, конечно, не так как раньше.

Ну наверное, если говорить о теоретическом машинном обучении, сейчас лучшее образование дает именно кафедра математических методов прогнозирования. Если сравнивать с теми же ФКН, где много курсов скорее практических… Тут можно вспомнить статью Константина Вячеславовича на MachineLearning.ru, как преподавать вообще машинное обучение. Мое субъективное ощущение, что теоретическая база самая мощная дается именно на ВМК.

Я бы так категорично не рассуждал. На сегодняшний день есть много мест, где очень неплохо учат машинному обучению: на том же ВМК, на ФКН на специализации «Машинное обучение и приложения», в ШАДе и на Физтехе. Мне сложно сказать где программа более теоретическая, а где более прикладная.

А вот Вы перешли из МГУ в ВШЭ, что если в целом сравнить эти два ВУЗа? ВШЭ, пожалуй, многие критикуют за западнический настрой и в целом за ориентацию на западную научную систему, базы научного цитирования Web of Science и Scopus… Вообще тут у Вышки такая двойная игра: с одной стороны, много заказов государства на исследования, а с другой стороны — гонка за публикациями в лучших журналах, на лучших западных конференциях. У Вас как раз все это получается, Вы публикуетесь в лучших журналах, на топовые конференции по машинному обучению ездите. Как бы Вы ответили на такой скорее философский вопрос: как нам догонять запад? Стоит ли ориентироваться на их ценности, на публикации в их журналах? Или все-таки если все время догонять, то мы их никогда и не обгоним?

Смотрите, во-первых, я бы вас поправил. Вы говорите: «западный, западный…». Это вовсе не западный, давно уже не западный — это мировой тренд в развитии науки. Во-вторых, специфика развития науки в нашей стране как по объективным, так и по субъективным причинам, заключалась в том, что во многих отраслях наука была изолирована от мировых трендов. И машинное обучение увы к ним относилось. Мне кажется, что любые формы научной изоляции вредны именно для того сообщества, которое себя изолирует от остального мира. Поэтому я всецело выступаю за максимальную интеграцию. Но не с западным сообществом, повторюсь, а с мировым. Есть много исследователей мирового уровня из Китая, Индии, Японии… Если мы хотим продолжить достижения в науке мировой, быть на переднем крае, то, конечно, нужно следить за международными конференциями, журналами, и, естественно, публиковаться там. На мой взгляд, интеграция в мировое научное сообщество даст возможность на эти передовые позиции выйти и, возможно, даже стать лидерами в отдельных направлениях. Сейчас для всех стало очевидно, что российское научное сообщество в области машинного обучения отстало лет на 10-20 от мировых трендов. Это очень печально. Фактически, это означает, что эту область научную надо с нуля выстраивать заново. И основной причиной такого отставания явилась самоизоляция от мирового научного сообщества. Догонять нам его надо — выбора все равно нет. И да, ничего лучшего чем ориентироваться на мировые научные стандарты проведения исследований (с четким следованием научному методу, грамотным дизайном эксперимента, анонимным рецензированием, непрерывным чтением научных статей, чтобы быть “в теме”, и пр.) человечество пока не придумало. Любые попытки что-то противопоставить этим стандартам ведут к отставанию и постепенной деградации. При этом у нас есть свои конкурентные преимущества: высокий уровень математических знаний у абитуриентов и студентов, ряд инициатив индустрии, направленных на преподавание современных методов машинного обучения. Появились новые проекты типа организации школьных и студенческих олимпиад по анализу данных. Это очень хорошие мероприятия, которые дают основания для осторожного оптимизма. Очень жаль, что все эти начинания проходят не благодаря, а, часто, вопреки Российской академии наук, которая, казалось бы, должна была возглавить этот тренд. Поэтому я считаю, что науку в области искусственного интеллекта в России надо выстраивать заново “с нуля”. Есть места, где из вас сделают толковых специалистов и решателей прикладных задач, но практически нет мест, где из вас сделают разработчика новых технологий машинного обучения. Заниматься же тем, что вечно реимплементировать технологии, разработанные в гугле, как многие компании делают, мне кажется, скучно и у меня есть ощущение, что мы можем больше. Что касается того, что я публикуюсь на ведущих конференциях… Я считаю, что публикуюсь мало, недоволен текущей публикационной активностью. Хочется делать это намного более интенсивно и мы активно работаем над этим.

И все же, сейчас часто бывает так, что даже зарплата ученого, его научная репутация зависят от цитируемости, в частности в Web of Science и Scopus. Кажется, что у этой системы те же недостатки, как у экзаменов, того же ЕГЭ. Несмотря на недостатки, все равно нужно ориентироваться на публикации и на индексирование в базах научного цитирования?

Поясните, пожалуйста…

*Мне кажется, в скором времени научное сообщество научится как-то лучше оценивать вклад ученых. Допустим, как-то на основе алгоритма PageRank. Ведь сейчас даже не учитывается контекст цитирования и эмоциональный окрас. Допустим, я сейчас Вас процитирую, но скажу, что вообще не согласен с написанным и вообще все это какая-то ерунда. С нынешней системой это все равно учтется как +1 к числу цитирований Ваших статей. Какие Вы видите варианты совершенствования системы оценки вклада исследователя? *

Даже если Вы процитируете меня с негативными эмоциями, сам факт этого цитирования будет означать, что мои исследования как-то повлияли на Вашу работу. Цитируемость определяет очень простую вещь: то, что сделал человек, кому-то нужно, кто-то это использует, пусть даже с негативными эмоциями. Это лучше, чем отсутствие цитат совсем. Это первое. От количества цитирований, зарплата сотрудников Вышки не зависит. Она определяется уровнем публикации, то есть уровнем издания, в котором ваша работа опубликована. Это второе. С цитированием можно делать что угодно, можно, например, самоцитированием заниматься. Но, поднять уровень издания, в котором у тебя опубликована статья, невозможно в принципе. Ни за какие деньги, ни через связи… Вы не можете “попросить” опубликовать Вас на ведущей конференции — туда надо пробиться сквозь строгую систему рецензирования и отбора. Кстати, то что зарплата ученого определяется исходя из уровня издания, в котором он публикуется, — это не только для Вышки характерно, в МГУ и физтехе то же самое. Дальше вопрос: как определить какие издания считать хорошими, а какие плохими. Вопрос критически важный. Любые ошибки в определении этого приводят к тому, что исследователи начинают ориентироваться на неверные цели. Например, вместо того, чтобы профессионально расти и публиковаться на все более престижных конференциях, они начинают гнаться за все большим числом публикаций в “мусорных” журналах. И, к примеру, к критериям, введенным в МГУ, у меня есть вопросы. Они почти не поощряют профессиональный рост ученого, зато поощряют его имитацию. Я вижу, что систему можно обойти, например, сделав некачественную публикацию, для того, чтобы получить большую премию. И это происходит сплошь и рядом. Систему Вышки обойти значительно сложнее как раз потому что она с учетом рейтингов изданий составлена, хотя допускаю, что тоже возможно.

Если говорить о международных конференциях уровня ICML и IJCAI, то одна из ваших работ с коллегами про байесовское прореживание глубоких сетей (“Variational Dropout Sparsifies Deep Neural Networks”, arxiv), опубликованная на ICML, получила много откликов от научного сообщества. Можете рассказать про нее, — это такой небольшой градиентный шажок в развитии науки или это революционная вещь? Как теоретически и практически это поможет развитию глубокого обучения? И вообще можно поговорить про байесовские методы в глубоком обучении. Или в глубинном :)

Давайте не будем говорить про революционный вклад. Кажется, что революционных статей можно по пальцам пересчитать. Мы сделали шаг в нужном направлении, направление это, на мой взгляд, технически важное, обладающее значительными перспективами. Это то, что мы в нашей группе пытаемся делать — скрестить байесовский подход к машинному обучению с глубинными нейронными сетями. А та работа, которую Вы упомянули, действительно определенный интерес вызвала в научном сообществе. Мы взяли известную процедуру регуляризации нейронных сетей — дропаут, и основываясь на работе наших коллег из университета Амстердама, которые показали, что дропаут можно рассматривать как байесовскую процедуру, предложили ее обобщение. Оно включает в себя и обычный дропаут как частный случай, но также позволяет автоматически с помощью вариационного байесовского вывода настраивать интенсивность дропаута (dropout rate). То есть вероятность, с которой в нашей сети выкидывается каждый вес или каждый нейрон, подбирается не на глаз или с помощью кросс-валидации, а автоматически. Как только мы научились это делать автоматически, появилась возможность ввести индивидуальный dropout rate для каждого веса в нейронной сети и оптимизировать функционал по всем этим параметрам. В итоге такая процедура приводит к поразительным результатам. Оказывается, что свыше 99% весов может быть просто удалено из сети (т.е. их dropout rate становится равен единице), при этом качество работы на тестовой выборке не проседает. То есть мы сохраним высокую обобщающую способность, низкую тестовую ошибку, но при этом нейронную сеть можно будет сжать в 100, а то и 200 раз.

Это значит, интенсивность дропаута можно подобрать даже аналитически?

Не аналитически, конечно, но тут самая обычная оптимизация. Здесь строго был задан функционал, который возникает естественным образом из процедуры байесовского вывода. Наш результат говорит о том, что мы двигаемся в правильном направлении. Известно, что современные нейронные сети сильно избыточны, но непонятно, как эту избыточность устранить. Попытки, конечно, были, например, взять сеть поменьше, но качество при этом проседало. Поэтому сейчас, кажется, более правильный способ — это взять избыточную нейронную сеть, обучить ее, а потом устранить избыточность с помощью процедуры байесовского дропаута.

Понятно. А вот более общий вопрос. Как Вы видите перспективы развития байесовских методов применительно к глубинному обучению? Какие тут возможны проблемы?

Современные глубинные нейросети обучаются, по сути, методом максимизации правдоподобия, про который из статистики известно, что это оптимальный метод при определенных условиях. Вся проблема в том, что та ситуация, которая возникает с обучением глубинных нейронных сетей, не удовлетворяет тем условиям, которые гарантируют оптимальность метода максимального правдоподобия. Условия очень просты. Необходимо, чтобы количество обучающих примеров, по которым производится настройка параметров алгоритма машинного обучения, было намного больше количества этих параметров. В современных глубинных сетях это не так. И метод максимального правдоподобия применять можно, но на свой страх и риск, без каких-либо гарантий. Оказывается, в такой ситуации, когда число весов сравнимо или даже больше объема обучающей выборки, на смену частотному подходу с классическими методами оценивания, приходит байесовская статистика. Байесовские методы можно использовать при любых объемах выборки, вплоть до нулевых. Можно показать, что если объем выборки по отношению к числу оцениваемых параметров стремится к бесконечности, то байесовский подход переходит в метод максимизации правдоподобия. То есть классический и байесовский подходы друг другу не противоречат. Наоборот, байесовскую статистику можно рассматривать как обобщение классической на более широкий класс задач. Применение байесовского подхода к глубинному обучению приводит к тому, что у нейросети появляется ряд дополнительных преимуществ.

Во-первых, появляется возможность работать с пропусками в данных, то есть когда в обучающей выборке у каких-то примеров значения каких-то признаков не указаны. Наиболее подходящий способ работы в такой ситуации — как раз байесовская вероятностная модель.

Во-вторых, обучение байесовской нейронной сети можно и нужно рассматривать как вывод распределения в пространстве всевозможных сетей, к которым можно применять технику ансамблирования. То есть мы получаем возможность усреднять прогнозы сразу многих нейронных сетей, полученных из апостериорного распределения в пространстве весов. Такое ансамблирование в полном соответствии с байесовской статистикой приводит к повышению качества относительно использования одной (пусть самой лучшей) нейросети.

В-третьих, байесовские нейронные сети значительно более устойчивы к переобучению. Переобучение — это сейчас одна из острейших проблем машинного обучения, и в публикациях 2016-17 гг. показано, что современные архитектуры нейронных сетей катастрофически подвержены переобучению. А байесовские нейронные сети практически не переобучаются. Особенно примечательно как меняются наши представления о регуляризации по мере развития байесовских методов. Классическая регуляризация это просто добавление к оптимизируемому функционалу дополнительного слагаемого — регуляризатора. Например, это может быть норма настраиваемых параметров. Регуляризатор смещает точку оптимума и частично помогает справиться с переобучением. Сейчас мы понимаем, что можно (и нужно) проводить регуляризацию иначе: добавляя шумы в процесс оптимизации функционала, который не позволит методам стохастической оптимизации сойтись в точное значение оптимума. Самые успешные на сегодня методы регуляризации, например, дропаут или батч-нормализация работают именно так. Это не добавка регуляризатора в функции потерь, а контролируемый впрыск шума в задачу. Это совсем другой взгляд на регуляризацию алгоритмов машинного обучения! Но вот какова должна быть интенсивность этого шума, куда его надо добавлять? На этот вопрос корректно можно ответить применив процедуру стохастического вариационного вывода в байесовской модели нейронной сети.

В-четвертых, потенциальная устойчивость к тому, что называют adversarial attacks, когда мы искусственно создаем примеры, вводящие нейронную сеть в заблуждение. Одну сеть можно обмануть, можно и 10 сетей обмануть, но не так-то просто обмануть континуум нейронных сетей, которые получаются в результате байесовского вывода в процесс обучения. Я думаю, комбинирование нейросетевого и байесовского подходов исключительно перспективно. Там есть красивая математика, удивительные эффекты и хорошие практические результаты. Пока у нас недостаточный байесовский инструментарий для того, чтобы проводить эффективный байесовский вывод. Но необходимые для этого масштабируемые методы приближенного байесовского вывода сейчас активно развиваются в мире.

А вот просто уточнение. Верно ли суждение, что дропаут можно рассматривать как переход к распределению над нейронными сетями, и тогда результатом обучения при применении дропаута будет ансамбль нейронных сетей?

Да. И в исходной формулировке дропаута мы тоже приходим к ансамблю нейросетей, но не понятно, откуда этот ансамбль взялся. Если же переформулировать дропаут в терминах байесовского вывода, то все встает на свои места. Становится понятно, как его настроить и как автоматически выбрать интенсивность дропаута (dropout rate). Более того, у нас сразу появляется ряд возможность для обобщения и видоизменения исходной модели дропаута.

А могут ли байесовские методы предложить некое что ли понимание того, что вообще происходит при обучении нейросетей? В частности, сейчас настройка гиперпараметров сети — это некая эвристическая процедура, методом проб и ошибок мы как-то понимаем, что в одной ситуации нужно BatchNorm добавить, в другой — дропаут слегка подкрутить. То есть пока мы далеки от теоретического понимания того, как многочисленные гиперпараметры влияют на обучение нейронных сетей. Тут байесовские методы могут предложить новый взгляд?

Давайте я уточню. Вопрос про наше понимание того, как нейросети принимают решения или как они решают оптимизационную задачу? Это важное отличие.

*Во-первых, за что отвечают гиперпараметры и как это влияет на обучение. Это первое наше непонимание. Второе — это возможны ли все-таки какие-то теоретические гарантии на ошибку обобщения в случае нейронных сетей? Насколько мне известно, вычислительная теория обучения пока применима к перцептронам и сетям с одним скрытым слоем, но бессильна, как только мы переходим к глубоким нейронным сетям. В частности, те же adversarial attacks показывают, что мы пока плохо понимаем, насколько нейронные сети способны к обобщению. То есть поменяли буквально один пиксель, и вот уже нейронная сеть говорит, что пингвин не пингвин, а трактор. Ведь это катастрофа, если так подумать! Даже несмотря на прекрасные результаты сверточных сетей на ImageNet. Могут ли байесовские методы и тут что-то предложить? *

Много вопросов, давайте по порядку. Про устойчивость к adversarial-примерам я уже говорил, байесовские нейронные сети более устойчивы к таким атакам, хотя проблем все равно есть. Причина этой проблемы на самом деле понятна. Все adversarial-примеры это крайне нетипичные с точки зрения генеральной совокупности (на которую и настраивается нейронная сеть, неважно, байесовская она или нет). То что мы визуально не видим отличий от исходной картинки не означает, что их нет. А на нетипичных объектах ответ любого алгоритма машинного обучения может быть произвольным. Отсюда логически вытекает способ борьбы с adversarial-примерами, но это совсем другая история…

Что касается статистической теории обучения и гарантий на обобщающую способность: действительно ситуация сейчас такая, что на современные нейросети результаты теории не переносятся, это все понимают, поэтому специалисты по статистической теории обучения активно работают на тем, чтоб новые методы были применимы и к глубинным нейросетям. Надеюсь, мы это увидим в ближайшие годы. Можно ли определять архитектуру сети с помощью байесовских методов? Ответ: гипотетически можно, практически — сейчас в мире делают первые шаги. Байесовское прореживание тоже можно рассматривать как выбор архитектуры нейросети. Для того, чтобы на этот вопрос более полно ответить, необходимы новые инструменты, в частности, нужно перевести на байесовский язык прочие способы регуляризации, например, батч-нормализацию. Очевидна потребность в этом, очевидно желание. Такие работы ведутся, но пока успех не достигнут. Надеюсь, что это вопрос времени.

И по сути главное преимущество байесовского подхода — это автоматическая настройка гиперпараметров. Чем больше процедур построения нейронных сетей мы переводим на байесовские рельсы, тем больше возможностей появляется для автоматического подбора топологии нейросети. Ну и последний вопрос про то, почему нейронная сеть принимает то или иное решение… Это вопрос, на который мы вряд ли сможем получить исчерпывающий ответ в ближайшее время. С моей точки зрения, одна из самых перспективных техник, для понимая того, что происходит в нейронных сетях, это то, что называют механизмом внимания. Часть этого механизма тоже построена на байесовских принципах, но эти методы пока достаточно сырые. Я надеюсь, что в ближайшее время удастся достигнуть уровня, на котором будет понятно, что происходит с нейронными сетями. Тем не менее, ряд косвенных экспериментов, в том числе, проведенных в нашей группе, свидетельствует, что компьютер понимает смысл данных гораздо лучше чем принято считать. В некоторых случаях можно заставить компьютер выразить свое понимание на человеческом языке. Об одной из таких моделей и о невероятных эффектах, которые мы в ней пронаблюдали, я расскажу на своем ближайшем публичном выступлении. Я думаю, это может быть один из способов понять логику работу нейронной сети — она сама должна сгенерировать объяснение, почему было принято то или иное решение.

Хорошо, а байесовские методы как-то получают подпитку от наблюдений за человеческим мозгом? В частности, у нас в мозге задействуются далеко не все нейронные связи, и это могло послужить мотивацией для техники дропаута. Вы знаете такие случаи, когда исследования в области нейрофизиологии послужили источником новых идей именно в сфере байесовской статистики?

Ну, во-первых, сразу развею популярное заблуждение, что искусственные нейронные сети якобы моделируют работу человеческого мозга. Нет. Это не так. Никакого отношения к человеческому мозгу они не имеют. Точнее, раньше, когда искусственные нейронные сети только появились, они ассоциировались с человеческим мозгом. Но сейчас мы понимаем намного больше и в машинном обучении, и в нейрофизиологии, и можно смело заявить, что это разные механизмы. Искусственная нейронная сеть — это отдельная модель, имеющая не больше общего с биологическим мозгом чем, скажем, решающее дерево. С другой стороны, есть немало психологических исследований, которые показывают, что человеческий мозг в значительной мере работает по байесовским принципам. Я не готов это детально комментировать, но такое мнение есть.

Хорошо, переведу разговор немного в другую область. Я в школе изучал, конечно же, математику, физику, разные науки и быстро понял, что формулы в моей голове усваиваются просто сразу, раз и навсегда. Если я однажды узнал, что такое импульс, мне потом не нужно вспоминать, что это такое импульс — масса, умноженная на скорость или на скорость в квадрате. А по истории у нас были потрясающие лекторы и в школе, и в вузе. На Физтехе, например, у нас могла быть даже такая ситуация, что на лекции по специальности, архитектуре ЭВМ, например, присутствовало 15 человек, а на следующей лекции по истории — голова на голове, вся аудитория забита. Все дело, конечно, в лекторе, он еще и актер блестящий, люди чуть ли не с попкорном на его лекции приходили — каждый раз как спектакль. Но, к сожалению, историческая информация у меня очень плохо воспринималась. В одно ухо влетело — в другое вылетело. Вроде по 3 раза и отечественную, и зарубежную историю проходили, прямо от Рюриковичей до Романовых, но все это у меня просто мгновенно вылетало. Про Вас я знаю, что Вы читали лекции по истории, как в МГУ так и на ФКН. Расскажите, как Вы поняли, что Вы можете и историей заниматься, и прикладной математикой, что эти два мира могут сосуществовать у Вас в голове. И как Вы сейчас поддерживаете этот интерес к истории?

Ну во-первых, важно понимать, что исторические лекции, которые я читаю, являются исключительно любительскими и не претендуют ни на что, кроме как вызвать интерес и самостоятельно изучить ту или иную тему. Я не занимаюсь историей как наукой. Интерес к истории у меня появился еще в школе. Одна из причин моего интереса заключается в том, что человек, знающий историю, в каком-то смысле расширяет свою обучающую выборку. Он видит, что многие проблемы, с которыми сталкивается человечество, не новы — с ними сталкивались другие люди, поколения, государства. Человек видит, как люди действовали, и к чему это приводило. То есть, он немножко обогащает свой опыт.

Откуда взялись исторические лекции… ответ простой. Из опыта общения со своими студентами я понял, что ребята не знают из истории практически ничего, и мне показалось, что у них появится интерес, если я об этом немного расскажу. Хотя бы для того, чтобы люди могли отличать факты от той лапши, которую нам некоторые средства массовой информации вешают на уши. С одной стороны, историю можно изучать и преподавать, чтобы не допускать ошибок прошлого. С другой стороны, существует мнение, что историю нужно преподавать для воспитания патриотизма. С моей точки зрения, для студентов элитных университетов, история нужна именно по первой причине, а не для того, чтобы воспитывать свой патриотизм. Есть много других способов для воспитания последнего, например, спорт. Но слишком велика цена, которую мы платим, воспитывая патриотизм интеллектуальной элиты посредством преподавания “патриотической” истории. В таком случае исторические события и факты искажаются, чтобы вписаться в патриотическую парадигму, у граждан формируется сознание собственного превосходства над другими нациями и странами, чувство, что “нам все должны”. Никогда и нигде это не заканчивалось ничем хорошим.

Диссертацией Мединского, скажем…

Ну это уже клинический пример, который в комментариях не нуждается. Мне нечего добавить к мнению экспертов ВАК, рекомендовавших лишить его ученой степени… Так вот в своих лекциях я стараюсь показать, что на историю надо смотреть без патриотических шор и тогда она становится намного интереснее и многограннее. Есть объективные исторические процессы, в которых нет правых и виноватых, история, она не черно-белая — она серая. Все действующие лица преследуют те или иные корыстные интересы. А то что эти правы, а эти нет — это всего лишь попытка подогнать историю под идеологию. Вот в надежде хотя бы частично такие шоры снять у молодежи я свои лекции и читаю. Но это не подача какой-то объективной истины, а скорее попытка пробудить в студентах интерес и желание обратиться к историческим источникам и разобраться во всем самим.

А как вы думаете, найдется ли некий математический порядок в истории? Нет, я, конечно, знаю, что несмотря на некоторую критику, история — это наука, и все методы, в ней применяемые — они чисто научные. Но, тем не менее, возможно ли установление каких-либо исторических законов? Или история так и будет описанием жизнедеятельности, больше похожим на летопись? В качестве примера приведу историка Григория Квашу. Он выделяет исторические циклы развития — по 12 лет, 36, 144… К примеру, если посмотреть на XX век, то раз в 12 лет происходят довольно интересные исторические события. 1905 год — революция, 17 год — революция, 29 год — кризис и НЭП, 41 — начало войны, 53 — смерть Сталина, 65 год — СССР танки ввел, кажется…. Ну понятно… с моей точки зрения это типичный подгон, факты всегда можно наложить на любую желаемую закономерность. Но как Вы считаете, могут ли иметь успех такие попытки найти некие законы в истории, как в математике?

Ну как человек, владеющий научным методом, я не могу всерьез комментировать нумерологию :) Отмечу лишь, что каждый раз, когда возникает какая-то красивая теория, возникает большой соблазн подогнать под нее факты. Было бы желание, можно было бы найти и 13- и 14-летние циклы. Тем не менее, это не отменяет моей мечты и надежды на то, что в истории, со временем, начнет развиваться формализм, который позволит нам фундаментальные законы исторического развития формулировать. Конечно, не в нумерологических терминах. Это такая моя стратегическая мечта… Историки в подавляющем большинстве не согласны, по крайней мере, те, с которыми я общался. Они рассматривают историю как описание событий прошлого, их систематизацию, но не для того, чтобы вывести универсальные законы. Они считают, что универсального закона нет. Мне кажется, что такие законы есть, потому что я вижу, что в истории регулярно возникают похожие события, а похожие действия приводят к похожим результатам. Это приводит к мысли, что существуют универсальные законы развития общества, и их знание позволит не просто лучше описывать события прошлого, но и прогнозировать развитие будущего. Тут я вдохновлен циклом романов Айзека Азимова, в которых одному из главных героев, кстати, математику, удалось вывести такие фундаментальные законы, спрогнозировать будущее и даже предложить способы его корректировки, чтобы уменьшить ущерб от неизбежных войн и социальных катастроф. Это, конечно, сказка. Но сказка очень красивая. Та сказка, в которую очень хочется верить. Но для того, чтобы эти законы пробовать в реальной жизни установить, необходимо значительно переработать методологию исторических исследований. Пока коллег-историков не удается убедить даже простейшие методы семантического анализа и тематического моделирования применить к историческим текстам и хроникам. Кажется, что тут мы страдаем от своеобразного пренебрежительного отношения представителей многих гуманитарных наук к математике и их нежелания осваивать современные методы автоматизированной обработки больших объемов информации. К сожалению, это пренебрежительное отношение продолжает культивироваться в гуманитарных сообществах. Это глубокая ошибка. Никто не будет за гуманитариев применять математические методы обработки информации в их дисциплинах. Они должны сами понимать границы применимости методов и грамотно использовать их. Для этого мы в Вышке запустили специальный цикл образовательных курсов Data Culture, чтобы научить гуманитариев современным математическим методам работы с данными.

Недавно ваша исследовательская группа в Сколтехе получила мегагрант от Правительства на развитие, и в частности, там Ваша группа байесовских методов в этом как-то участвует, грант РНФ получила. Расскажите, почему мы в России так плохо выбиваем гранты. Вот на Западе эта система очень развита. Там очень много таких мегагрантов, бюджет проектов идет на миллионы, когда ты действительно работаешь над большим многолетним проектом, можешь культурно набрать себе аспирантов, постдоков. У нас, конечно, гранты РФФИ, РНФ… — это кот наплакал. И вот конкретный пример, когда ваша исследовательская группа получила мегагрант. Расскажите, как вам это удалось и как вы планируете развиваться в рамках проекта?

Я вас сразу поправлю. Вы говорите, что в России плохо выбивают гранты. Дело не в том как их выбивают, дело в их количестве и уровне экспертизы при распределении грантов. Вопрос о количестве следует адресовать министерству образования и науки. С экспертизой тоже есть проблемы. Чиновники не могут ее качественно провести в силу отсутствия понимания, что такое хорошее исследование, а что такое плохое исследование. А многие отечественные ученые не могут ее качественно провести в силу неправильного понимания этого. Сейчас лучшая научная экспертиза достигается в ведущих, подчеркиваю в ведущих, а не просто из списка Web of Science, международных журналах и на ведущих конференциях. Мне кажется, что проблемы с экспертизой можно было решить формальными критериями по публикациям коллектива. Но это тоже в компетенции министерства образования и науки находится.

Далее я вас тоже поправлю касательно мегагранта. Мегагрант получен в Сколтехе институтом науки и технологий — коллективом из нескольких исследовательских групп, и мы - лишь одни из множества участников, причем не основные.

Как гранты получать? Мне сложно сказать, тут у меня большого опыта нет, тот же грант РНФ мы на свою группу получили то ли с третьей, то ли с четвертой попытки. Но у меня рецепт простой. Нужен план исследования, чем лучше он систематизирован и последователен, тем больше шансов. Ты убеждаешь рецензента, который будет твою заявку смотреть, что ты понимаешь, о чем пишешь, понимаешь, что будешь делать и как разные пункты плана связаны друг с другом. Это далеко не всегда легко сделать. Не всегда понятно, какие результаты получатся в том или ином под-исследовании, на что можно будет опереться на следующих шагах, а на что нет. Но тем не менее, какую-то целостную картину в голове держать нужно. Мне кажется, сильно повышает шанс получения гранта обзор того, что происходит в мире. Хороший литературный обзор показывает, что коллектив представляет текущее положение в своей области, четко позиционирует свое исследование относительно него, да и что просто читает научную литературу. В наших заявках порядка 30-40 ссылок на литературу всегда. Ну и про свои собственные публикации не забываем потому что если у тебя есть публикация в хорошем месте — это тоже показатель твоего уровня как исследователя.

Как мне кажется, Вы недавно общались с Йошуа Бенжио. О чем вы говорили, как вообще встреча произошла?

Пообщаться с Йошуа Бенжио — задача далеко не тривиальная. В каком-то смысле мне повезло, что меня пригласили на форум по искусственному интеллекту, который организовывала корпорация Samsung, и где Бенжио тоже был докладчиком. В качестве штриха к портрету: Йошуа Бенжио прилетел на конференцию утром, сделал доклад, потом немного посидел в зале, далее небольшой фуршет, после которого ему уже надо было ехать в аэропорт и лететь в другое место, где ему выступать уже на следующий день. То есть человек практически живет в самолете. А я еще думал, что это у меня напряженный график, когда в Питер или Калининград приходится одним днем летать туда-обратно… но это один из ведущих мировых ученых. Я с ним пообщался совсем немного по его выступлению. В двух словах, суть выступления Бенжио такая: есть мнение, что мы находимся в шаге от создания искусственного интеллекта, но это не так. На основе современных глубинных нейронных сетей искусственных интеллект создан не будет! На вопрос, а когда же будет создан искусственный интеллект, последовал ответ: «Мы не знаем точно когда он будет создан, но он точно будет создан». Я с ним немножко пообщался на эту тему, и спросил, что если не на нейросетях, то на чем? Он ответил: «Пока не знаю, на чем-то другом. Должна еще раз смениться технологическая парадигма». Это заставило меня немного пересмотреть свою позицию. Если раньше я студентам говорил на лекциях, что мы в шаге от создания ИИ на основе нейронных сетей стоим, то теперь я выражаюсь осторожней, раз один из ведущих исследователей настроен столь скептично.

Что меня удивило в его точке зрения, так это то что Бенжио верит в наличие сознания у будущего искусственного интеллекта. Я считаю по-другому. Если искусственный интеллект будет создан в обозримом будущем, то искусственное сознание — нет. Но это даже неплохо. Искусственный интеллект без сознания — звучит как что-то безопасное. А вот искусственный интеллект как сущность, которая себя осознает живой, потенциально может задаться вопросом, а нужны ли ему люди. Поэтому на месте правительств, которые задумались об ограничении развития искусственного интеллекта, я бы начинал бы мониторинг в области методов исследования природы и зарождения сознания. Хотя пока, мне кажется, мы от этого далеки. Но, с точки зрения Йошуа Бенжио, ситуация прямо противоположная и искусственное сознание появится раньше искусственного интеллекта.

Очень интересная тема. Сразу хочется спросить, что такое сознание и что такое искусственное сознание, но пора Дмитрия Петровича отпустить выступать.

О да, о сознании можно до бесконечности говорить.

Пожалуй, последний вопрос и пожелание слушателям. Мы проводим открытый курс машинного обучения, он скорее практический, хоть и с математикой тоже. Но до байесовских методов мы в нем доходим. Можно небольшой совет? С чего лучше людям начать изучение байесовского взгляда на машинное обучения? Вроде бы в книге Бишопа как раз прослеживается байесовский подход, причем последовательно, от простого к сложному. Может, Вы что-то еще посоветуете? Причем, для людей с разными уровнями математической подготовки.

Я не советую изучать байесовские методы без математической подготовки. Поэтому дальше советы для тех, у кого, условно говоря, хотя бы уровень четверки по стандартному университетскому курсу теории вероятностей и матстатистики. Мне очень нравится книжка Bishop “Pattern Recognition and Machine Learning”. Действительно, это такое последовательное введение в байесовское машинное обучение. Единственное: книжка написана 10 лет назад, она уже, конечно, устарела. Там описаны вещи, которые происходили до «глубинной революции» в машинном обучении. Поэтому я бы также советовал книжку Мерфи “Machine Learning: A Probabilistic Perspective”, она более современная, в ней есть примеры глубинного обучения и применения байесовских методов в нейросетях. Да и написана она неплохо. То есть если вы хотите просто изучить байесовские методы, то подойдет книжка Бишопа. Если речь об их применении в современном машинном обучении, тогда лучше читать книгу Мерфи. Ну а если вы захотите изучить, как байесовские методы используются в глубинных нейросетях, читайте статьи с ведущих научных конференций. Книг об этом пока еще нет.