Genetics-Info

«Биоинформатика — это новый микроскоп»

В начале года в Университете ИТМО начал работу научно-образовательный центр геномного разнообразия. Директор нового центра Алексей Сергушичев и Владимир Ульянцев, заместитель декана факультета информационных технологий и программирования, в который центр входит, рассказали Indicator.Ru, какие задачи решают программисты в биоинформатике.

3342 • • 04.04.2020

Max Pixel/ReeNee Cummins/Flickr/Indicator.Ru

— Некоторые ученые считают, что биоинформатика — это не самостоятельная научная область, а специализация, с которой можно идти в любые темы. А как вы определяете биоинформатику?

А. С.: В ней есть разные направления, в том числе и у нас в лаборатории. Есть исследования, ключевое слово в которых «биология». Вычислительные методы там только инструмент, чтобы найти какую-то новую биологию. А есть работы о том, как сделать лучше, качественнее и быстрее сами методы. Это тоже неразрывно связано с биологией, но может существовать и как отдельная задача.

В. У.: Я бы рассматривал биоинформатику как линейку с отсечками от биологии к Computer Science. Положение исследования на этой линейке зависит от степени интегрированности с данными. На одной стороне — применение готовых инструментов к биологическим данным. На противоположной — теоретический Computer Science, где мы абстрагируемся от конкретных данных. Такие исследования у нас в лаборатории проводит, например, Никита Алексеев, у меня тоже были небольшие работы о том, какие алгоритмы нам помогут в общем случае работать с биологическими данными. И в целом работы наших сотрудников закрывают почти всю линейку.

— Как вы заинтересовались биоинформатикой?

А. С.: Это направление появилось на кафедре компьютерных технологий около 10 лет назад. Началось все со знакомства с научной группой академика РАН Константина Скрябина. Они занимались геномами и захотели привлечь к этим исследованиям ребят, которые занимаются компьютерными науками. Мы в то время были студентами, на кафедре было развито не так много научных направлений, многие уходили работать в программисты. И вот по инициативе профессора Анатолия Шалыто команда Скрябина нам предложила задачу по сборке генома из отдельных прочтений. Она звучала довольно понятно для программистов: вот фрагменты генома — строки — и их надо склеить с помощью алгоритмов. И с этой задачи мы постепенно начали заниматься биоинформатикой. Решить ее, как сейчас видится, не слишком хорошо получилось, но у нас сформировалась команда биоинформатиков. В 2012 году мы познакомились с Максимом Артемовым, который на тот момент только-только стал профессором в Вашингтонском университете в Сент-Луисе. Я съездил к нему на стажировку, мы начали работать вместе, и с тех пор у нас вышло множество совместных статей в том числе в таких журналах, как Nature или Cell. Тогда же мы, в лице Владимира, начали сотрудничать с лабораторией биоинформатики Дмитрия Алексеева в (Федеральном научно-клиническом — Indicator.Ru) центре физико-химической медицины в Москве. С первых публикаций в топовых журналах всем стало понятно, что в этой области университет может сильно проявить себя, и направление получило поддержку.

В. У.: Моя история немного другая. Многие из нас начинали с олимпиадного движения. Первые четыре-пять курсов я делал задачи по программированию и постепенно перетек в науку, занимался исследованиями, связанными с автоматным программированием. Ребята защищали свои магистерские по сборщикам геномов, а я на это смотрел немного со стороны. И отчасти мне было радостно, что я занимаюсь Computer Science, который имеет шансы попасть в долгоиграющую историю, но в то же время и обидно, что прямо сейчас мои исследования никому не нужны. Это выбор между тем, что прямо сейчас могут использовать биологические лаборатории, и разработкой алгоритмов, которые кому-то, возможно, пригодятся через 20–30 лет. Выбор непростой, и потому я начал заниматься и тем, и другим уже в аспирантуре.

— Какие проекты за годы работы в области стали для вас самыми любимыми?

А. С.: Мне нравится история, с которой это все начиналось, когда я впервые приехал к Максиму Артемову в Сент-Луис. Мы, исследовали макрофагов, смотрели на то, как они активируются в разных условиях. Среди разнообразных данных, которые у нас были, была информация по экспрессии генов и по концентрации веществ в клетке. Возникла идея, что мы сможем показать связь этих двух типов данных, наложив их на граф биохимической реакции. Что интересно, это можно сформировать в виде NP-полной задачи Computer Science, которую в общем виде решить очень сложно, это будет занимать нереалистично много времени, и решения для частных случаев нужно подбирать отдельно.

Я этим занимался, появлялись первые картинки, как меняется состав веществ в клетке, как при этом меняются гены. И в то же время начал проходить курс Эрика Лэндера по введению в молекулярную биологию. Первые лекции там как раз про метаболизм, про то, как связаны биохимические реакции между собой, как они регулируются. На иллюстрации к курсу мне попался молекулярный путь расщепления глюкозы, и я вдруг понял: я ведь уже видел эти штуки на картинках, которые я делал по нашему проекту! До этого они были для меня просто картинками, а тут в какой-то момент обрели смысл. Я понял, что клетки тоже похожи на компьютер: если мы хотим сделать какое-то вещество, надо сделать одно; чтобы его не получалось слишком много, надо заблокировать другое, и так далее. Вот этот момент синергии мне запомнился.

В. У.: Самые интересные проекты — те, в которых у тебя есть интересные коллабораторы. Мы программисты, «чутья» биологии у нас нет, и интересно работать с теми, кто биологию понимает. Когда у тебя есть горящие биологи рядом, которые с радостью интерпретируют твои результаты, делают запросы, это намного эмоционально интереснее. Поэтому, например, мои исследования по филогенетике, которые проходили без коллабораторов, запомнились гораздо меньше, чем разработка программного обеспечения Metafast для обработки и кластеризации метагеномных данных. Этим проектом мы уже больше шести лет занимаемся с коллегами из Центра физико-химической медицины, создаем инструменты для анализа метагеномов бактерий и в кишечнике человека, и в почве, и в водоемах. Такие исследования требуют очень специфического знания алгоритмической области, потому что надо обрабатывать большие объемы данных на кластерах, нужно писать программные средства, которые в некоторых экспериментах будут работать с терабайтами данных. На биоинформатической линейке это лежит посередине: мы, с одной стороны, разрабатываем новые алгоритмы, а с другой стороны, они не так применимы в других направлениях.

— Как вы познакомились с профессором Стивеном О’Брайеном, который стал научным руководителем центра геномного разнообразия?

В. У.: Продолжу мысль про то, какими проектами классно заниматься, — еще и теми, где у тебя есть классный студент. Связующим звеном для нашего проекта с СПбГУ, где до прошлого года работал Стив, стала Катя Носкова, моя сотрудница. Мы познакомились три года назад на хакатоне — и потом с биологом Павлом Добрыниным, на тот момент сотрудником Центра геномной биоинформатики Добжанского СПбГУ, стали ее соруководителями в проекте по применению генетических алгоритмов в демографических исследованиях. Недавно у нас вышла статья о программном средстве для предсказания по геномным данным популяций, например, газелей или людей их демографической истории развития на много десятков тысяч лет назад. На этот проект обратил внимание Стив, и мы применили наши разработки для анализа данных проекта «Российские геномы»: строили демографические модели для псковичей, якутов, новгородцев. Так мы стали соавторами. Примерно год назад стало известно, что СПбГУ больше не заинтересован в сотрудничестве со Стивом, и, как только у него закончился контракт там, он перешел на работу в ИТМО, как и еще несколько бывших сотрудников центра Добжанского.

— По каким направлениям будет работать центр?

А. С.: Во-первых, продолжатся исследования, которыми мы раньше занимались. Я много работаю с транскрипционными данными, в основном на материалах по мышам и людям. Во-вторых, мы видим расширение компетенций в тех больших проектах, в которых участвует Стив: получение геномов всех позвоночных и геномов вымирающих видов. У нас начались проекты по газелям, антилопам, гепардам. В-третьих, метагеномные исследования. Также есть проекты по генетике человека в коллаборации с Медицинским центром имени Алмазова и несколько проектов о растениях, но это направление еще в зародыше.

И во всех этих темах мы пытаемся разрабатывать инструменты для анализа и визуализации данных. Один из наших приоритетов в том, чтобы на основе решения отдельных задач наших коллабораторов мы могли обернуть рабочие методы в программный инструмент, который в дальнейшем биологи смогут применять сами. То есть на основе успешных проектов формируется инструмент, биоинформатический продукт.

— Как долго может продолжаться такой цикл разработки инструмента от одного запроса биологов до продукта?

А. С.: Года три-четыре. Как в моем примере с макрофагами — я поехал в Сент-Луис в 2013 году, и в 2016 вышла статья про инструмент.

В. У.: У меня примеры разные, но обычно это тоже три-четыре года. Статья с Катей Носковой выходила три года, статья про Metafast — несмотря на то, что прототип продукта был готов через три месяца — тоже три года. Таковы реалии научного мира: долго ждешь ответа из журнала, если откажут, ищешь новый журнал, много времени уходит на замечания рецензентов.

— Расскажите о вашей магистратуре по биоинформатике. Как на нее повлияет создание центра геномного разнообразия?

А. С.: Очень хорошо повлияет. Сейчас на двух первых наборах у нас учатся примерно 30 человек, и все они должны быть обеспечены проектами в процессе и для подготовки дипломов. Расширение тематики и состава лаборатории очень кстати — раньше было сложно успевать руководить всеми работами студентов. В этом году мы планируем открыть в ней отдельный трек для информатиков. Раньше мы набирали в основном биологов, потому что стартовать сразу с двух направлений было сложно, к тому же для программистов существовала магистратура по алгоритмической биоинформатике в Академическом университете и нам не хотелось конкурировать с коллегами. Теперь мы расширяемся и готовы справиться с двумя разными потоками на одном курсе. Думаю, это даст синергетический эффект: часть предметов у биологов и информатиков будет проводиться отдельно, но многое они будут изучать вместе, помогать друг другу. Это будет полезно и тем, и другим.

— Вы многое рассказали о создании инструментов для биологических лабораторий, которые занимаются фундаментальными исследованиями. А может ли биоинформатика внести вклад в прикладные работы, например в медицинские?

А. С.: Медицинскими проектами мы не занимаемся, наши исследования направлены, скорее, на фундаментальную биологию, понимание каких-то процессов в клетках и организмах. Например, у нас с Максимом Артемовым вышла статья про итаконат, вещество, которое синтезируется в макрофагах и играет большую роль в регуляции воспаления. Мы поняли, что потенциально его можно использовать как противовоспалительный агент. Но от этого вывода до медицинских исследований еще очень долгий путь. Что бы мы ни получили в биоинформатике на данных, все это нужно проверять в биологических исследованиях на животных. Поэтому напрямую с медициной мы обычно не работаем. В фармацевтических компаниях, конечно, тоже есть данные и задачи для программистов, но это нам, скорее, не так интересно.

— Владимир, проекты, которыми вы занимаетесь, тоже нацелены в основном на фундаментальную биологию?

В. У.: Сейчас фундаментальная биология невозможна без биоинформатики. Например, наши исследования с демографическими моделями — отчасти не столько биология, сколько история. Кажется, что на момент начала XXI века люди уже исчерпали все знания по биологии, которые можно было получить без применения компьютеров. В целом, биоинформатика — это новый микроскоп для биологов.

— Значит ли это, что каждый биолог должен быть биоинформатиком?

В. У.: Интересный вопрос. Алексей немного умалчивает о том, что для программиста обучение биоинформатике, биологическим знаниям, фокус на биологических задачах — понижение рыночной стоимости. А когда биолог обучается запускать скрипты и обрабатывать биологические данные, он в 100% случаев свою стоимость повышает. Я думаю, что не каждому биологу нужна такая специализация, так или иначе останутся «мокрые» биологи, которые будут проводить эксперименты. Но в научных исследованиях вычислительные методы будут нужны почти каждому.

Источник: indicator.ru