Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR PREDICTING PROTEIN STRUCTURES
Document Type and Number:
WIPO Patent Application WO/2019/017803
Kind Code:
A1
Abstract:
The invention relates to the field of bioinformatics and computational chemistry. The claimed method for predicting a protein tertiary structure is a hybrid method and combines global and local optimisation. Local optimisation is carried out on the basis of energy, and global optimisation is carried out using evolutionary methods based on a randomly generated starting population, with the aid of specially developed variational operators for generating new generations. The method makes it possible to predict a protein tertiary structure significantly faster and more effectively than the known prior art.

Inventors:
KRUGLOV IVAN ALEXANDROVICH (RU)
OGANOV ARTEM ROMAEVICH (RU)
PAVLOVA ELIZAVETA VLADIMIROVNA (RU)
ROIZEN VALERIY VALEREVICH (RU)
Application Number:
RU2017/000529
Publication Date:
January 24, 2019
Filing Date:
July 18, 2017
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
TORUS PROJECT LLC (RU)
International Classes:
G06F19/16
Domestic Patent References:
WO1995019603A11995-07-20
Foreign References:
US20060253260A12006-11-09
US20080270094A12008-10-30
Other References:
ANDREI NECULAI: "Conjugate gradient algorithms for molecular formation under pairwise potential minimization", MATHEMATICAL MODELING OF ENVIRONMENTAL AND LIFE SCIENCES PROBLEMS. PROCEEDINGS OF THE 5TH WORKSHOP, 2006, Constanta, Romania, pages 7 - 26, XP055680533
SAEL L. ET AL.: "Fast protein tertiary structure retrieval based on global surface shape similarity", PROTEINS: STRUCTURE, FUNCTION, AND BIOINFORMATICS, vol. 72, no. 4, 2008, pages 1259 - 1273, XP055680529
GIESE T.J. ET AL.: "A variational linear-scaling framework to build practical, efficient next-generation orbital-based quantum force fields", JOURNAL OF CHEMICAL THEORY AND COMPUTATION, vol. 9, no. 3, 2013, pages 1417 - 1427, XP055680526
Attorney, Agent or Firm:
KASTALSKIY, Vitaliy Nikolaevich (RU)
Download PDF:
Claims:
Формула

1. Способ предсказания белковых структур, включающий предсказание третичной структуры, характеризующийся тем, что: a. белок представляют в виде набора углов ф и ψ между, соответственно атомами азота и углерода и, углерода и углерода для всех атомов;

b. производится как локальная, так и глобальная оптимизация структуры, причем глобальная оптимизация включает в себя следующие действия:

i. генерацию начального поколения;

ii. определение качества каждого из членов на основании локальной оптимизации;

iii. применение вариационных операторов нового поколения для генерации отпрысков;

iv. оценка каждого из отпрысков и генерация нового поколения на основании такой оценки;

v. повторение действий ii-iv заданное число раз или до достижения критерия остановки;

c. при этом, в качестве параметра локальной оптимизации рассматривается энергия белка.

2. Способ по п. 1, характеризующийся тем, что для локальной оптимизации применяется метод сопряженного градиента.

3. Способ по п. 1 , характеризующийся тем, что вариационными операторами генерации нового поколения являются:

а. случайная генерация набора пар углов ф и ψ для белка: белок описывается как набор различных пар углов, отвечающих различным вторичным структурам, количество которых равно от 1 до N, где N отвечает разбиению на максимально возможное число различных вторичных структур;

b. наследственность: из двух белков случайным образом выбираются от 25 до 75 % и от 75 до 25 % пар углов соответственно (процентное соотношение может изменяться), и объединяются в новый белок такой же длины;

c. мутация: в белке случайным образом меняются до, например, 20% пар углов;

d. смещение границ: в белке определяется сокращенная вторичная структура, после чего случайным образом выбирается один участок с одной вторичной структурой, и углы, соответствующие этой вторичной структуре, присваиваются соседним аминокислотам либо справа, либо слева от выбранной части, а смешение происходит случайно на расстояние от, например, 1 до 5 аминокислотных остатков; e. замена вторичной структуры: определяется сокращенная вторичная структура, и потом случайным образом одна часть этой структуры меняется на любую другую вторичную структуру.

Description:
Способ предсказания белковых структур Описание

Область техники

Изобретение относится к области биоинформатики и биотехнологии, а также вычислительной химии и может быть использовано в молекулярной биологии и медицине. Более точно, изобретение относится к компьютерно- реализуемым способам предсказания вторичной и третичной структуры белка.

Предшествующий уровень техники

Изобретение относится к компьютерному способу, использующему методы компьютерного моделирования органических молекул при разработке новых белковых соединений для фармацевтики, биотехнологии и других областей промышленности, а также для научных исследований в медицине, биохимии, молекулярной биологии и генетике, для которых существенно использование новых белковых соединений на основе аминокислот, определение третичной структуры уже известных белков, а также определение механизма связывания молекулы белка с лигандом.

Для лучшего понимания сущности изобретения, стоит пояснить, что белки — это сложные органические вещества, состоящие из альфа- аминокислот и выполняющие в живых организмах разнообразные функции от катализа химических реакций до переноса веществ внутри клеток. Белки обладают сложной структурой, которую для удобства принято описывать иерархически. Так последовательность аминокислотных остатков в белковой цепи определяет первичную структуру белка. Порядок сворачивания локальных фрагментов первичной структуры аминокислот определяет вторичную структуру белка. Пространственное расположение этих фрагментов относительно друг друга - третичную структуру белка. О функциональных свойствах белка судят на основании его третичной структуры.

Принято выделять регулярные вторичные структуры, которые образованы аминокислотными остатками с одинаковой конформацией главной цепи (то есть последовательности ковалентно связанных атомов, образующих полипептидную цепь). К регулярным вторичным структурам относят: спирали (α-, 310-, π- и полипролиновые спирали) и β-листы. Определение вторичной структуры белка позволяет значительно упростить определение его третичной структуры.

Для определения пространственной структуры белка необходимо сначала узнать первичную структуру (последовательность аминокислот, из которых он состоит). Для этого применяются методы хроматографии (бумажной, ионообменной, тонкослойной) и высоковольтного электрофореза. Для экспериментального определения пространственной структуры белка в настоящее время существует три метода: рентгеноструктурный анализ (метод РСА), ядерная магнитная резонансная спектроскопия (метод ЯМР- спектроскопии) и криоэлектронная микроскопия (С. Branden, J. Tooze, Introduction to Protein Structure, Garland Studies). Каждый из них предполагает выделение с помощью набора процедур индивидуального белка из биосистемы при сохранении им своей пространственной конформации, и затем подготовки образца для исследования. Например, метод РСА предполагает получение белка в кристаллическом виде и дальнейшего исследования кристаллов методом рентгеноструктурного анализа (метод РСА) (Попов Е.М., Демин В.В., Шибанова Е.Д, Проблема белка. Том 2. Пространственное строение белка, М.: Наука, 1996, 480 с). Полученную информацию о дифракционной картине кристаллов записывают на жесткий носитель в компьютер, и, с помощью специально разработанных программ, производят расшифровку его третичной структуры. Затем на основании полученных данных о третичной структуре белка определяются его механизм функционирования, что является важным для ряда решения задач в широком наборе областей. В частности, с использованием расшифрованных третичных структур производят разработку новых лекарственных средств.

Необходимо отметить, что экспериментальные методы определения третичной структуры предполагают наличие специального оборудования и занимают много времени. Кроме того, они предполагают проведение сложных манипуляций с молекулой белка, что может приводить к изменению её конформации и искажению результатов.

Применение методов компьютерного предсказания пространственной структуры белков позволяет обойти эти проблемы и существенно упростить первые этапы исследования в молекулярной биологии и медицине. Кроме того, это позволит конструировать такие первичные структуры белков, которые будут обладать заранее заданной вторичной структурой и свойствами. Решение этой проблемы особенно важно в технологии изготовления фармацевтических и иммунологических препаратов белкового происхождения. В частности, иммунные белки можно будет создавать в считанные дни, не прибегая к использованию для этих целей животных, что особенно актуально в периоды эпидемий (например, гриппа).

Известен метод предсказания вторичной структуры белка (только а- спиралей и β-листов) с помощью анализа первичной структуры белка и выделения в нём паттернов характерных для данного типа вторичной структуры. (US5842151 A, ((Prediction method and apparatus for a secondary structure of protein», опубл. 24.11.1998). Также известен метод предсказания третичной структуры белка с помощью гомологического анализа, в ходе которого поиск происходит среди белков с уже известной пространственной структурой, обладающих схожей последовательностью аминокислот. (US5958784 A, ((Predicting folded structures of proteins)), опубл. 28.09.1999). Однако такие методы почти слепого поиска обладают низкой эффективностью, а также низкой полнотой и достоверностью результата.

Известны методы предсказания третичной структуры белка с помощью проведения численных расчётов методом молекулярной динамики, который предполагает моделирование временной эволюции системы путём интегрирования уравнения движения частиц, из которых она состоит (D. Е. Shaw et al., "Anton, A Special-Purpose Machine for Molecular Dynamics Simulation," Communications of the ACM, vol. 51, no. 7, 2008, pp. 91-97; K. Simons et al., "Assembly of Protein Tertiary Structures from Fragments with Similar Local Sequences using Simulated Annealing and Bayesian Scoring Functions", J. Mol. Biol., vol. 268, 1997, pp. 209-225). Для описания движения атомов в данном методе применяется классическая механика, для учёта межатомных взаимодействий задаётся силовое поле (force field), набор функций, описывающих взаимодействия между атомами в системе. Наборы конфигураций, получаемых в ходе расчёта, соответствуют некоторой статистической функции распределения. К недостаткам этого подхода следует отнести необходимости продолжительного временного интервала для моделирования системы, что требует значительных вычислительных ресурсов (применение суперкомпьютера или масштабной системы распределённых вычислений). Тем не менее, даже в этом случае результат предсказания может не соответствовать реальной пространственной структуре белка.

Одними из наиболее перспективных методов на сегодня видятся эволюционные методы предсказания вторичной и третичной структуры белка.

Из уровня техники известен метод предсказания белковой структуры, в котором белок представляется как цепочка связанных гидрофобных (Н) или гидрофильных (Р) аминокислот, энергия представляется как сумма "bending" и ван-дер-Ваальсовых частей. Далее происходит эволюционный алгоритм, в котором применяются вариационные операторы "кроссовер" и линейный (CN 105184112 A «Protein structure prediction method based on improved niche genetic algorithm)), опубл. 23.12.2015). Важным недостатком этого метода является непосредственно выбранный метод представления белка, а также малое количество вариационных операторов, что приводит к снижению эффективности и быстродействия метода.

Из уровня техники известен гибридный метод, включающий в себя differential evolution algorithm и conformation space annealing (CN 103473482 A «Protein three-dimensional structure prediction method based on differential evolution and conformation space annealing)), опубл. 25.12.2013). Сначала создается поколение из 50 белков, далее из них выбирается 10 и к ним применяется мутация, далее выполняется гибридный алгоритм. Недостатком этого метода является малое число вариационных операторов и не самый эффективный алгоритм минимизации.

Из уровня техники известен метод предсказания, основанный на квантовых эволюционных алгоритмах (CN 103116712 A «Protein high polymer (HP) model calculation method based on variable angular distance quantum evolutionary algorithm (QEA) algorithm)), опубл. 22.05.2013). Сначала создается начальное поколение Q(t), далее на каждом шаге оно по известной формуле преобразуется и контролируется, чтобы в поколении поддерживалось разнообразие, и, если это условие не выполняется - делается откат на предыдущее поколение. Однако квантовые эволюционные алгоритмы обладают своими существенными недостатками.

Из уровня техники известно применение муравьиного алгоритма для предсказания структуры белка (CN 103514382 A «Prediction method and prediction device for protein side chain», опубл. 15.01.2014). В этом методе создается колония белков с различными вторичными структурами при данных аминокислотах, создается феромонная матрица. Считается энергия случайного (с учетом феромонной матрицы) белка; если она оказывается наинизшей, то его структура сохраняется и феромонная матрица обновляется. Однако муравьиный алгоритм в данном случае представляется не самым эффективным выбором.

Известен эволюционный метод (Mahmood A. Rashid et al., «Guided macro-mutation in a graded energy based genetic algorithm for protein structure prediction)), Computational Biology and Chemistry, Vol 61, April 2016, pp 162-177), в котором аминокислоты белка располагают в узлах гранецентрированной кубической ячейки, это позволяет минимизировать пространство поиска и упростить дизайн операторов эволюции. Для оценки энергии белка используется модель, учитывающая полярность аминокислот. Однако существенным недостатком этого метода является не самая эффективная модель для описания конформации белков, которая имеет ограниченные возможности исследования возможных конформаций белков.

Сущность изобретения

Задачей настоящего изобретения являлось устранение недостатков предшествующего уровня техники.

Настоящее изобретение обладает рядом преимуществ по сравнению с описанными выше аналогами. По сравнению с гомологическим методом предложенный способ может быть использован для предсказания структур белков, чьи гомологи не известны, что делает его применимым для более широкого класса белков.

По сравнению с экспериментальными методами определения пространственной структуры белков заявленный метод не требует дорогостоящего оборудования и сложных манипуляций по подготовке образца белка. Кроме того, достигается значительное ускорение исследования: экспериментальное исследование может занимать от нескольких месяцев до пары лет, в то время как настоящее изобретение позволяет предсказать пространственную структуру белка в течение нескольких дней или недель (зависит от сложности белка и вычислительных ресурсов).

В сравнении с известными эволюционными методами заявленное изобретение предлагает существенно больший набор вариационных операторов и более эффективный способ минимизации, а также уникальную структуру построения и описания белка, что значительно сказывается на скорости предсказания и требовательности к вычислительным ресурсам.

Настоящее изобретение, наравне с другими методами, позволяет предсказывать пространственную структуру белков. Кроме того, настоящий метод требует значительно меньше вычислительных ресурсов. Также настоящий метод обладает существенно большей точностью предсказания, нежели известные аналоги.

Это достигается за счет того, что вторичная и третичная структура белка прогнозируется с помощью специально разработанного метода путём применения эволюционного алгоритма глобальной оптимизации в сочетании с любым из известных методов локальной оптимизации, например, методом градиентного спуска. Структуры создаются специальным образом, основанном на манипуляциях с известными вторичными структурами белков, после чего оптимизируются. В качестве параметра оптимизации выбирается значение свободной энергии структуры, которая вычисляется при проведении процедуры локальной оптимизации.

Сущность изобретения состоит в том, что:

Способ предсказания белковых структур, включающий предсказание третичной структуры, характеризуется тем, что: а. белок представляют в виде набора углов ф и ψ между, соответственно атомами азота и углерода и, углерода и углерода для всех атомов; b. производится как локальная, так и глобальная оптимизация структуры, причем глобальная оптимизация включает в себя следующие действия:

i. генерацию начального поколения;

ii. определение качества каждого из членов на основании локальной оптимизации;

iii. применение вариационных операторов нового поколения для генерации отпрысков;

iv. оценка каждого из отпрысков и генерация нового поколения на основании такой оценки;

v. повторение действий ii-iv заданное число раз или до достижения критерия остановки;

c. при этом, в качестве параметра локальной оптимизации рассматривается энергия белка.

При этом, способ также характеризуется тем, что для локальной оптимизации применяется метод сопряженного градиента.

При этом, способ также характеризуется тем, что вариационными операторами генерации нового поколения являются: d. случайная генерация набора пар углов ф и ψ для белка: белок описывается как набор различных пар углов, отвечающих различным вторичным структурам, количество которых равно от 1 до Ν, где Ν отвечает разбиению на максимально возможное число различных вторичных структур;

e. наследственность: из двух белков случайным образом выбираются от 25 до 75 % и от 75 до 25 % пар углов соответственно, и объединяются в новый белок такой же длины; f. мутация: в белке случайным образом меняются до 20% пар углов;

g. смещение границ: в белке определяется сокращенная вторичная структура, после чего случайным образом выбирается один участок с одной вторичной структурой, и углы, соответствующие этой вторичной структуре, присваиваются соседним аминокислотам либо справа, либо слева от выбранной части, а смешение происходит случайно на расстояние от 1 до 5 аминокислотных остатков;

h. замена вторичной структуры: определяется сокращенная вторичная структура, и потом случайным образом одна часть этой структуры меняется на любую другую вторичную структуру.

Вышеописанные черты и преимущества настоящего изобретения, а также пути и способы их реализации станут более ясными и понятными после ознакомления с дальнейшим подробным описанием вариантов осуществления изобретения со ссылками на фигуры чертежей.

Краткое описание чертежей

Фиг. 1— блок схема заявленного алгоритма.

Фиг. 2— Сравнение предсказания структуры белка Chignolin и Trp-cage представленным методом и методом из статьи D. Е. Shaw et al., "Anton, A Special-Purpose Machine for Molecular Dynamics Simulation," Communications of the ACM, vol. 51, no. 7, 2008, pp. 91-97.

Фиг. 3 - Рисунок, иллюстрирующий различные межатомные потенциалы и их характерный функциональный вид.

Варианты осуществления изобретения Для однозначного понимания дальнейшего описания, необходимо определить следующие термины:

Популяция — набор точек в пространстве поиска (которые в дальнейшем мы будем называть решением), которые анализируются как возможные кандидаты для оптимального решения.

Родители— набор решений, который используется, чтобы создать новых кандидатов для оптимального решения.

Отпрыски— набор решений, созданный из родителей, используя вариативные операторы.

Селекция— процесс, который выбирает должно ли решение «умереть» или «выжить», чтобы построить следующее поколение.

Для понимания стоит привести также названия основных классов применяющихся вариационных операторов и их краткое описание:

Наследование— используется для того, чтобы построить отпрысков из нескольких родителей.

Мутация— использует одного родителя, чтобы произвести одного отпрыска.

Алгоритм предполагает использование стороннего программного пакета (например, LAMMPS, GROMACS) для проведения процедуры локальной оптимизации. Это подразумевает минимизацию энергии конкретной структуры одним из выбранных алгоритмов нахождения локального экстремума: методом сопряжённых градиентов, квазиньютоновским методом и т.д. Важно отметить, что наш алгоритм не зависит от выбранного метода нахождения локального экстремума, что дает алгоритму дополнительную гибкость в использовании. Для расчёта энергии используется метод силового поля. Данный метод предполагает, что полная энергия многочастичной системы может быть описана как сумма энергетического вклада нескольких взаимодействий: парного, трехчастичного, четырёхчастичного и т.д., электростатического и ван-дер-ваальсового. Это может быть описано следующими формулами:

^полн ^связ ^несвяз )

Где Е полн - это полная энергия системы, Е связ - вклад энергии атомов, связанных колвалентной связью, £" несвяз ~ вклад энергии несвязанных атомов.

В свою очередь

^связ ^па н " t " ^ тл ^двугр (^)

Где Е парн - парный потенциал, Е угл - потенциал, описывающий энергию плоского угла, Е двугр - потенциал двугранного угла (Фиг. 3).

^несвяз ^элект ^вдв (3)

Где Е элект - электростатический потенциал, £" вдв - потенциал Ван-дер- Ваальса (Фиг.З).

Конкретная параметризация и функциональная форма зависит от выбранного потенциала: CHARMM, AMBER, AMOEBA и т.д. Наш алгоритм позволяет работать с любым из них.

Изобретение представляет из себя способ предсказания пространственной структуры белка. Белок состоит из последовательности аминокислот (первичная структура). Отдельные участки белка свернуты в спирали или листы (вторичная структура), упорядоченные в пространстве (третичная структура). Аминокислота является органическим соединением, в которую входят карбоксильные и аминные группы. Каждую аминокислоту в пространстве можно задать набором углов ф («фи») и ψ («пси») соответственно между атомами азота и углерода, и, углерода и углерода. Это значит, что любой белок можно задать набором пар таких углов. Значения углов однозначно соответствуют координатам атомов в белке. Таким образом, задача поиска третичной структуры белка может быть сведена к минимизации энергии белка как функции координат всех атомов, то есть набора пар углов фи ψ. Такая функция имеет большое число локальных минимумов, и ее решение не всегда однозначно.

В качестве промежуточной ступени предсказания третичной структуры белка наш алгоритм предсказывает и вторичную структуру. Это связано с тем, что в каждом поколении белки, сгенерированные случайным образом, описываются набором углов ф и ψ, соответствующих какой-то конкретной вторичной структуре. Далее эта информация используется в работе вариационных операторов "Смещение границ" и "Замена вторичной структуры". Таким образом, при попадании системы в глобальный минимум, алгоритм выдает полную информацию о белке - его первичную, вторичную и третичную структуры.

Предложенный способ предсказания третичной структуры белка является гибридным алгоритмом, так как объединяет глобальную и локальную оптимизацию. Это позволяет эффективно находить глобальный минимум параметра оптимизации, путём исследования существующих локальных минимумов.

В основе настоящего метода глобальной оптимизации лежит эволюционный алгоритм, воспроизводящий механизмы аналогичные биологической эволюции: наследственность, мутацию, рекомбинацию и селекцию. Индивиды в популяции — это кандидаты в решения оптимизационной задачи. Популяция эволюционирует при повторном применении выше указанных механизмов, и некоторая функция (функция фитнеса) определяет сколько из индивидов выживают. Более подробно алгоритм можно сформулировать так (Фиг. 1):

1. Эволюционный подход начинается с выбора адекватной репрезентации проблемы: однозначное соответствие между точками в пространстве поиска и набором чисел.

2. Инициализация первого поколения, то есть набора точек в пространстве поиска, которые удовлетворяют ограничениям задачи.

3. Определение качества каждого члена популяции, используя так называемую функцию фитнеса.

4. Выбор лучшего члена из текущего поколения в качестве родителя, для которого алгоритм создает новые точки (отпрыски) в пространстве поиска, применяя различные специально разработанные вариационные операторы к ним.

5. «Оценка качества» каждого нового члена популяции.

6. Выбор лучшего отпрыска, чтобы построить новое поколение в популяции.

7. Повтор шагов 4-6 до тех пор, пока не будет достигнут критерий остановки.

Для описания алгоритма используется большое количество биологических терминов:

Для расчета третичной структуры белка в качестве функции фитнеса используется энергия белка (например, в ккал/моль), рассчитанная в ходе локальной оптимизации с помощью одного из известных сторонних программных пакетов (например, Tinker (Ponder, Jay W. "TINKER: Software tools for molecular design." Washington University School of Medicine, Saint Louis, MO 3 (2004)), GROMACS (Hess B. et al. GROMACS 4: algorithms for highly efficient, load-balanced, and scalable molecular simulation //Journal of chemical theory and computation. - 2008. - T. 4. - Jfe. 3. - C. 435-447.) или NAMD (Phillips J.C. et al. Scalable molecular dynamics with NAMD //Journal of computational chemistry. - 2005. - T. 26. - 16. - C. 1781-1802.) или др.). Для локальной оптимизации может быть применён любой алгоритм оптимизации, например, метод сопряжённого градиента (Luenberger D.G. Introduction to linear and nonlinear programming. - Reading, MA : Addison- Wesley, 1973. - T. 28., nap. 8.3 «The conjugate gradient method»).

Применительно к задаче предсказания структуры белка были разработаны специальные вариационные операторы (Фиг. 1):

1. Случайная генерация набора пар углов ф и ψ для белка: для каждой вторичной структуры существуют свои заранее известные средние значения пар этих углов, также известна минимальная длина каждой вторичной структуры. Поэтому белок описывается как набор различных пар углов, отвечающих различным вторичным структурам. Количество таких наборов равно от 1 до Ν, где Ν отвечает разбиению на максимально возможное число различных вторичных структур (с минимальной для них длиной). Также при построении случайного белка учитывается и то, что в бета-листе может быть поворот (один из четырех типов).

2. Наследственность: из двух белков случайным образом выбираются от 25 до 75 % и от 75 до 25 % пар углов соответственно (процентное соотношение может изменяться), и объединяются в новый белок такой же длины.

3. Мутация: в белке случайным образом меняются до, например, 20% пар углов.

4. Смещение границ: в белке с помощью программы stride (Heinig, М., Frishman, D. (2004). STRIDE: a Web server for secondary structure assignment from known atomic coordinates of proteins. Nucl. Acids Res., 32, W500-2) определяется сокращенная вторичная структура, то есть если белок из себя представляет спираль-спираль-спираль-лист- лист-спираль-спираль, то его сокращенная вторичная структура будет спираль-лист-спираль. Тогда случайным образом выбирается один участок с одной вторичной структурой, и углы, соответствующие этой вторичной структуре, присваиваются соседним аминокислотам либо справа, либо слева от выбранной части. Смешение происходит случайно на расстояние от, например, 1 до 5 аминокислотных остатков.

5. Замена вторичной структуры: аналогичным способу из п. 4 способом, с применением программой stride (Heinig, М., Frishman, D. (2004). STRIDE: a Web server for secondary structure assignment from known atomic coordinates of proteins. Nucl. Acids Res., 32, W500- 2), определяется сокращенная вторичная структура, и потом случайным образом одна часть этой структуры меняется на любую другую вторичную структуру.

Такой набор операторов можно охарактеризовать как «вариационные операторы генерации нового поколения белков», и он позволяет поддерживать максимальное разнообразие в популяции, что в итоге не дает системе скатываться в локальный минимум. Соотношение долей структур, создающихся с помощью определенного вариационного оператора, задается предпочтительно во входном файле с параметрами. В другом варианте параметры могут быть заданы и иным способом, например, с использованием устройств ввода-вывода компьютера. Критерием остановки алгоритма является сохранение одного и того же белка с минимальной энергией в течение заданного числа поколений. Стоит отметить, что термин «вариационные операторы генерации нового поколения» стоит понимать, как включающий любые комбинации любого количества описанных выше операторов в любом порядке.

В качестве примера будет изложен процесс предсказания структуры белка chignolin. На вход алгоритму подаются 4 файла: последовательность аминокислот в белке, файл force field (нужен для расчета энергии и локальной оптимизации, обычно charmm22 или charmm36), опции для расчета энергии, включающие указание на используемый force field, указание на модель для раствора и другие параметры, входной файл для метода расчета. В последнем файле указывается число структур в каждом поколении, соотношение вариационных операторов и количество параллельных вычислений.

В первом поколении алгоритм генерирует заданное число белков со случайной вторичной структурой с помощью метода случайной генерации пар углов фи и пси. Далее с помощью программы Tinker (Ponder, Jay W. "TINKER: Software tools for molecular design." Washington University School of Medicine, Saint Louis, MO 3 (2004)) или GROMACS (Hess B. et al. GROMACS 4: algorithms for highly efficient, load-balanced, and scalable molecular simulation //Journal of chemical theory and computation. - 2008. - T. 4. - N». 3. - C. 435-447.) каждый сгенерированный белок локально оптимизируется (то есть атомы смещаются так, чтобы энергия была минимальной) и рассчитывается его энергия. Из всех белков отбирается указанная доля с минимальной энергией и переносится во второе поколение. Также из белков из первого поколения создаются новые с помощью различных вариационных операторов и аналогичным способом рассчитывается их энергия. Этот процесс происходит до выполнения критерия остановки. Далее самый стабильный белок визуализируется, например, с помощью программы PyMol (DeLano, Warren L. "The PyMOL molecular graphics system.", 2002) или эквивалентной, и сравнивается с исходным белком из базы данных, а также рассчитывается среднеквадратичное отклонение координат атомов углерода в основной цепи из аминокислот относительно исходного белка. Это позволяет наглядно сравнить структуры белков. На рисунке (Фиг. 2) показана структура предсказанного белка chignolin и то, насколько этот белок отличается от реально существующего. Видно, что разница составляет всего 0.2 А. В статье D. Е. Shaw et al., "Anton, A Special-Purpose Machine for Molecular Dynamics Simulation," Communications of the ACM, vol. 51, no. 7, 2008, pp. 91-97 разница составила порядка 1.0 А, что значительно превосходит наше значение. Также аналогичным методом была предсказана структура белка Trp-cage (Фиг. 2). Здесь наше предсказание дает структуру очень близкую к реальной (разница составила 1.7 А).

Промышленная применимость

Заявленный способ является компьютерно-реализуемым. Набор операций может быть в закодированном, одним из известных языков программирования, виде записан на машиночитаемый носитель и осуществлен при помощи ЭВМ с процессором или распределенной сети компьютеров (вычислительных кластеров) за конечное и разумное время. Для реализации настоящего способа достаточно мощности известных и доступных ЭВМ (или существующих сетей распределенных вычислительных кластеров). Это подтверждается приведенными в настоящем описании примерами практического использования заявленного способа, когда белки рассчитывались на домашнем компьютере.