Аннотация
Изучение методами математического моделирования процессов структурообразования биологических
макромолекул, каковыми являются белки, рибонуклеиновые (РНК) и дезоксирибонуклиновые (ДНК)
кислоты, является в настоящее время интенсивно развивающейся областью молекулярной биологии.
Фундаментальность этой проблемы определяется тем, что основные процессы функционирования
живой клетки определяются в первую очередь пространственной формой (структурой) этих
макромолекул. Представляются новые результаты исследования процессов структурообразования
макромолекул РНК. Применение многопроцессорного вычислительного комплекса МВС-1000 позволило
провести серию вычислений для существенно более длинных молекул РНК–ферментов, длина которых
превышает несколько сотен нуклеотидов. Полученные результаты не только подтверждают гипотезу
о прерывистости процесса удлинения молекулярной цепи, но и позволяют сделать оценку периода
этого процесса.
Abstract
Study by methods of a mathematical simulation of processes of a structure-formation of
biological macromolecules, that is proteins, ribonucleic (RNA) and desoksiribonucleic (DNA)
of an acid is now intensively developing area of molecular biology. The fundamentality of
this problem is determined by that the basic processes of functioning of an alive crate
are determined first of all by spatial structure of these macromolecules. The new results
of research of processes of a structure-formation of macromolecules of RNA are represented.
The application of the multiprocessor computer complex МВС-1000 has allowed to carry out a
series of calculations for much longer molecules of a RNA - ferments, which length exceeds
some hundreds nucleotides. The received results not only confirm a hypothesis about
intermittence of process of lengthening of a molecular chain but also allow making an estimation
of the period of this process.
Содержание
Введение
1. Иерархия
структур нуклеиновых кислот.
2. Элементы
вторичной структуры.
3. Способы
описания вторичной структуры.
4. Стерическое
условие и псевдоузлы.
5. Граф
межструктурных переходов.
6. Модель
свободной энергии вторичной структуры РНК.
7. Модель
процесса структурообразования.
8. Простейшая
модель биополимера.
9. Пространственная
структура.
10. Определение
пространственной формы шпилечной петли
11. Определение
формы многозвенных петель
12. Оценка
числа стеблей.
13. Оценка числа
структур.
14. Оценка
вычислительной сложности задачи.
15. Вычислительные
эксперименты на параллельных системах.
16. Примеры
структур тРНК.
Литература
Изучение методами
математического моделирования процессов структурообразования биологических
макромолекул, белков, рибонуклеиновых (РНК) и дезоксирибонуклеиновых (ДНК)
кислот является в настоящее время интенсивно
развивающейся областью молекулярной биологии. Белки и нуклеиновые кислоты
представляют собой одномерные полимерные нити, свернутые в некий
пространственный клубок. Белок представляет собой полиамин – линейную цепочку
аминокислотных остатков. Нуклеиновая кислота представляет собой полинуклеотид –
линейную цепочку нуклеокислотных остатков. Нуклеиновые кислоты делятся на два
типа – рибонуклеиновые кислоты (РНК) и дезоксирибонуклеиновые
кислоты (ДНК). В состав РНК входит рибоза, а в состав ДНК дезоксирибоза.
Хранение генетической информации происходит в виде ДНК, а ее использование в
виде РНК. Фундаментальность проблемы структурообразования определяется тем, что
основные процессы функционирования живой клетки определяются в первую очередь
пространственной формой (структурой) этих макромолекул.
Многолетний опыт
математического моделирования сложных космологических систем (звездные системы,
протопланетные облака) позволил организовать исследования процессов
структурообразования макромолекул рибонуклеиновых кислот. Принципиально новым в
нашем подходе является моделирование не только структурообразования как
отдельного явления, но процесса рождения макромолекулы в целом. Это включает в
себя и моделирование механизма возникновения и роста молекулярной цепи во
взаимодействии с механизмами стуктурообразования. Усложнение модели позволяет
получать более точное описание поведения молекулярного комплекса, но требует
достаточно большого объема вычислений. Ранее нами были проведены исследования процесса
структуризации молекул РНК длиной до 150 нуклеотидов, что позволило высказать
гипотезу о прерывистости процесса транскрипции [1]. Представляются новые
результаты исследования процессов структурообразования макромолекул РНК.
Применение многопроцессорного
вычислительного комплекса МВС-1000 позволило провести серию вычислений для
существенно более длинных молекул РНК – ферментов, длина которых превышает
несколько сотен нуклеотидов. Полученные результаты не только подтверждают
гипотезу о прерывистости процесса удлинения молекулярной цепи, но и позволяют
сделать оценку периода этого процесса.
В настоящее время завершен первый этап
исследований, проведенный на основе разработанного специального алгоритма. Этот
алгоритм позволил достичь среднего времени расчета процесса образования
вторичной структуры РНК на два порядка меньшего, чем при традиционном подходе,
применявшемся за рубежом. Стало возможным проведение серии численных экспериментов
для опубликованных международных каталогов генов РНК.
В основе большинства компьютерных методов
определения пространственных структур биомолекул лежит поиск глобальных
или локальных мимнимумов свободной
энергии биомолекулы. Главные трудности, с которыми здесь приходится
сталкиваться – это большой объем вычислений, резко растущий с размером
молекулы, и большое количество локальных
минимумов, среди которых нужно выбрать минимум, соответствующий реальной
пространственной структуре молекулы. Наш подход состоит в развитии и использовании моделей процессов
последовательного возникновения и роста биомолекул в живой клетке (трансляция,
репликация, транскрипция). Это, с
одной стороны, приводит к значительному понижению числа возникающих локально устойчивых конфигураций
биомолекулы. C другой стороны,
оказалось, что данные модели допускают эффективное распараллеливание
вычислительных процессов, происходящих в них, и это позволяет достигать
разумного вычислительного времени при использовании современных параллельных
вычислительных систем.
Пространственная структура
молекулы строится в два этапа. Сначала
определяется ее вторичная структура, а затем третичная. Нами были предложены
принципиально новые подходы к решению указанных задач. Основная идея
определения вторичной структуры заключается в моделировании последовательного процесса
ее формирования в ходе постепенного роста молекулярной цепи. По мере роста
молекулы строится цепочка межструктурных переходов от состояния, когда
вторичная структура еще отсутствует, к состоянию, когда молекула обладает
полной локально устойчивой вторичной структурой. Во время каждого
межструктурного перехода происходит локальная минимизация свободной энергии
молекулы Последовательность этих переходов определяется тем, каким образом
образуется молекулярная цепь РНК в ходе транскрипционного процесса. Подход этот
был назван последовательным. Его применение дало заметное повышение качества
предсказания вторичных структур РНК и позволило выдвинуть гипотезу о
прерывистом характере транскрипции.
С точки зрения наиболее
энергетически сильных связей структуру молекулы РНК (ДНК) можно описывать
иерархически. Это, прежде всего, первичная
структура молекулы, описывающая ее как цепочку нуклеотидов, последовательно
соединенных наиболее сильными фосфодиэфирными связями. Некоторые нуклеотиды в
этой цепочке связаны попарно Уотсон-Криковскими связями, которые также
достаточно сильны. Структура этих связей называется вторичной структурой РНК (ДНК). В силу конечности множества
возможных Уотсон-Криковских связей число вторичных структур, которые может принимать
данная молекула РНК (ДНК), конечно, но весьма значительно. Определение реальной
вторичной структуры РНК (ДНК) по ее известной первичной структуре также
является важной фундаментальной проблемой молекулярной биологии. Под третичной структурой молекулы РНК (ДНК)
понимается пространственная форма, которую принимает ее молекулярная цепочка в
пространстве под воздействием Уотсон-Криковских и других более слабых потенциалов.
Четвертичной структурой называется
форма молекулы, которую она приобретает, связываясь в комплекс с другими
биомолекулами. Первичная структура у молекулы РНК одна, а потенциально
возможных вторичных (третичных, четвертичных) структур много.
С точки
зрения вторичной структуры все нуклеотиды в молекуле можно разбить на два
класса: спаренные (т.е. образующие Уотсон-Криковскую связь с каким-либо другим
нуклеотидом) и свободные (неспаренные).
Формально, вторичная структура РНК – это описание всех спаренных и
свободных оснований в молекулярной цепи.
Пронумеруем последовательно
нуклеотиды в молекулярной цепи, начиная от 5’ конца, так, что нуклеотид,
присоединяющийся к растущей цепи позже, имеет больший номер. Отрезок свободных оснований в
молекулярной цепи называется однонитевым. Отрезки и спаренных оснований
так, что спарен с , с ,…, с , образуют двухнитевый,
или двуспиральный, участок во вторичной структуре РНК. Однонитевые участки (и
семейства таких участков) называются петлями,
а двухнитевые – стеблями. Стебель
можно представить себе как участок винтовой лестницы, где ступеньки – это
поперечные, Уотсон-Криковские связи. Длиной стебля называется число пар
оснований в нём: . Таким образом, вторичная структура РНК – это совокупность
стеблей и петель.
Рис. 2.1. Однонитевый (петля)
и двухнитевый (стебель) элементы вторичной структуры РНК.
Типы петель во вторичной
структуре. Петлей называется замкнутая последовательность однонитевых
участков РНК, концы которых соединены Уотсон-Криковскими вторичными связями.
При этом начало каждого следующего участка соединено с концом предыдущего, а
конец последнего участка соединен с началом первого. Однонитевые участки,
входящие в состав петли, называются ее ветвями, или звеньями. Длиной петли
называется число свободных нуклеотидов, входящих в ее состав. Выделяют следующие типы петель.
a) Шпилечная петля b) Боковая петля
c) Внутренняя петля d) Многозвенная петля
Рис 2.2. Типы петель (однонитевых участков
вторичной структуры).
·
Шпилечная петля: соединяет первую и вторую нить в одном стебле.
Это простейшая однозвенная петля (она состоит из одного однонитевого участка).
Считается, что шпилечная петля всегда содержит не менее трех нуклеотидов.
·
Боковая петля: содержит два однонитевых участка, один из которых
вырожден – имеет нулевую длину (не содержит ни одного несвязанного нуклеотида).
Длина же второго участка называется длиной боковой петли.
·
Внутренняя петля: содержит два однонитевых участка. Длины этих участков являются параметрами, определяющими
петлю.
·
Многозвенная петля: содержит несколько однонитевых участков. Число
этих участков и их длины являются параметрами, определяющими петлю.
Существует несколько способов описания вторичных
структур РНК. Мы опишем два основных.
·
Геометрический способ – молекулярная цепь располагается на плоскости так,
чтобы стебли образовывали прямоугольные “лесенки”, а петли – замкнутые контуры
(как на Рис 2.2, 3.1). Такой способ дает некоторое представление о реальной
геометрии структуры молекулы.
·
Представление на окружности – молекулярная цепь располагается на
плоскости по окружности, так что движению от 5’ конца к 3’ концу соответствует движение против часовой
стрелки. Уотсон-Криковские связи при этом изображаются хордами окружности. Если никакие две хорды не пересекаются,
то говорят, что выполняется стерическое
правило.
Рис 3.1. Представление
вторичной структуры тРНК геометрически (a) и на окружности (b). Для такой структуры стерическое правило выполнено.
·
Скобочный способ: вторичная структура
представляется в виде последовательности нулей, открывающих и закрывающих
скобок. Нуль ставится в позиции, где отсутствует Уотсон-Криковская связь.
Открывающая скобка ставится, если нуклеотид связан с нуклеотидом, имеющим
больший номер. Закрывающая скобка ставится, если нуклеотид связан с
нуклеотидом, имеющим меньший номер. Такое представление возможно только в том
случае, когда выполнено стерическое правило. Для структуры Рис.3 скобочное
представление имеет следующий вид:
(((((((00((((0000000))))((((0000000))))0(((((0000000)))))00)))))))0000
·
Представление в виде
графика: вторичная структура представляется в виде кусочно-линейной функции F(x)
одного переменного, определенной на отрезке , где N – число
нуклеотидов в цепи РНК. Такое представление возможно только в том случае, когда
выполнено стерическое правило. Структура представляется в скобочной форме.
Функция определяется следующим образом. Пусть i – номер нуклеотида, а B(i) – скобочное описание (т.е. B(i)
– это ‘(', ’)’, или '0') . Пусть . Тогда
F(0) = 0
F(x) = F(i – 1) при B(i) = 0
F(x) = F(i – 1) + (x – i + 1) при B(i) = ‘(‘
F(x) = F(i – 1) – (x – i + 1) при B(i) = ‘)‘
т.е. функция постоянна при
отсутствии Утсон-Криковских связей и возрастает или убывает со скоростью 1 при
их наличии.
Рис 3.2.
Представление структуры Рис. 3.4 в виде графика.
Представив вторичную
структуру в виде функции, ее можно анализировать и сравнивать с другими
вторичными структурами, используя, например, ее частотный спектр.
·
Представление в виде матрицы
инцидентности: пусть молекулярная цепь состоит из N
нуклеотидов. Матрица инцидентности – это матрица размером такая, что , если нуклеотиды i и j соединены Уотсон-Криковской связью, и в противном случае.
·
В виде клики графа стеблей. Рассмотрим
множество всех стеблей, возможных для данной молекулы РНК. Два стебля назовем совместимыми, если они оба одновременно
могут существовать в какой-либо вторичной структуре. Введем граф стеблей. Вершинами этого графа
являются все стебли, возможные для данной молекулы РНК. Две вершины графа соединены,
если соответствующие им стебли совместимы. Пусть у нас есть какая-либо
вторичная структура. Выделим из графа стеблей подграф, состоящий из вершин,
соответствующих всем стеблям, присутствующим в данной вторичной структуре. Все
эти стебли совместимы, поэтому в выделенном подграфе все вершины попарно
соединены между собой, т.е. подграф является полным (или кликой). Обратно, если мы выделим какую-либо клику из графа
стеблей, то ей однозначно соответствует некоторая вторичная структура. Таким
образом, множества вторичных структур и клик графа стеблей равномощны.
Если в представлении вторичной структуры на
окружности никакие две хорды не пересекаются, то говорят, что выполняется стерическое условие. Перенумеруем все
нуклеотиды в молекулярной цепи, начиная с 1. Две пары нуклеотидов (p1, p2) и (q1, q2) стерически
совместимы, если их связи не “перекрещиваются”, т.е. выполнено одно из условий:
либо [p1, p2] Í [q1, q2],
либо [q1, q2] Í [p1, p2],
либо [p1, p2] Ç [q1, q2] = Æ,
где [n, m] – это целочисленный отрезок от n до m. Два стебля стерически совместимы, если
совместимы любые две составляющие их Уотсон-Криковские пары.
Если стерическое правило не
выполнено, то вторичная структура содержит псевдоузлы.
В описываемой модели предполагается, что псевдоузлы во вторичной структуре отсутствуют.
Рис. 4.1. Псевдоузел.
Рис. 4.2. Вторичная
структура тРНК может содержать один псевдоузел.
Помимо поиска
вторичной структуры исходя из условия минимизации свободной энергии, часто
используется последовательный подход,
при котором вторичная структура РНК постепенно «выращивается» путем добавления к ней или удаления из нее
некоторых групп вторичных связей. При этом происходит цепочка переходов от
одной вторичной структуры к другой. Процесс начинается с пустой структуры, в
которой вторичные связи отсутствуют, и завершается вторичной структурой, для
которой выполняются некоторые условия локального минимума свободной энергии. В
ходе одного межструктурного перехода могут или добавиться, или удалиться все
связи какого-либо одного стебля (он называется активным). Другие виды
переходов не рассматриваются.
Множество
допустимых стеблей данной вторичной
структуры составляют стебли, которые могут быть активными. Множеству допустимых
стеблей соответствует множество допустимых
переходов от данной структуры к другим. Состав множества допустимых стеблей
зависит от конкретной модели процесса структурообразования. В простейшей модели
это множество состоит из всех стеблей.
Для
данной молекулы РНК определим граф
межструктурных переходов. Его вершинами являются всевозможные вторичные
структуры, а ребрами – допустимые межструктурные переходы. Этот граф является
направленным. Каждому ребру графа
соответствует энергия перехода: это приращение свободной энергии новой
вторичной структуры по отношению к старой.
Процесс
роста вторичной структуры представляет собой путь на графе межструктурных переходов.
В
общем случае путь перехода от одной вторичной структуры к другой не
единственен.
Вероятностный конечный автомат. Имея граф
межструктурных переходов, можно построить вероятностный конечный автомат,
реализующий процесс роста вторичной структуры.
Обозначим за G(S) свободную энергию
структуры S. Пусть – энергия перехода от структуры
к структуре , где k – это номер (индекс) стебля,
которому соответствует переход. В соответствии со статистикой Гиббса
вероятность такого перехода среди других возможных переходов равна
(5.1)
где k – постоянная Больцмана, T – температура, c – нормировочный коэффициент. Видно, что
вероятность перехода тем больше, чем меньше его свободная энергия. Приписав
каждому возможному межструктурному переходу такую вероятность, мы получим
конечный автомат. Запустив его из вершины, соответствующей пустой структуре, мы
получим процесс образования вторичной структуры.
Детерминированный конечный автомат. Положив вероятность
межструктурного перехода равной единице для перехода с минимальной свободной
энергией, если она отрицательна, и равной нулю для всех остальных переходов, мы
получим детерминированный конечный автомат. Для такого автомата процесс
образования вторичной структуры заканчивается в вершине, в которой вероятности
всех переходов равны нулю. Это означает, что данной вершине соответствует
локальный минимум свободной энергии (на множестве допустимых переходов).
Свободная энергия
вторичной структуры РНК вычисляется как сумма свободных энергий ее элементов –
стеблей и петель. Единицей измерения свободной энергии принято считать
килокалорию на моль – [ккал/моль].
Свободная энергия стебля вычисляется
как сумма энергий его элементарных ячеек. Элементарная ячейка – это пара
соседних Уотсон-Криковских связей.
Рис. 6.1. Стебель и одна его
элементарная ячейка.
Энергия элементарной ячейки складывается из
энергии ее нижней (первой) Уотсон-Криковской связи и специального добавка,
который носит название энергии стэкинг-взаимодействия. Энергия
стэкинг-взаимодействия – это энергия перекрестного взаимодействия нуклеотидов
верхней и нижней Уотсон-Криковской пары.
Всего
существует 10 различных типов элементарных ячеек. Их энергии даются в специальных
таблицах, полученных экспериментально.
Рис. 6.2. Обозначения
нуклеотидных пар «XY – ZT» в элементарной ячейке.
XY – ZT
|
|
XY – ZT
|
|
XY – ZT
|
|
AU-AU
|
–0.9
|
CG-AU
|
–2.1
|
GC-CG
|
–3.4
|
UA-AU
|
–1.3
|
GC-AU
|
–2.4
|
GC-GC
|
–3.3
|
CG-UA
|
–2.0
|
GC-UA
|
–2.2
|
|
|
AU-UA
|
–1.1
|
CG-GC
|
–2.4
|
|
|
Таблица 6.1. Свободная энергия элементарных
ячеек (в килокалориях на моль).
Асимметрия стэкинг-взаимодейчствия. Из таблицы видно, что энергии ячееек
и
(т.е. CG-GC и GC-CG) существенно различны
(-2.4 и –3.4), хотя ячейки отличаются друг от друга только направлениями нитей.
Это дает нам пример того, что стэкинг-взаимодействие существенно зависит от
ориентации нитей двойной спирали.
Свободная энергия петли. Энергия петли
более точно называется энергией инициации петли. Она зависит от типа петли и от
ее длины. Длиной петли называется число неспаренных нуклеотидов в ее
однонитевых участках. Энергии коротких петель (до 10 нуклеотидов) даются в
специальных таблицах, полученных экспериментально. Энергия более длинных петель
определяется по формуле
(6.1)
|