Лекция 2
Модель
квазивидов М.Эйгена. Детерминированные и
стохастические методы описания модели
квазивидов
1. Модель квазивидов – простейшая модель эволюции информационных последовательностей.
В 70-х годах лауреат Нобелевской премии из ФРГ Манфред Эйген предпринял впечатляющую попытку построения моделей возникновения в ранней биосфере Земли молекулярно-генетических систем обработки информации [1,2]. Одна из наиболее известных моделей – модель "квазивидов", описывающая достаточно простую эволюцию полинуклеотидных (информационных) последовательностей.
В модели квазивидов рассматривается эволюция информационных последовательностей или векторов S = (S1 , S2 , ... , SN), компоненты которых принимают небольшое число n дискретных значений (для полинуклеотидных последовательностей n = 4). Предполагается, что такие последовательности способны к саморепликации (или к репликации с помощью простейших ферментных систем). Рассматривается популяция последовательностей S1 , S2 , ... , Sn и анализируется Дарвиновская эволюция этой популяции, в процессе которой отбирается квазивид: распределение сходных последовательностей, обладающих достаточно большой скоростью репликации.
2. Экспериментальные основы модели [3]:
2.1. Синтез малых полинуклеотидов. В экспериментах Л.Оргела было показано, что небольшие цепочки РНК (порядка 10 нуклетидов) способны к самореплицированию. В присутствии ионов цинка (действующего как катализатор) длина воспроизводимых цепочек достигает 40 нуклетидов.
2.2. Эволюция цепочек РНК в присутствии Qb- репликазы. Вирус Qb содержит РНК-участок длиной 220 нуклеотидов (спутниковая РНК), который реплицируется ферментом Qb - репликазой с высокой эффективностью. М. Сумпер из лаборатории М. Эйгена активно исследовал процесс эволюции РНК в присутствии Qb- репликазы. Были исследованы количественные характеристики этого процесса.
Вход: шаблон РНК (спутниковая РНК) + Qb- репликаза + богатые энергией мономеры (АТФ, УТФ, ГТФ, ЦТФ).
Выход: растущая популяция РНК, идентичных шаблону.2.3. Синтез РНК de novo. Однажды М. Сумпер сообщил, что если в раствор не вносится шаблон, то синтез РНК также возможен, но он идет значительно дольше и менее стабильно. В результате появляются цепочки РНК, сходные со спутниковой РНК. К.Биебрихер и Р. Луа (сотрудники М.Эйгена) показали, что синтез РНК de novo происходит путем постепенного удлинения РНК-цепочек.
Вход: Qb- репликаза + богатые энергией мономеры (АТФ, УТФ, ГТФ, ЦТФ).
Выход: растущая популяция РНК, сходных с шаблоном.Вывод. Эксперименты показывают, что есть процессы, которые можно интерпретировать (хотя с некоторыми натяжками) как Дарвиновскую эволюцию полинуклеотидных последовательностей.
3. Формальное описание модели – общая схема.
Приведем формальное описание
модели квазивидов.
Квазивид - модель
эволюции информационных последовательностей
[1,2,4]. Эволюционирующая популяция есть множество {Sk}
, состоящее из n последовательностей
Sk , k = 1,..., n. Каждая
последовательность представляет собой цепочку
из N символов, Ski, i = 1,..., N.
Символы выбираются из алфавита, содержащего n различных букв. Например, мы можем
рассматривать алфавит с двумя буквами (n = 2, Ski = 1, -1 или Ski
== Г, Ц) или алфавит с четырьмя буквами (n = 4, Ski = Г, Ц, A, У).
Предполагается, что длина последовательностей N
и численность популяции n велики: N, n
> > 1.
Последовательности представляют собой геномы модельных "организмов", организмы характеризуются определенными неотрицательными приспособленностями f(S) (селективными ценностями в терминологии М. Эйгена). В простейшем случае предполагается, что имеется оптимальная последовательность (the master sequence) Sm , имеющая максимальную приспособленность. Приспособленность произвольной особи S определяется расстоянием по Хеммингу r (S, Sm) между S и Sm (числом несовпадающих компонент в этих векторах), причем f(S) экспоненциально уменьшается с ростом r (S, Sm).
Эволюционный процесс состоит из последовательности поколений. Новое поколение {Sk (t+1)}получается из старого {Sk(t)} путем отбора и мутаций последовательностей Sk (t) ; здесь t – номер поколения.
Шаг 0. Формирование начальной популяции {Sk (0)}. Для каждого k = 1, ..., n, и для каждого i = 1 , ..., N , выбираем случайно символ Ski, полагая его равным произвольному символу данного алфавита. |
Шаг 1. Отбор |
|
|
Шаг 2. Мутации особей в новой популяции. Для каждого k = 1, ..., n, для каждого i = 1, ..., N, заменяем Ski(t+1) на произвольный символ алфавита с вероятностью P . Параметр P характеризует интенсивность мутаций. |
Организация последовательности поколений. Повторяем шаги 1, 2 для t = 0, 1, 2, ... |
Схему отбора проиллюстрируем следующим образом. Представим, что у нас есть рулетка. Для каждого поколения отмечаем на рулетке n секторов, долю k-го сектора (отнесенную ко всей площади круга) полагаем равной qk = fk [S l fl ]-1 (Рис. 1). Здесь мы обозначили: fk = f(Sk) . Далее n раз крутим рулетку, каждый раз определяем номер сектора, на котором останавливается стрелка, и соответствующую этому номеру особь выбираем в популяцию следующего поколения. Таким образом в следующее поколение будут отобраны n особей. При этом для каждого вращения рулетки вероятность k-й особи попасть в следующее поколение пропорциональна ее приспособленности fk .
Рис.1. Схема отбора, при которой особи выбираются в популяцию нового поколения с вероятностями qk , пропорциональными их приспособленностям fk . Показан пример, для которого n = 4, f1 = 2, f2 = 4, f3 = 1, f4 = 1.
4. Детерминированный случай – численность популяции высока: n >> n N
Характер эволюции существенно зависит от численности популяции n. Если n очень велико (n >> n N ), то численности особей каждого вида можно рассматривать как большие числа, и эволюция может рассматриваться как детерминированный процесс. В этом случае эволюционная динамика популяции может быть описана системой обыкновенных дифференциальных уравнений (или системой разностных уравнений), методы исследования которых хорошо известны. В противоположном случае (n N >> n) эволюционный процесс существенно стохастический, и здесь для характеристики основных особенностей эволюции целесообразно использовать разумные количественные оценки и методы компьютерного моделирования.В данной лекции мы ограничимся рассмотрением детерминированного случая (предел очень больших популяций).
Можно работать в дискретном времени, следуя непосредственно вышеприведенному формальному описанию модели. Каждый шаг по времени при этом соответствует одному поколению. Можно работать и в непрерывном времени, предполагая, что при переходе от поколения к поколению численности "видов" меняются незначительно (либо считая, что поколения существенно перекрываются, так что процесс эволюции можно считать непрерывным).
Основное рассмотрение проведем для случая непрерывного времени. Динамику популяции будем характеризовать следующими уравнениями:
dxk /dt = Wk xk + S l fkl xl - E xk , (1)
где xk – численность особей k - го вида, Wk - селективная ценность особей k -го вида, fkl – параметры, характеризующие мутационные потоки (Символы S l обозначают суммирование по l ), E – параметр, характеризующий общее разбавление популяции, при этом будем считать, что этот параметр таков, что суммарная численность популяции постоянна:
S l xl = n = const . (1a)
Если ввести частоты pk = xk /n, характеризующие вероятности нахождения особей разных видов в популяции, то (1) принимает вид:
dpk /dt = Wk pk + S l fkl pl - E pk , S l pl = 1. (2)
4.1. Предел малых мутаций. Уравнения Эйгена-Фишера. Фундаментальная теорема популяционной генетики для уравнений Эйгена-Фишера. Точное решение уравнений Эйгена-Фишера.
4.1.1. Рассмотрим сначала случай предельно малых мутаций ( fkl = 0). Тогда из (2) имеем:
dpk /dt = (Wk - <W>) pk , (3)
где <W> = S kWk pk - средняя селективная ценность в популяции.
Уравнение (3) часто называют уравнением Эйгена-Фишера. Проанализируем это уравнение.
Рассмотрим скорость изменения средней селективной ценности:
d<W>/dt = S k Wk (Wk - <W>) pk = S k pk (Wk2 -2 Wk<W> + Wk<W>) = S k pk (Wk2 - 2 Wk<W> + <W>2) =
= S k pk (Wk - <W>)2.
Получаем:
d<W>/dt = S k pk (Wk - <W>)2 . (4)
Уравнения (3), (4) показывают, что
Средняя селективная ценность в популяции растет, достигая стационарного значения в состоянии равновесия системы. Скорость изменения средней селективной ценности равна дисперсии селективной ценности и обращается в нуль при достижении указанного состояния равновесия.
Приведенное утверждение есть вариант фундаментальной теоремы естественного отбора Фишера (1930) для рассматриваемого здесь случая модели квазивидов. Напомню, что Р. Фишер один из основателей популяционной генетики.
Отметим, что величина W0 - <W> (W0 – значение селективной ценности в указанном состоянии равновесия) играет роль функции Ляпунова для рассматриваемой динамической системы (3).
4.1.2. Найдем общее решение динамической системы (3). Проведем элементарные выкладки.
Из (3) имеем:
d(ln pk) /dt = (Wk - <W>) , (5a)
pk(t) = pk(0) Y(t) exp(Wkt) , (5b)
Y(t) = exp (- "Интеграл от <W>(t) в пределах от t = 0 до t = t" ) . (5c)
Суммируя (5b), имеем:
Y(t) = [ S k pk(0) exp(Wkt ) ]-1 . (5d)
Итак,
pk(t) = pk(0) exp (Wkt ) [ S k pk(0) exp(Wkt ) ]-1 . (6)
Решение (6) показывает, что выживает только один вид, а именно, вид, для которого Wk имеет максимальное значение. Для этого вида в пределе бесконечного времени pk(t) стремится к 1, а для остальных видов pk(t) стремится к 0.
4.2. Учет мутаций. Переход к нормальным координатам. Концепция квазивида [1,2,5-7].
Теперь проанализируем систему уравнений (2) в общем случае. Обозначим Akl = Wk dkl + fkl .
Тогда из (2) имеем:
dpk /dt = S l Akl pl - E pk , (7a)
где с учетом нормировки S l pl = 1 величина E определяется выражением:
E = S lk Akl pl . (7b)
Вводя новые переменные
pk = ykF(t) , (7с)
F(t) = exp [ - ("Интеграл от E(t) в пределах от t = 0 до t = t" )], (7d)
получаем систему линейных дифференциальных уравнений с постоянными коэффициентами:
dyk /dt = S l Akl yl , (8)
Решение системы (8) определяется собственными векторами qjk и собственными значениями lk матрицы Akl
yk (t) = S j Cj qjk exp (ljt) , (9)
где константы Cj определяется начальными условиями.
Обратный переход к частотам видов pk осуществляется с помощью (7с), где F (t) = [S k yk]-1:
pk (t) = S j Cj qjk exp (ljt) [S k S j Cj qjk exp (ljt) ]-1 . (10)
В пределе бесконечного времени в (10) останутся только слагаемые, соответствующие максимальному собственному значению lm = max j {lj}. В этом пределе получаем распределение:
pk (t) = qmk [ S k qmk ]-1 . (11)
Таким образом, в результате эволюции отбирается не отдельный вид, а квазивид – распределение видов, в котором частоты отдельных видов пропорциональны компонентам собственного вектора, соответствующего максимальному собственному значению lm матрицы Akl . Интуитивно понятно, что при малой интенсивности мутаций этот квазивид содержит как особи с максимальной селективной ценностью, так и близкие к этому оптимальному виду мутанты.
Отметим, что здесь – стремясь проанализировать наиболее содержательную сторону модели квазивидов – мы ограничились рассмотрением простым случаем невырожденных и действительных собственных значений. Но ясно, что поскольку все определяется стандартной системой обыкновенных дифференциальных уравнений с постоянными коэффициентами, методы исследования которых хорошо известны, то более детальный анализ становится делом техники.
Уравнения модели квазивидов активно исследовались рядом специалистов во второй половине 1970-х годов. И математические детали были тщательно разобраны. Один из наиболее существенных результатов – был доказан аналог фундаментальной теоремы Фишера и при наличии мутаций (B.L. Jones, 1978, [7]).
4.3. Эволюционный процесс для Хемминговой меры близости. Расчет в дискретном времени.
Вернемся теперь к рассмотрению схемы итерационного эволюционного процесса (раздел 3) и проиллюстрируем процесс сходимости к квазивиду для случая Хемминговой меры близости между последовательностями.
Зададим приспособленности последовательностей-особей следующим образом. Предполагаем существование оптимальной особи Sm . Приспособленность произвольной особи Sk определяем формулой:
f(Sk) = exp[- br (Sk, Sm)], (12)
где r (Sk, Sm) - расстояние по Хеммингу между Sk и Sm (число несовпадающих компонент в этих векторах).
Считаем, что последовательности бинарны: алфавит содержит два символа: n = 2, Ski = 1, -1 .
Понятие расстояние по Хеммингу иллюстрируется приведенными ниже примерами:
Sm = (-1, 1, 1, -1, 1)
S1 = (-1, -1, 1, 1, -1), r (S1, Sm) = 3. S2 = (1, 1,1, 1, 1), r (S2, Sm) = 2.
Теперь у нас эволюционный процесс задан. Рассмотрим сначала случай очень больших популяций: n >>2N. Эволюционный процесс детерминирован и может быть описан системой разностных уравнений [8]:
xr (t+1) = K Ss fs msr xs (t) , (13)
где xr – число особей вида Sr , т.е. всех таких особей Sk, для которых расстояние по Хеммингу между Sk и Sm равно значению r ; t – номер поколения; K – коэффициент, характеризующий неспецифичное разбавление (или наоборот пополнение) популяции и обеспечивающий постоянность численности популяции (аналог параметру Е в уравнениях (1)); fs – приспособленность особей вида Ss , msr – матрица мутационных переходов между особями вида Ss и Sr .
В работе [8] был проведен анализ (аналитические оценки и компьютерное моделирование) системы (13) в приближении малых интенсивностей мутаций и отбора (1 >> b > P1 = PN/2 , P1 - интенсивность однократных мутаций). Основные результаты сводятся к следующему:
1) Процесс эволюции сходится к квазивиду, распределение особей в котором определяется выражением:
xr = n [r !]-1 (P1/b )r exp( - P1/b ) . (14)
2) Характерное время сходимости к квазивиду составляет
tрел = 2/b . (15)
Распределение (14) есть хорошо известное распределение Пуассона. Среднее значение расстояния r до оптимальной последовательности в этом распределении составляет
< r >стацион. = P1/b = pN/(2b) . (16)
Выражение (16) можно использовать для оценки максимальной интенсивности мутаций, при которой эволюция "находит" оптимальную особь. Требуя, чтобы величина < r >стацион. была меньше или порядка 1, получаем:
P1 < P1мах ~ b . (17)
Отметим, что такое же условие использует М.Эйген [2,3] при обсуждении порога ошибок. М.Эйген показывает, что при высокой интенсивности мутаций, нарушающих условие (17), происходит превышение порога ошибок, и генетическая информация не может быть сохранена.
5. Стохастический случай – общая характеристика процесса эволюции
Детерминированный случай может быть выполнен только для малых длин последовательностей. При N > 100 для любой разумной численности популяции эволюция в модели квазивидов должна рассматриваться как стохастический процесс (Отметим, что 2100 ~ 1030, что составляет весьма большую величину, порядка числа атомов в какой-нибудь луже первобытного океана). Особенности стохастического процесса иллюстрируются Рис 2, 3.
Рис. 2. Зависимость среднего по популяции значения расстояния по Хеммингу до "оптимальной особи" < r > от номера поколения t . Схематично, по [8]. N = 30. P1 = b = 0,033. a – рассчет для детерминированного случая (по уравнениям (13)), b – компьютерный расчет для n = 500.
Рис. 3. Эволюция распределения особей по расстоянию по Хеммингу. Схематично. n(r) – число особей вида r для данного поколения t . t3 > t2 > t1.
Рисунки демонстрируют, что
1) начальное распределение ( t
= 0) расположено в окрестности <r > = N/2;
2) процесс эволюции можно характеризовать двумя
стадиями: на первой стадии скорость уменьшения
<r >
соответствует детерминированному случаю, при
этом происходит отбор особей, расположенных
"на левом крыле" исходного распределения и
распределение "сжимается", на второй стадии
скорость уменьшения <r > в основном определяется
мутациями, в результате происходит постепенное
смещение распределения к оптимальной
последовательности;
3) окончательное распределение близко к
квазивиду, которое характеризуется балансом
между отбором и мутациями.
Отметим, что исходное распределение последовательностей имеет вид:
при r >> 1 это распределение принимает форму нормального распределения со средним <r > = N/2 и дисперсией D = N/4 :
Стохастические процессы значительно труднее исследовать, чем детерминированные, поэтому здесь больше работают не аналитические методы, а разумные оценки и компьютерное моделирование. В следующих лекциях мы получим грубые оценки скорости сходимости эволюционного процесса, но прежде рассмотрим многоэкстремальный случай: случай большого числа локальных максимумов функции приспособленности f(Sk), используя модель спиновых стекол. И тогда получим оценку как для рассмотренного здесь варианта Хемминговой меры близости, так и спин-стекольного варианта.
Литература:
1. Эйген М.
Самоорганизация материи и эволюция
биологических макромолекул. М.: Мир, 1973. 216 с.
2. Эйген М., Шустер П. Гиперцикл. Принципы
самоорганизации макромолекул. М.: Мир, 1982. 270 с.
3. Eigen, M., Gardiner, W., Schuster, P., Winkler-Oswatich, R. The origin of genetic
information. Scientific American. 1981. V. 244, N. 4, pp. 88-118.
4. Fosterling H.D., Kuhn H., Tews K.H. Computermodell zur Bildung selbstorganisierender
Systeme // Angew. Chem. 1972. Jg.84. Nr.18. S.862-856.
5. Tompson, C.J., McBride, J.L. On Eigen's theory of the self-organization of matter and
the evolution of biological macromolecules. Math. Biosci. 1974. Vol.21. pp.127-142.
6. Jones, B.L., Enns, R.H., Kangnekar, S.S. On the theory of selection of the
coupled macromolecular systems.Bull. Math. Biol. 1976. Vol.38. N.1. pp.15-28.
7. Jones, B.L. Some principles governing selection in self-reproducing
macromolecular systems. An analog of Fisher's fundumental theorem // J. Math. Biol. 1978.
Vol.6. N.2. pp.169-175.
8. Редько В.Г. Оценка скорости эволюции в моделях
Эйгена и Куна. Биофизика.1986. Т. 31. N.3. С. 511-516.
Copyright © Vladimir Red'ko, Sep 5 1999 ( redko@keldysh.ru)
Last modified: Dec 04, 1999