Лекция 4

Оценка скорости эволюции в модели квазивидов

Насколько эффективна эволюция, как процесс оптимизации? В настоящей лекции мы попытаемся в какой-то степени ответить на этот вопрос, сделав грубую оценку скорости эволюции в модели квазивидов. Мы не будем претендовать на точный механизм эволюционного возникновения новой информации или на реальную оценку скорости конкретных эволюционных процессов. Модель квазивидов – довольно абстрактная схема эволюции. Поэтому наши оценки будут несколько отстраненными от конкретных биологических механизмов эволюции. Они скорее будут характеризовать некие общие закономерности эволюционных процессов.

В предыдущих двух лекциях была рассмотрена модель эволюции информационных последовательностей – модель квазивидов – для случаев Хемминговой меры близости и "спин-стекольной"  эволюции. Именно для этих случаев мы сделаем наши оценки. Отметим, что приведенные ниже оценки не являются окончательными, они характеризуют полученные к настоящему времени результаты, которые целесообразно уточнить в ходе дальнейших исследований.

1. Рассматриваемые варианты модели. Качественная картина эволюции

Общий алгоритм эволюционного процесса в модели квазивидов, параметры модели, формулы, характеризующие распределения последовательностей, и качественное описание результатов моделирования приведены в лекциях 2, 3. В модели с Хемминговой меры близости оптимизация сводится к поиску оптимальной последовательности (иначе говоря, к минимизации расстояния по Хеммингу r между рассматриваемой и оптимальной последовательностью), "спин-стекольный" эволюционный процесс может рассматриваться как минимизация энергии E спинового стекла.  Качественно эволюционная динамика для рассматриваемых ситуаций иллюстрируется Рис.1.

Lec4_1.gif (4632 bytes)

Рис. 1. Динамика распределения последовательностей n(E) (финальное распределение показано сплошной линией) и n(r) (финальное распределение показано штриховой линией),   t –  номер поколенияt2 > t1 E0 –  глобальный минимум энергии, EL –  локальный минимум энергии, в окрестности которого формируется квазивид в спин-стекольной модели эволюции. Схематично, согласно компьютерному моделированию  [1,2].

В обоих случаях дисперсия исходного распределения составляет величину порядка длины последовательностей  N, т.е.  характерный "разброс" в исходном распределении ( t = 0) составляет величину порядка N1/2 . Напомню, что плотности распределения вероятности расстояния r (для Хемминговой меры близости) и энергии E (для спинового стекла) определяются выражениями:

Lec4_2.gif (1669 bytes)

и

Lec4_3.gif (1567 bytes)

соответственно.

Расстояние от средних значений r и E  в исходных распределениях или до глобального минимума этих величин составляют 0,5 N  и  0,8 N , соответственно, т.е. порядка  N в обоих случаях.

Рис.1 демонстрирует, что процесс эволюции можно характеризовать двумя стадиями: на первой стадии происходит отбор особей, расположенных "на левом крыле" исходного распределения и распределение "сжимается", на второй стадии происходит постепенное смещение распределения к оптимуму. Моделирование показывает, что при больших N основное время эволюции занимает вторая стадия, на которой скорость эволюции существенно лимитируется мутациями.

На Рис.2 схематически показаны результаты численного моделирования для рассматриваемых моделей. Приведены зависимости минимального по популяции rm  и Em значения  r и E от номера поколения t . Кроме этого, здесь же приведены результаты моделирования эволюции для вспомогательной модели "узкого канала".

Lec4_4.gif (3776 bytes)

Рис. 2. Зависимости минимальных значений энергии (для спин-стекольной модели эволюции) и расстояния по Хеммингу до оптимума (для моделей с Хемминговой мерой близости и узкого канала) от номера поколения t . 1,2,3 –  спин-стекольная модель эволюции. H –  модель с Хемминговой мерой близости. У.К. –  модель узкого канала. N = 30, b = 1. n = 100 (1,3, H, У.К), n =10 (2), Pm = 0,03 (1,2, H, У.К), Pm= 0,003 (3).

 

Модель узкого канала характеризует эволюцию, в которой для повышения приспособленности какой-либо особи нужно произвести мутацию в точно заданном месте, все другие мутации (кроме одной мутации к худшей особи) приводят к нежизнеспособным особям. Для нахождения оптимальной особи нужно пройти по "узкому каналу", каждый переход от имеющейся особи к лучшей должен соответствовать строго заданной замене символа информационной последовательности.

Формально модель узкого канала может быть описана следующим образом. Предполагается наличие N выделенных последовательностей-особей. Приспособленности особей определяются как fk = exp (-br (Sk, Sm)), r (Sk, Sm) = N - k, (k = 1,..., N), причем переход от k-1-й особи к k-й можно осуществить изменением знака только одного фиксированного символа. Например, для  N = 4 можно положить: S1 =  (1,-1,-1,-1), S2 =  (1,1,-1,-1),  S3 =  (1,1,1,-1),  S4 =  (1,1,1,1).  Для всех остальных (невыделенных) особей полагаем  f = 0. Исходная популяция формируется из  1-х особей.

2. Грубая количественная оценка эффективности эволюции в модели квазивидов

Сделаем оценки скорости эволюции, предполагая, что численность популяции n достаточно велика:

Tn  > T ,     [1 - (1 - Pm) N ] n   <<    1,                                                             (3)

где  Tn – характерное время "нейтрального отбора"   [3], которое составляет величину порядка n   (см. Приложение "Нейтральная модель эволюции"), T – характерное время сходимости всего эволюционного процесса к некому оптимуму (локальному или глобальному),  Pm – вероятность мутации произвольного символа последовательности. Первое неравенство в (3) означает, что мы пренебрегаем нейтральным отбором, который приводит к случайной фиксации особей в популяции конечной численности. Второе неравенство соответствует пренебрежению "мутационными потерями" в популяции.

Получим оценку величины T , для определенности рассматривая спин-стекольную модель. При больших N   величина T определяется второй стадией эволюции. На этой стадии "прогрессивная" эволюция происходит следующим образом. Для того чтобы появились новые особи с меньшей энергией, должно произойти достаточное количество мутаций, а затем должна произойти фиксация этих новых особей в результате отбора. Оценим характерное время  t-1,  за которое Em уменьшается на 1. Оно составляет:

t-1   ~ (DE) -1 ( tм  + tот )       ,                                                     (4)

где DE - характерное значение вариации энергии спинового стекла при перевороте одного спина ,
tм ~ ( NPm ) -1 характерное время однократной мутации,
tот  ~ (
bDE) -1 ln (k-1) – характерное время, за которое "особи" с энергией  Eм - DE  вытесняют из популяции особей  с энергией  Eм  (k – доля однократных мутаций, при которых E уменьшается). Мы полагаем, что  DE = s(dE), где  s(dE)  – среднее квадратическое вариации энергии спинового стекла при перевороте одного спина. Согласно лекции 3 s(dE) =  2 . Из приведенных соотношений для спин-стекольной модели имеем:

t-1   ~ (DE) -1[ ( NPm ) -1   + (bDE) -1 ln (k-1) ]        ,     DE =  2 .         (5)

При замене DE --> Dr , Dr =  1 оценка (5) справедлива и для остальных рассматриваемых моделей. При этом для модели с Хемминговой мерой близости надо положить k = rN -1, а для модели узкого канала k = N -1.

Оценим сверху характерное время эволюции T  для рассматриваемых моделей, полагая k = N -1,   T ~  t-1 N :

T  ~ (Pm)   -1   + Nb -1 lnN .                                                                      (6)

Общее число особей, участвующих в эволюции, составляет nобщ = nT  . Оценим величину nобщ при достаточно большой интенсивности отбора (когда можно пренебречь вторым слагаемым в (6)), полагая n ~ N, Pm ~ N -1 . С учетом сделанных предположений имеем:

nобщ   ~   N 2   .                                                                                      (7)

Отметим, что допущения, сделанные при переходе от (5), (6) к (7), согласуются с основными предположениями (3) (первое неравенство в (3) выполняется на "пределе", так как предположения n ~ N, Pm ~ N -1 приводят к оценке T  ~ n ~ Tn , но, поскольку наша оценка сделана с "запасом" и довольно грубая, то согласование между (3) и (7) вполне разумное).

Оценки (5) - (7) согласуются с результатами численных расчетов   [2]. Эти оценки характеризуют скорость сходимости эволюционного процесса (формулы (5), (6)) и эффективность эволюционного метода оптимизации (формула (7)).

3. Обсуждение результатов

Интересно сравнить эволюционный метод оптимизации информационных последовательностей с известными методами. Здесь мы рассмотрим еще два простейших метода: последовательный поиск, и случайный перебор. Для определенности ограничимся случаем с Хемминговой мерой близости.

Последовательный поиск организуем следующим образом. Рассмотрим последовательность S из  N символов,  Si = 1 либо -1 . Последовательно перебираем символы, меняем знак символа (Si --> - Si) и смотрим: увеличилась приспособленность f(S) или уменьшилась, при увеличении приспособленности принимаем новое значение символа, при увеличении – возвращаемся к старому. В результате после N испытаний мы найдем оптимальную последовательность Sm . Таким образом, в последовательном поиске участвует ровно N последовательностей, и мы имеем: nобщ   = N.

При случайном переборе для нахождения оптимальной последовательности мы должны испытать порядка 2N последовательностей.  Т.е. для случайного перебора имеем: nобщ  ~  2N.

Приведенные рассуждения суммированы в таблице

Тип поиска

nобщ  

Последовательный N
Эволюционный ~ N 2
Случайный ~ 2N

Итак, приведенные оценки демонстрируют, что эволюционный процесс, как алгоритм оптимизации в определенном смысле "субоптимален": он не обеспечивает максимальную скорость поиска (для конкретной задачи возможны другие более эффективные алгоритмы, такие как последовательный перебор для случая с Хемминговой мерой близости), тем не менее, он намного быстрее случайного перебора. Учитывая, что эволюционный метод поиска прост и универсален, он может рассматриваться как хороший эвристический метод оптимизации для широкого класса задач.

Еще раз подчеркнем, что полученные результаты дают только грубую оценку эффективности эволюционного поиска в модели квазивидов. Образно говоря, полученная число (формула (7)) – "плохое число", но это число, а не общие спекуляции. Отталкиваясь от этого числа, можно усовершенствовать полученные оценки. 

Отметим, что в самое последнее время начались активные исследования эффективности генетического алгоритма [4] в Институте Санта Фе (США) [5]. Генетический алгоритм   - практический метод оптимизации, близкий к модели квазивидов. В последних работах специалистов из Санта Фе анализируется скорость эволюции с учетом конечности численности популяции, т. е. учитывается эффект "нейтрального отбора" [3], см. формулу (3). Результаты численного моделирования, проведенного авторами работы [4], согласуются с нашими оценками.

4. Проблемы для будущих исследований

Наметим пути дальнейшего анализа модели:

1. Попытаться найти аналитическую модель, "мажорирующую" сверху эволюционный процесс.  Модель может быть сходна с моделью узкого канала (Рис.2). Например, можно предложить следующую модель:

Имеется N типов особей: sk , k = 1, ..., N. Особь k-го типа может в результате мутации перейти в особь k-1-го типа и в особь k+1-го типа. Вероятность любой из этих мутаций равна P1. P1 можно рассматривать как вероятность однократной мутации в модели квазивидов P1 = NPm , или как минимальную интенсивность мутаций: P1 = Pm   . Приспособленность особей k-го типа равна fk = exp (-bk). Численность популяции равна n. Организуем эволюционный процесс точно так же, как в модели квазивидов. В результате задача упрощается: нет необходимости учитывать информационную структуру последовательностей. Должна получиться модель, близкая к модели узкого канала, но проще.

2. Провести численный параметрический анализ для "разумного" соотношения между параметрами. Например, можно положить n = Nb  = Pm N  = 1 и получить зависимости T (N)   и <EL - E0 > (N), где EL - локальный минимум энергии, к которому сходится эволюционный процесс, <....> означает усреднение по различным реализациям эволюционных процессов.

3. Обобщить расчет на случай непарных и несимметричных взаимодействий между символами. При этом интересно использовать работы С. Кауффмана (Институт Санта Фе) по NK-автоматам [6-9]. В последнее время появился цикл работ С.А. Шумского из ФИАНа [10,11] по аналитическим методам исследования модели  Кауффмана. Было бы очень интересно проанализировать возможность применения аналитических оценок  Шумского для развития модели квазивидов.

Приложение. Модель "чисто нейтральной" эволюции

Нейтральный отбор играет важную роль в эволюции популяций конечной численности n [3] . Для того чтобы продемонстрировать особенности нейтрального отбора явно, рассмотрим "чисто нейтральную" эволюционную игру, которую определим следующим образом:

1. Имеется популяция черных и белых шаров, общее количество шаров в популяции равно n.

2. Эволюция состоит из последовательности поколений. Каждое поколение состоит из двух шагов. На первом шаге мы дублируем все шары, сохраняя их  цвета: черный шар имеет два черных потомка, белый шар имеет два белых потомка. На втором шаге мы случайным образом удаляем из популяции ровно половину шаров с равной вероятностью для черных и белых "видов", независимо от их цвета.

Мы говорим, что популяция находится в l -состоянии, если число черных и белых шаров для рассматриваемого поколения равны  l и n - l, соответственно. Будем характеризовать эволюцию вероятностями переходов Plm . Plm   есть вероятность перехода из  l -состояния в  m -состояние в течение одного поколения. Используя простой комбинаторный расчет, можно определить значения Plm :

Lec4_5.gif (8568 bytes)

Матрица Plm  задает случайный Марковский процесс, который может рассматриваться как пример простого стохастического эволюционного процесса [12]. Используя общие методы анализа таких процессов [12], можно показать, что:

1) рассматриваемый процесс всегда сходится к одному из поглощающих состояний, а именно, к 0-состоянию (все шары белые), либо к n-состоянию (все шары черные);
2) при больших  n  характерное число поколений Tn , требуемое для сходимости к какому-либо из поглощающих состояний, равно 2n :

Tn = 2n .                                                                                              (2)

Таким образом, хотя данный эволюционный процесс чисто нейтральный (черно и белые шары имеют равные шансы выжить), однако в результате эволюции отбирается только один вид. Величина Tn характеризует скорость нейтрального отбора, и используется в оценках основного текста.

Литература:

  1. Редько В.Г. Оценка скорости эволюции в моделях Эйгена и Куна. // Биофизика.1986. Т. 31. N.3. С. 511-516.
  2. Редько В.Г. Спиновые стекла и эволюция // Биофизика. 1990. Т.35. Вып.5. С.831-834.
  3. Кимура М. Молекулярная эволюция: теория нейтральности. М.: Мир, 1985, 400 с.
  4. Holland J.H. Adaptation in natural and artifical systems. Ann Arbor: Univ. of Michigan Press, 1975. 183p.
  5. E.van Nimwegen, J.P. Crutchfield. Optimizing evolutionary search: population-size dependent theory // Santa Fe Institute working paper 98-10-090.
  6. Кауффман С. Антихаос и приспособление // В мире науки. 1991. № 10. С. 58.
  7. Kauffman S.A., Smith R.G. Adaptive automata based on Darwinian selection // Physica D. 1986. V.22. N.1-3. P.68-82.
  8. S. A. Kauffman. "Origins of order: self- organization and selection in evolution". 1993. Oxford Univ. Press, New York.
  9. Kauffman. S. A. At Home in the Universe: The Search for Laws of Self-Organization and Complexity, Oxford University Press, Oxford, 1995
  10. S.A.Shumsky, "Phase Portrait Characteristics of Random Logical Networks", // Journal of Moscow Physical Society, 2 (1992) p.263-281 (Short version in: Proceedings of the RNNS/IEEE Symposium on Neuroinformatics and Neurocomputers, Rostov-on-Don, Russia, Oct. 7-10, 0-7803-0809-3 IEEE 1992, p.145-156)
  11. S.A.Shumsky, "Computational Properties of Boolean Networks"// Complex Systems, V. 8. No5 (1994) p.337-346.
  12. S. Karlin. "A first course in stochastic processes". Academic Press. New York, London, 1968. Имеется перевод: С.Карлин. Основы теории случайных процессов. М.: Мир, 1975.

Copyright © Vladimir Red'ko,  Sep 29, 1999 ( redko@keldysh.ru )

Last modified: Oct 29, 1999