Лекция 4
Оценка скорости эволюции в модели квазивидов
Насколько эффективна эволюция, как процесс оптимизации? В настоящей лекции мы попытаемся в какой-то степени ответить на этот вопрос, сделав грубую оценку скорости эволюции в модели квазивидов. Мы не будем претендовать на точный механизм эволюционного возникновения новой информации или на реальную оценку скорости конкретных эволюционных процессов. Модель квазивидов – довольно абстрактная схема эволюции. Поэтому наши оценки будут несколько отстраненными от конкретных биологических механизмов эволюции. Они скорее будут характеризовать некие общие закономерности эволюционных процессов.
В предыдущих двух лекциях была рассмотрена модель эволюции информационных последовательностей – модель квазивидов – для случаев Хемминговой меры близости и "спин-стекольной" эволюции. Именно для этих случаев мы сделаем наши оценки. Отметим, что приведенные ниже оценки не являются окончательными, они характеризуют полученные к настоящему времени результаты, которые целесообразно уточнить в ходе дальнейших исследований.
1. Рассматриваемые варианты модели. Качественная картина эволюции
Общий алгоритм эволюционного процесса в модели квазивидов, параметры модели, формулы, характеризующие распределения последовательностей, и качественное описание результатов моделирования приведены в лекциях 2, 3. В модели с Хемминговой меры близости оптимизация сводится к поиску оптимальной последовательности (иначе говоря, к минимизации расстояния по Хеммингу r между рассматриваемой и оптимальной последовательностью), "спин-стекольный" эволюционный процесс может рассматриваться как минимизация энергии E спинового стекла. Качественно эволюционная динамика для рассматриваемых ситуаций иллюстрируется Рис.1.
Рис. 1. Динамика распределения последовательностей n(E) (финальное распределение показано сплошной линией) и n(r) (финальное распределение показано штриховой линией), t – номер поколения ; t2 > t1 ; E0 – глобальный минимум энергии, EL – локальный минимум энергии, в окрестности которого формируется квазивид в спин-стекольной модели эволюции. Схематично, согласно компьютерному моделированию [1,2].
В обоих случаях дисперсия исходного распределения составляет величину порядка длины последовательностей N, т.е. характерный "разброс" в исходном распределении ( t = 0) составляет величину порядка N1/2 . Напомню, что плотности распределения вероятности расстояния r (для Хемминговой меры близости) и энергии E (для спинового стекла) определяются выражениями:
и
соответственно.
Расстояние от средних значений r и E в исходных распределениях или до глобального минимума этих величин составляют 0,5 N и 0,8 N , соответственно, т.е. порядка N в обоих случаях.
Рис.1 демонстрирует, что процесс эволюции можно характеризовать двумя стадиями: на первой стадии происходит отбор особей, расположенных "на левом крыле" исходного распределения и распределение "сжимается", на второй стадии происходит постепенное смещение распределения к оптимуму. Моделирование показывает, что при больших N основное время эволюции занимает вторая стадия, на которой скорость эволюции существенно лимитируется мутациями.
На Рис.2 схематически показаны результаты численного моделирования для рассматриваемых моделей. Приведены зависимости минимального по популяции rm и Em значения r и E от номера поколения t . Кроме этого, здесь же приведены результаты моделирования эволюции для вспомогательной модели "узкого канала".
Рис. 2. Зависимости минимальных значений энергии (для спин-стекольной модели эволюции) и расстояния по Хеммингу до оптимума (для моделей с Хемминговой мерой близости и узкого канала) от номера поколения t . 1,2,3 – спин-стекольная модель эволюции. H – модель с Хемминговой мерой близости. У.К. – модель узкого канала. N = 30, b = 1. n = 100 (1,3, H, У.К), n =10 (2), Pm = 0,03 (1,2, H, У.К), Pm= 0,003 (3).
Модель узкого канала характеризует эволюцию, в которой для повышения приспособленности какой-либо особи нужно произвести мутацию в точно заданном месте, все другие мутации (кроме одной мутации к худшей особи) приводят к нежизнеспособным особям. Для нахождения оптимальной особи нужно пройти по "узкому каналу", каждый переход от имеющейся особи к лучшей должен соответствовать строго заданной замене символа информационной последовательности.
Формально модель узкого канала может быть описана следующим образом. Предполагается наличие N выделенных последовательностей-особей. Приспособленности особей определяются как fk = exp (-br (Sk, Sm)), r (Sk, Sm) = N - k, (k = 1,..., N), причем переход от k-1-й особи к k-й можно осуществить изменением знака только одного фиксированного символа. Например, для N = 4 можно положить: S1 = (1,-1,-1,-1), S2 = (1,1,-1,-1), S3 = (1,1,1,-1), S4 = (1,1,1,1). Для всех остальных (невыделенных) особей полагаем f = 0. Исходная популяция формируется из n 1-х особей.
2. Грубая количественная оценка эффективности эволюции в модели квазивидов
Сделаем оценки скорости эволюции, предполагая, что численность популяции n достаточно велика:
Tn > T , [1 - (1 - Pm) N ] n << 1, (3)
где Tn – характерное время "нейтрального отбора" [3], которое составляет величину порядка n (см. Приложение "Нейтральная модель эволюции"), T – характерное время сходимости всего эволюционного процесса к некому оптимуму (локальному или глобальному), Pm – вероятность мутации произвольного символа последовательности. Первое неравенство в (3) означает, что мы пренебрегаем нейтральным отбором, который приводит к случайной фиксации особей в популяции конечной численности. Второе неравенство соответствует пренебрежению "мутационными потерями" в популяции.
Получим оценку величины T , для определенности рассматривая спин-стекольную модель. При больших N величина T определяется второй стадией эволюции. На этой стадии "прогрессивная" эволюция происходит следующим образом. Для того чтобы появились новые особи с меньшей энергией, должно произойти достаточное количество мутаций, а затем должна произойти фиксация этих новых особей в результате отбора. Оценим характерное время t-1, за которое Em уменьшается на 1. Оно составляет:
t-1 ~ (DE) -1 ( tм + tот ) , (4)
где DE - характерное
значение вариации энергии спинового стекла при
перевороте одного спина ,
tм ~ ( NPm ) -1 –
характерное
время однократной мутации,
tот ~ (bDE) -1
ln (k-1) – характерное время, за
которое "особи" с энергией Eм - DE вытесняют из популяции
особей с энергией Eм (k – доля однократных
мутаций, при которых E уменьшается). Мы полагаем, что DE = s(dE), где s(dE) – среднее квадратическое
вариации энергии спинового стекла при
перевороте одного спина. Согласно лекции 3 s(dE) = 2 . Из приведенных соотношений для
спин-стекольной модели имеем:
t-1 ~ (DE) -1[ ( NPm ) -1 + (bDE) -1 ln (k-1) ] , DE = 2 . (5)
При замене DE --> Dr , Dr = 1 оценка (5) справедлива и для остальных рассматриваемых моделей. При этом для модели с Хемминговой мерой близости надо положить k = rN -1, а для модели узкого канала – k = N -1.
Оценим сверху характерное время эволюции T для рассматриваемых моделей, полагая k = N -1, T ~ t-1 N :
T ~ (Pm) -1 + Nb -1 lnN . (6)
Общее число особей, участвующих в эволюции, составляет nобщ = nT . Оценим величину nобщ при достаточно большой интенсивности отбора (когда можно пренебречь вторым слагаемым в (6)), полагая n ~ N, Pm ~ N -1 . С учетом сделанных предположений имеем:
nобщ ~ N 2 . (7)
Отметим, что допущения, сделанные при переходе от (5), (6) к (7), согласуются с основными предположениями (3) (первое неравенство в (3) выполняется на "пределе", так как предположения n ~ N, Pm ~ N -1 приводят к оценке T ~ n ~ Tn , но, поскольку наша оценка сделана с "запасом" и довольно грубая, то согласование между (3) и (7) вполне разумное).
Оценки (5) - (7) согласуются с результатами численных расчетов [2]. Эти оценки характеризуют скорость сходимости эволюционного процесса (формулы (5), (6)) и эффективность эволюционного метода оптимизации (формула (7)).
3. Обсуждение результатов
Интересно сравнить эволюционный метод оптимизации информационных последовательностей с известными методами. Здесь мы рассмотрим еще два простейших метода: последовательный поиск, и случайный перебор. Для определенности ограничимся случаем с Хемминговой мерой близости.
Последовательный поиск организуем следующим образом. Рассмотрим последовательность S из N символов, Si = 1 либо -1 . Последовательно перебираем символы, меняем знак символа (Si --> - Si) и смотрим: увеличилась приспособленность f(S) или уменьшилась, при увеличении приспособленности принимаем новое значение символа, при увеличении – возвращаемся к старому. В результате после N испытаний мы найдем оптимальную последовательность Sm . Таким образом, в последовательном поиске участвует ровно N последовательностей, и мы имеем: nобщ = N.
При случайном переборе для нахождения оптимальной последовательности мы должны испытать порядка 2N последовательностей. Т.е. для случайного перебора имеем: nобщ ~ 2N.
Приведенные рассуждения суммированы в таблице
Тип поиска |
nобщ |
Последовательный | N |
Эволюционный | ~ N 2 |
Случайный | ~ 2N |
Итак, приведенные оценки демонстрируют, что эволюционный процесс, как алгоритм оптимизации в определенном смысле "субоптимален": он не обеспечивает максимальную скорость поиска (для конкретной задачи возможны другие более эффективные алгоритмы, такие как последовательный перебор для случая с Хемминговой мерой близости), тем не менее, он намного быстрее случайного перебора. Учитывая, что эволюционный метод поиска прост и универсален, он может рассматриваться как хороший эвристический метод оптимизации для широкого класса задач.
Еще раз подчеркнем, что полученные результаты дают только грубую оценку эффективности эволюционного поиска в модели квазивидов. Образно говоря, полученная число (формула (7)) – "плохое число", но это число, а не общие спекуляции. Отталкиваясь от этого числа, можно усовершенствовать полученные оценки.
Отметим, что в самое последнее время начались активные исследования эффективности генетического алгоритма [4] в Институте Санта Фе (США) [5]. Генетический алгоритм - практический метод оптимизации, близкий к модели квазивидов. В последних работах специалистов из Санта Фе анализируется скорость эволюции с учетом конечности численности популяции, т. е. учитывается эффект "нейтрального отбора" [3], см. формулу (3). Результаты численного моделирования, проведенного авторами работы [4], согласуются с нашими оценками.
4. Проблемы для будущих исследований
Наметим пути дальнейшего анализа модели:
1. Попытаться найти аналитическую модель, "мажорирующую" сверху эволюционный процесс. Модель может быть сходна с моделью узкого канала (Рис.2). Например, можно предложить следующую модель:
Имеется N типов особей: sk , k = 1, ..., N. Особь k-го типа может в результате мутации перейти в особь k-1-го типа и в особь k+1-го типа. Вероятность любой из этих мутаций равна P1. P1 можно рассматривать как вероятность однократной мутации в модели квазивидов P1 = NPm , или как минимальную интенсивность мутаций: P1 = Pm . Приспособленность особей k-го типа равна fk = exp (-bk). Численность популяции равна n. Организуем эволюционный процесс точно так же, как в модели квазивидов. В результате задача упрощается: нет необходимости учитывать информационную структуру последовательностей. Должна получиться модель, близкая к модели узкого канала, но проще.
2. Провести численный параметрический анализ для "разумного" соотношения между параметрами. Например, можно положить n = N, b = Pm N = 1 и получить зависимости T (N) и <EL - E0 > (N), где EL - локальный минимум энергии, к которому сходится эволюционный процесс, <....> означает усреднение по различным реализациям эволюционных процессов.
3. Обобщить расчет на случай непарных и несимметричных взаимодействий между символами. При этом интересно использовать работы С. Кауффмана (Институт Санта Фе) по NK-автоматам [6-9]. В последнее время появился цикл работ С.А. Шумского из ФИАНа [10,11] по аналитическим методам исследования модели Кауффмана. Было бы очень интересно проанализировать возможность применения аналитических оценок Шумского для развития модели квазивидов.
Приложение. Модель "чисто нейтральной" эволюции
Нейтральный отбор играет важную роль в эволюции популяций конечной численности
n [3] . Для того чтобы продемонстрировать особенности нейтрального отбора явно, рассмотрим "чисто нейтральную" эволюционную игру, которую определим следующим образом:1. Имеется популяция черных и белых шаров, общее количество шаров в популяции равно n.
2. Эволюция состоит из последовательности поколений. Каждое поколение состоит из двух шагов. На первом шаге мы дублируем все шары, сохраняя их цвета: черный шар имеет два черных потомка, белый шар имеет два белых потомка. На втором шаге мы случайным образом удаляем из популяции ровно половину шаров с равной вероятностью для черных и белых "видов", независимо от их цвета.
Мы говорим, что популяция находится в l -состоянии, если число черных и белых шаров для рассматриваемого поколения равны l и n - l, соответственно. Будем характеризовать эволюцию вероятностями переходов Plm . Plm есть вероятность перехода из l -состояния в m -состояние в течение одного поколения. Используя простой комбинаторный расчет, можно определить значения Plm :
Матрица Plm задает случайный Марковский процесс, который может рассматриваться как пример простого стохастического эволюционного процесса [12]. Используя общие методы анализа таких процессов [12], можно показать, что:
1) рассматриваемый процесс всегда сходится к
одному из поглощающих состояний, а именно, к
0-состоянию (все шары белые), либо к n-состоянию
(все шары черные);
2) при больших n характерное число
поколений Tn , требуемое для сходимости
к какому-либо из поглощающих состояний, равно 2n
:
Tn = 2n . (2)
Таким образом, хотя данный эволюционный процесс чисто нейтральный (черно и белые шары имеют равные шансы выжить), однако в результате эволюции отбирается только один вид. Величина Tn характеризует скорость нейтрального отбора, и используется в оценках основного текста.
Литература:
Copyright © Vladimir Red'ko, Sep 29, 1999 ( redko@keldysh.ru )
Last modified: Oct 29, 1999