Лекция 14

"Кузнечик" – модель эволюционного возникновения целенаправленного адаптивного поведения

Материал данной лекции основан на работе: М. С. Бурцев, Р. В. Гусарев, В. Г. Редько "Модель эволюционного возникновения целенаправленного адаптивного поведения. 1. Случай двух потребностей" . Препринт ИПМ им. М.В. Келдыша РАН N 43 за 2000 год

1. Введение

Что такое целенаправленное поведение? Как оно могло возникнуть в процессе эволюции жизни на Земле?

Все живые организмы подчиняются одной общей цели. Цели поддержания и развития Жизни. Решая эту задачу, живые существа нередко проявляют сложное адаптивное поведение. Многие животные обладают способностью разбивать процесс достижения какой-либо цели на несколько этапов, поведение на каждом из которых определяется отдельной подцелью. Координируя таким образом свои действия, живые организмы добиваются высокой гибкости поведения. Подобное поведение можно назвать целенаправленным.

Целенаправленное поведение наблюдается на различных уровнях организации живой материи, от самых простых до самых сложных. При разработке нашей модели мы попытались выделить и исследовать наиболее общие функциональные свойства, определяющие возможность возникновения целенаправленного поведения.

Основная концепция, использованная нами при построении модели – концепция мотивации. Влияние мотивации на поведение животного наглядно показано в схеме функциональной системы, предложенной П. К. Анохиным [1]. Эта схема характеризует следующие свойства управления адаптивным поведением (рис. 1):

Роль мотивации – формирование цели и поддержка целенаправленных форм поведения. Мотивация может рассматриваться как активная движущая сила, которая стимулирует нахождение такого решения, которое адекватно потребностям животного в рассматриваемой ситуации.

В настоящей модели мы исследуем возможный механизм эволюционного возникновения целенаправленного поведения, обусловленного мотивациями.

Рис. 1. Кибернетическая схема функциональной системы (в духе П.К. Анохина).

2. Описание модели

2.1. Основные предположения модели

Основные предположения модели состоят в следующем:

  1. Имеется популяция агентов (искусственных организмов), имеющих естественные потребности (Энергия, Размножение).
  2. Популяция эволюционирует в простой среде, где растут лужайки травы (пища агентов). Каждый агент имеет внутренний энергетический ресурс, который пополняется при съедании травы и уменьшается при выполнении каких либо действий. Уменьшение ресурса до нуля приводит к смерти агента. Агенты могут скрещиваться. Скрещивание приводит к рождению новых агентов.
  3. Каждая потребность характеризуется количественно мотивацией. Например, если энергетический ресурс агента мал, то есть мотивация найти пищу и пополнить энергетический ресурс.
  4. Поведение агента управляется его нейронной сетью, которая имеет специальные входы от мотиваций. Если имеется определенная мотивация, то поведение агента меняется с тем, чтобы удовлетворить соответствующую потребность. Такое поведение будем называть целенаправленным (есть цель удовлетворить определенную потребность).

Для простоты мы предполагаем, что среда, в которой живут агенты, одномерна. Агенты могут перемещаться в соседние клетки и перескакивать через несколько клеток.

2.2. Наши предшественники

Мы используем в качестве "бэкграунда" следующие работы:

В частности, агенты в нашей модели подобны (но несколько проще) "организмам" модели ПолиМир [2]. Идея специальной нейронной сети (функционирование которой оптимизируется эволюционным путем), предназначенной для формирования целей агента [3,4] является прототипом нашей идеи введения специальных входов нейронной сети, которые контролируются мотивациями. Идеи о важности понятия "мотивация", высказанные авторами работ [5-7], служили стимулом для включения этого понятия в нашу модель.

Отметим также близкую по духу модель "Животное" [8,9], разработанную еще 30 лет назад под руководством талантливого кибернетика М.М. Бонгарда, в которой исследовалось поведение "организмов", имеющих определенную структуру целей.

2.3. Основные понятия модели

Потребности агента

  1. Пищевая потребность
  2. Половая потребность

Действия, которые может совершать агент

  1. Быть в состоянии покоя ("отдыхать")
  2. Двигаться (перемещаться в соседние клетки)
  3. Прыгать (через несколько клеток)
  4. Питаться
  5. Скрещиваться

Внешняя среда (агента)

  1. Одномерный массив клеток
  2. Лужайки пищи
  3. Другие агенты

Внутренняя среда

  1. Мотивация к поиску пищи, соответствующая пищевой потребности
  2. Мотивация к скрещиванию, соответствующая половой потребности

Сенсорная система

  1. Зрение, позволяющее агенту наблюдать ситуацию в ближайших клетках
  2. Датчики внутренней среды

Нейронная сеть

  1. Вход нейронной сети – сигналы сенсорной системы
  2. Выход нейронной сети – сигналы действий

2.4. Общая характеристика модели

Имеется популяция агентов. Управление агентом (выбор действий) осуществляется его нейронной сетью. Параметры нейросети (веса синапсов) модифицируются в процессе эволюции популяции агентов. Геном агента определяет веса синапсов нейронной сети.

Внешняя среда, в которой живут агенты, одномерна. Предполагается, что мир, в котором живут агенты, достаточно разбавлен: в каждой клетке (ячейке) может быть только один агент. Время дискретно. За один такт времени агент может выполнить только одно действие.

Эпизодически (случайно) на несколько тактов в каких-либо клетках появляется трава (рис. 2). Если агент находится в ячейке, где растет трава, агент может съесть траву в этой ячейке.

Рис. 2. Зависимость количества травы времени t1 и t2 соответствуют появлению и исчезновению A(t) в ячейке от времени. Моменты травы в данной ячейке.

Агенты "близорукие", а именно, любой агент видит ситуацию только в трех ячейках: в той, которой находится сам агент, и в двух соседних ячейках. Мы определяем эти 3 ячейки как "поле зрения" агента.

Агент может взаимодействовать со своими соседями (скрещиваться).

Мы полагаем, что имеются два мотивационных параметра, соответствующих потребностям агентов:

  1. мотивация к поиску пищи ME , которая соответствует пищевой потребности (потребности пополнения ресурса энергии);
  2. мотивация к скрещиванию MR , которая соответствует половой потребности.

Считаем, что мотивация к скрещиванию определяет цвет агента: чем выше эта мотивация, тем больше интенсивность синего цвета агента. Мы подразумеваем, что цвет агентов помогает им искать партнеров для скрещивания.

2.5. Взаимодействие агентов с окружающей средой и друг другом

2.5.1. Питание

Агент видит траву, находящуюся в его поле зрения. Агент может съесть пищу в той ячейке, где он находится. Мы предполагаем, что, если агент выполняет действие "есть", то он съедает всю траву в клетке за один такт времени. Питаясь, агент пополняет свой энергетический ресурс.

2.5.2. Скрещивание

Если два агента, находящиеся в соседних клетках, вырабатывают действие "скрещиваться", то возможно появление нового агента – "потомка". Геном (набор весов нейронной сети) потомка формируется на основе генома родителей при помощи рекомбинации и мутаций. Оба родителя передают часть своего энергетического ресурса потомку, полученная от родителей энергия составляет начальный ресурс потомка. Если энергетический ресурс одного или обоих родителей меньше ресурса, который необходимо передать потомку, появление нового агента не происходит, но ресурс родителей уменьшается, как и при появлении потомка, что может привести к гибели одного или обоих скрещивающихся. После удачного скрещивания рожденный агент помещается в одну из ячеек, соседних с ячейками родителей, если она свободна (в ней нет другого агента). Если обе возможные ячейки заняты, то потомок погибает. Последнее означает, что мир слишком тесен – нет "жизненного пространства" для потомка.

2.6. Физиология агентов

Опишем физиологию агентов, характеризуя взаимосвязи между действиями агента и его внутренним состоянием.

Используем следующие обозначения: R – энергетический ресурс, DR – изменение ресурса за один такт времени; ki – параметры; ME , MR – параметры, характеризующие мотивации (см. выше).

Считаем, что каждое элементарное действие (отдых, движение, прыжок, питание, скрещивание) выполняется в течение одного такта времени. Выполнение какого-либо действия приводит к изменению внутреннего ресурса агента по следующим правилам:

1) Отдых (нахождение в состоянии покоя): DR = - k1.

2) Движение (к соседней ячейке): DR = - k2 .

3) Прыжок (через несколько ячеек): DR = - k3 .

4) Питание: DR = - k4 + k5 A,

где A – количество пищи в ячейке агента в данный такт времени t .

5) Действие скрещивания: DR = - k6.

Если два агента в соседних ячейках осуществляют действие скрещивания, то возможно появление нового агента. В этом случае родители передают часть своей энергии потомку: RA = - k7, RB = - k7, где A и B – индексы родителей. Начальный ресурс потомка RS равен переданной ему (от родителей) энергии RS = 2k7 (о скрещивании см. также выше, п. 2.5.2).

Прокомментируем приведенные соотношения.

Во время отдыха агент теряет в любом случае небольшое количество ресурса (k1). Двигаясь и прыгая, агент также затрачивает некоторое количество энергетического ресурса. При еде агент теряет малое количество ресурса и получает энергию, пропорциональную количеству пищи. Выполняя действия скрещивания, агент теряет в любом случае некоторую энергию (k6). Если действия скрещивания агентов скоординированы (оба скрещиваются), то рождается потомок, и оба родителя передают часть своей энергии (k7) потомку. Если энергетический ресурс агента недостаточен для выполнения выбранного действия, то этот агент умирает.

Мотивации агента определяются следующим образом (см. рис. 3).

1) Мотивация пополнения энергетического ресурса:

ME = max {(R0-R)/R0 , 0},

где R0 – некое оптимальное значение энергетического ресурса.

2) Мотивация к скрещиванию:

MR = min {R/R1, 1},

где R1= k8R0 – значение энергетического ресурса, достаточное для размножения.

2.7. Структура нейронной сети

Мы предполагаем, что нейронная сеть агента содержит один слой нейронов (рис. 4). На входы нейронной сети поступают сигналы от сенсорных входов. Входы и нейроны связаны по принципу "все со всеми", то есть каждый нейрон получает сигналы от всех входов. Нейроны формируют выходные сигналы, которые определяют действия агента.

Рис. 4. Структура нейронной сети.

Рассмотрим входные сигналы нейронной сети.

Предполагаем, что агент получает из внешней среды следующую информацию:

  1. Наличие травы во всех ячейках поля зрения (рис. 5)
  2. Имеется ли агент в ячейке слева
  3. Имеется ли агент в ячейке справа
  4. Интенсивность синего цвета (характеризующая мотивацию к скрещиванию) соседних агентов в ячейке слева и справа.

Кроме того, из внутренней среды агент получает информацию о его мотивациях MR и ME .

Таким образом, мы имеем 3+1+1+2+2 = 9 входных сигналов нейронной сети.

Рис. 5. Схема восприятия в клеточной среде. Поле зрения агента состоит из трех клеток.

Слой нейронов определяет действия агента. Каждый нейрон соответствует одному действию. Будем считать, что агент в данный такт времени выполняет то действие, которое соответствует максимальному выходному сигнала нейрона. Перечислим действия агента.

  1. Отдых (нахождение в состоянии покоя)
  2. Движение в соседнюю ячейку влево или вправо
  3. Прыжок (через несколько ячеек)
  4. Питание
  5. Скрещивание с одним 2-х возможных соседей

Принимая во внимание, что действия 2,5 имеют два варианта, видим, что имеется 1+2+1+1+2 = 7 различных действий агента. Соответственно, нейронная сеть агента содержит 7 нейронов.

Мы предполагаем, что нейроны имеют логистическую активационную функцию:

yj = F (S i wij xi) ,

F(b) = [1+exp (-? b)]-1,

где yjвыход j-го нейрона, xi – входы нейрона, wij – синаптические веса j-го нейрона, ? – параметр активационной функции.

Входы и нейроны имеют полные межслойные синаптические связи (рис. 4), таким образом, имеется 7х9 = 63 веса.

2.8. Схема эволюции

Популяция агентов эволюционирует во времени. В течение эволюции рождаются новые агенты, а уже существующие могут погибать. Основной механизм эволюционного процесса формирование генома рождающихся агентов. Геном кодирует веса связей нейронной сети агента, каждый вес представлен отдельным геном. Всего в нейронной сети имеется 63 веса, соответственно геном можно записать как:

S = (S1, S2, …, SN), N = 63.

При появлении нового агента, его геном формируется следующим образом:

  1. осуществляется равномерная рекомбинация генов родителей;
  2. получившийся геном подвергается малым мутациям.

Равномерная рекомбинация заключается в формировании каждого гена потомка путем случайного выбора этого гена от одного из двух его родителей. В процессе мутаций к каждому гену добавляется случайная величина x, равномерно распределенная в интервале [-pm , pm]:

Si --> Si + xi , i = 1,2, …, N.

3. Моделирование

Описанная выше модель была реализована в виде программы на языке Си (Borland C++). Компиляция программы и вычислительные эксперименты проводились на персональном IBM PC совместимом компьютере под управлением операционной системы Windows 95/98/NT 4.0. Длительность одного прогона (расчет для одного набора параметров) варьировалась от 20 минут до нескольких суток в зависимости от заданных параметров модели.

3.1. Параметры эксперимента

Цель эксперимента – исследовать влияние мотиваций на поведение отдельного агента и популяции в целом. Для этого проводилось моделирование эволюции популяции агентов с "работающими" мотивациями (введенными так, как это описано выше) и с "выключенными" мотивациями (входы от мотиваций искусственно "задавливались" специальным выбором параметров R0 и R1). В обоих случаях эксперимент проводился для нескольких значений вероятности роста травы, с тем чтобы проанализировать влияние количества пищи в окружающей среде на поведение популяции.

Из разумных соображений была задана физиология агентов, т.е. были зафиксированы параметры ki, определяющие энергетические затраты DR при совершении агентом различных действий. Эти параметры, остававшийся неизменными во всех экспериментах, были заданы, исходя из следующих соображений:

  1. при выполнении действия "отдыхать" (параметр k1) агент тратит наименьшее количество запасенной энергии;
  2. при выполнении действия "есть" (k4) потери энергии DR в два раза больше, чем при выполнении действия "отдыхать";
  3. при выполнении действия "двигаться" (k2) потери энергии еще в два раза больше;
  4. затраты на "скрещивание" (k6) равны затратам на "прыжок" (k3) и в 5 раз больше чем при "движении".

Таким образом, можно записать следующие соотношения для параметров, определяющих изменение внутреннего ресурса агента при выполнении действий:

k4 = 2k1,

k2 = 2k4,

k6 = k3 = 5k2.

Напомним, что в каждый такт времени каждый агент совершает строго одно действие.

Оптимальный ресурс агента R0 (см. п. 2.6) задавался на три-четыре порядка больше, чем затраты на выполнение какого-либо действия (R0 = 104 ki), таким образом наличие оптимального ресурса позволяло агенту существовать несколько тысяч тактов времени. Значение ресурса R1, определяющее мотивацию к скрещиванию, определялось, как R1 = 0,5R0.

Количество энергии, передаваемое от одного родителя к потомку полагалось равным k7 = 0,1R0 . Т.е. с учетом того, что оба родителя передают такую энергию своему потомку, "новорожденные" агенты имели энергию 0,2R0.

Количество энергии, получаемое агентом в результате съедания "одной порции" травы, было значительно больше типичной затраты на действия, но существенно меньше оптимального ресурса и составляло 0,02R0 .

При каждом прогоне программы генерировалась начальная популяция агентов заданной численности (200 агентов). Энергетический ресурс агента начальной популяции в нулевой момент времени задавался примерно в два раза больше оптимального (R0). Вся начальная популяция состояла из агентов, которые имели один и тот же набор синаптических весов.

Каждому синаптическому весу нейронной сети агента (см. п. 2.7) в нашей модели соответствует свой номер (от 1 до 63). Нумерация весов представлена в Приложении. Отличные от нуля веса нейронной сети агентов начальной популяции представлены в таблице 1. Эти веса были заданы, исходя из изложенных ниже соображений.

Мы требовали, чтобы агенты начальной популяции имели два основных "врожденных инстинкта": 1) пополнения ресурса и 2) размножения.

Инстинкт пополнения ресурса задавался весами 5, 13, 18 (таблица 1). Этот инстинкт определяет действия агента при наличии травы в поле его зрения. Если агент видит траву в соседней клетке, то он должен двигаться к ней, если трава находится в одной с ним клетке, агент съедает ее.

При появлении в поле зрения другого агента включается инстинкт размножения, определяемый весами 23, 29. Этот инстинкт заключается в том, что при наличии соседа с ним нужно скрещиваться.

В дополнение к двум основным инстинктам был введен инстинкт "боязни тесноты", определяемый весами 24, 31. Этот инстинкт позволяет агентам сохранять свободу передвижения: если агент попадает в ситуацию, когда он с обеих сторон окружен соседями, то у него вырабатывается действие "прыгать".

Значения остальных синаптических весов (не указанных в таблице 1) для агентов начальной популяции полагалось равным нулю.

Таблица 1

Номер веса

Вход

Действие

Значение веса

5

Еда слева Двигаться влево

0,7

13

Еда рядом Есть

0,8

18

Еда справа Двигаться вправо

0,7

23

Есть сосед слева Скрещиваться влево

0,6

24

Есть сосед слева Прыгать

0,4

29

Есть сосед справа Скрещиваться вправо

0,6

31

Есть сосед справа Прыгать

0,4

 

3.2. Результаты моделирования

Основным количественным показателем, по которому мы определяли "качество жизни" агентов, была общая численность популяции. На рисунке 6 представлены зависимости общей численности популяции от времени для агентов с мотивациями (мотивации "работают") и без мотиваций (мотивации "задавлены") при различном количестве пищи в нашей клеточной среде. Количество пищи задавалось параметром Pgвероятностью случайного появления травы в каждый такт времени в каждой клетке.

Если пищи мало (рис. 6 а)) то зависимость численности популяции агентов с мотивациями и популяции агентов без мотиваций ведет себя практически одинаково. Так как травы мало, то в этом случае агенты не успевают пополнять свой ресурс, и через некоторое время (около 10 - 15 тысяч тактов), израсходовав начальную энергию, все агенты погибают.

Рис. 6. Динамика численности популяции (начальная численность популяции 200 агентов, размер мира 900 клеток) для агентов с мотивациями и без мотиваций при различных вероятностях роста травы Pg: а) Pg =1/2000 (в любой клетке трава появляется случайно в среднем через 2000 тактов); б) Pg = 1/200; в) Pg = 1/20.

При среднем количестве пищи (рис. 6 б)) популяция успешно развивается, если эволюция находит достаточно эффективную стратегию поведения агентов. Для популяции агентов с мотивациями такая стратегия находится, а для популяции без мотиваций – нет. Рисунок 6 б) демонстрирует, что в популяции агентов с мотивациями около 150-ти тысячного такта происходит благоприятная мутация, и численность популяции начинает расти. В случае отсутствия мотиваций популяция постепенно вымирает.

При избытке пищи (рис. 6 в)) агенты с мотивациями находят более эффективную жизненную стратегию, чем агенты без мотиваций: конечное число агентов в эксперименте с мотивациями более чем в полтора раза превышает численность популяции в эксперименте без мотиваций.

Итак, приведенные результаты показывают, что популяция агентов, имеющих мотивации, лучше приспосабливается к окружающей среде, чем популяция агентов без мотиваций. Этот факт подтверждается и рядом аналогичных экспериментов, выполненных для других темпов роста травы.

Рассмотрим детали формирования мотивированного поведения агентов на примере эксперимента со средним уровнем пищи (рис. 6 б)).

Рис. 7. Динамика распределения агентов по совершаемым действиям (эксперимент тот же, что и на рис. 6 б)): а) мотивации отсутствуют; б) с мотивациями; в) детали рис. 7 б).

На рис. 7 а), б) показана зависимость от времени общей численности популяции, а также численности агентов, выполняющих действия "отдыхать" и "питаться". Мы выбрали эти кривые, так как большинство агентов в популяции выполняют именно эти действия. Рисунок 7 в), на котором показана "нижняя часть" рис. 7 б) в увеличенном масштабе, дает представление об эволюции остальных действий агентов.

Видно, что на временном отрезке 0 - 10 тысяч тактов численность популяции быстро падает (с 200 примерно до 100), затем наблюдается небольшой рост. На отрезке 10 - 40 тысяч тактов доля "питающихся", составлявших подавляющее большинство в общей численности в начале эволюции, сокращается, а доля "отдыхающих" растет, это говорит о том, что происходит отбор наиболее приспособленных. Действие "отдыхать" требует наименьших затрат энергии и следовательно, когда поведение агента не направлено на удовлетворение "врожденных инстинктов", то есть, когда агент не видит травы или другого агента, ему выгодно выбирать именно это действие. На следующем этапе (50 - 150 тысяч тактов) в популяции агентов с мотивациями (рис. 7 б)) эволюция оптимизирует веса, связывающие нейроны агента с мотивационными входами, и затем начинается рост численности. В случае отсутствия мотиваций популяция постепенно вымирает.

Проведем некоторый анализ весов нейронной сети, выработанных эволюцией в эксперименте, представленном рис. 6 б) и  7.

Начальные и усредненные по популяции конечные веса синапсов нейронной сети показаны на рис. 8. Видно, что большинство весов изменяются не слишком сильно, причем часто веса, которые имеют одинаковый смысл (с учетом симметрии нашего одномерного мира), имеют разные знаки изменения. Например, веса 5 (от входа "еда слева" к выходу "двигаться влево") и 18 (от входа "еда справа" к выходу "двигаться вправо") в эволюции с мотивациями меняются по разному, т.е., скорее всего, эти изменения просто случайны. Поэтому имеет смысл обсудить только наиболее значимые изменения весов. Наибольшие изменения в эволюции с мотивациями произошли с весами 56 (от входа "мотивация к пополнению ресурса" к выходу "отдых") и 59 (от входа "мотивация к скрещиванию" к выходу "прыгать"). Причем аналогичные изменения этих весов наблюдаются и в других экспериментах. Поэтому изменения этих весов можно считать достаточно достоверными и эволюционно значимыми. В начальной популяции оба этих веса равны нулю, поэтому их изменения равны самим этим весам. Проанализируем влияние этих весов. Положительный вес 56 способствует выжидательной тактике агента, когда он хочет есть, но в его поле зрения отсутствует трава. Если агент хочет скреститься, то для этого агента отрицательный вес 59 тормозит прыжки, которые могут приводить к уходу от партнера по скрещиванию. Оба веса эти веса имеют адаптивное значение.

Рис. 8. Усредненные по всем агентам веса нейронной сети. Расшифровка обсуждаемых номеров весов представлена в тексте, полный список номеров весов приведен в Приложении.

4. Анализ и обсуждение результатов

Результаты моделирования позволяют нам представить эволюцию кибернетической схемы управления действиями агента, обладающего мотивациями.

В нашей модели агент имеет две основные потребности: потребность получать энергию и потребность размножаться. Оба этих свойства являются обязательными для любого живого организма. Энергия необходима организму для выполнения действий, размножение делает возможным выживание вида.

Работу нейронной сети агентов исходной популяции можно представить как управление в соответствии с простейшими программами действий, которые необходимо выполнять агенту при определенных внешних условиях. Так программу пополнения ресурса энергии можно представить следующим образом: 1. "ВИЖУ ЕДУ" -> "ЕСТЬ", а программу размножения: 2. "ВИЖУ СОСЕДА" -> "СКРЕЩИВАТЬСЯ" (Отметим, что в программе пополнения ресурса мы подразумеваем возможность промежуточного действия "двигаться в клетку с едой" в случае, когда агент видит еду в соседней клетке).

Естественно, что в течении "жизни" агент может встречаться с конфликтными ситуациями, когда складываются условия для выполнения обеих программ, например, когда справа от агента "трава", а слева другой агент. Для разрешения подобных конфликтов веса исходной нейронной сети были выбраны так, чтобы обеспечить несколько больший приоритет действиям, направленные на пополнение ресурса (см. таблицу 1). Так как поведение агентов эволюционирует, то изначально заданные стратегии поведения могут изменяться, возможно появление других программ действий обеспечивающих лучшую приспособленность популяции к внешней среде.

Рассмотрим сначала эволюцию стратегии поведения в популяции агентов, не обладающих мотивациями. Изначально у агентов имеются две заданные программы действий, направленные на пополнение ресурса и размножение, а в ситуации, когда возбуждение входов нейросети агента не соответствует какой-либо из программ, выбор действия ничем не определен. Через некоторое время эволюция вырабатывает для этого случая следующую программу: 3. "НЕ ВИЖУ НИЧЕГО" -> "ОТДЫХАТЬ". Теперь действия определены для любых внешних условий, и стратегию поведения агента можно описать так (рис. 9):

  1. вижу траву – есть;
  2. вижу соседа, но не вижу травы – скрещиваться;
  3. не вижу ничего – отдыхать.

Эволюционный отбор "отдыхающих", при отсутствии внешних раздражителей, агентов происходит потому, что затраты энергии на отдых минимальны.

Рис. 9. Схема управления агента без мотиваций.

Видно, что поведение агента однозначно зависит от внешних раздражителей, это можно рассматривать как поведение, состоящее из одних только простых безусловных рефлексов, когда выбор действия напрямую определяется текущим состоянием окружающей среды.

Рассмотрим теперь эволюцию системы управления агента, обладающего мотивациями. Наличие мотиваций позволяет эволюции формировать следующую модель поведения. В дополнение к трем программам, рассмотренным выше, появляется следующий уровень управления – метапрограмма, управляющая выбором выработанных программ в зависимости от мотиваций. Возникшая система управления является иерархической – при помощи мотиваций формируется управление более высокого уровня, управляющее программами, направленными на удовлетворение потребностей пополнения ресурса энергии и размножения. В случае малого ресурса мотивация к пополнению ресурса тормозит потребность в скрещивании, выключая программу 2. В случае большого ресурса включается мотивация к размножению, что делает размножение предпочтительным, хотя и потребление пищи здесь также возможно (последнее следует из анализа весов синапсов сформировавшегося в процессе эволюции генома, см. рис. 8). Найденную стратегию можно представить следующим образом (рис. 10):

  1. мало ресурса – выполнять программы 1 и 3;
  2. много ресурса – выполнять программы 1, 2 и 3.

Переход от схемы управления без мотиваций (рис. 9) к схеме с мотивациями (рис. 10) можно рассматривать метасистемный переход от простых рефлексов к сложному рефлексу, в полном соответствии с классификацией метасистемных переходов, предложенной В.Ф. Турчиным [8].

Рис. 10. Схема управления агента, обладающего мотивациями.

Переход от схемы управления без мотиваций к схеме с мотивациями можно также рассматривать как возникновение системы регулирования энергетического ресурса агентов. Данная система регулирования стремиться поддерживать ресурс в окрестности оптимальных значений R0 , R1. Более того, сделанный нами выбор параметров, определяющих затраты агента на размножение и пополнения ресурса при питании, позволяет интерпретировать данную систему регулирования, как регулирование цикла "накопление ресурса - размножение". Напомним, что при размножении агент передает потомку количество энергии, равное 0,1R0 , а при поглощении одной порции пищи увеличение его энергии составляет только 0,02R0 . После размножения агенту целесообразно накопить энергию, т.е. несколько раз поесть, а затем снова можно будет произвести потомка. Следовательно, деятельность агента можно представить в виде чередования действий, направленных на накопление ресурса и размножение. Естественно ожидать, что при эффективной "жизнедеятельности" агентов (т. е. направленной на поддержание максимальной скорости роста численности популяции), их ресурс должен поддерживаться в окрестности значений, близких к оптимальным R0, R1. Однако, если мотивации отсутствуют, то агент не может следить за своим внутренним ресурсом, т.е. данная система регулирования ресурса не работает, при наличии же мотиваций эволюция должна находить эту систему регулирования.

Экспериментальные результаты показывают, что модель демонстрирует описанный эффект (рис. 11). Для поддержания оптимального внутреннего энергетического ресурса агентам необходимо вырабатывать действие "скрещиваться" сразу же при появлении мотивации к нему (R > R1, MR = 1), и тормозить "скрещивание" в отсутствие мотивации к нему (R < R1, MR < 1). Рисунок 11 б) демонстрирует, что в популяции с мотивациями после 1 000 000 такта в значительном числе случаев средняя энергия агентов, вырабатывающих действие скрещивания, лежит в области, соответствующей оптимальным значениям ресурса (R1 < Rср < R0). Если же мотивации отсутствуют (рис. 11 а)), то эффект регулирования не наблюдается.

Рис. 11. Зависимость среднего энергетического ресурса агентов выполняющих действие "скрещиваться" от времени в логарифмическом масштабе (эксперимент тот же, что и на рис. 6 б): а) мотивации отсутствуют; б) с мотивациями.

Итак, представленные результаты демонстрируют, что поведение агента, управляемого иерархической системой, состоящей из двух уровней – уровня "врожденных инстинктов" и метауровня, обусловленного мотивациями, более эффективно, чем поведение, определяемое одними лишь безусловными рефлексами – "врожденными инстинктами". Мотивации формируют действия агента в соответствии с естественными целями – целями удовлетворения потребностей питания и размножения.

Подчеркнем, что хотя мы ставили задачу моделирования эволюционного возникновения целенаправленного поведения, подразумевая что целенаправленность исключительно важна для адаптивного поведения биологических организмов, наше исследование может служить основой для анализа более общих систем: робототехнических, производственных, экономических и социальных. В этом контексте отметим очень интересную и важную постановку широкого спектра исследований в рамках концепции "Эволюционной кибернетики", предложенной авторами (В.Ф. Турчин, Ф. Хейлигхен, К. Джослин) международного Интернет-проекта "Principia Cybernetica Project" [9]. Согласно этой концепции задача "Эволюционной кибернетики" [10] – "исследование возникновения и развития целенаправленных структур в Природе, Мышлении, Обществе и Технологиях".

5. Заключение

Основные результаты проведенного моделирования таковы:

  1. Целенаправленное поведение действительно возникает в ходе проанализированного нами эволюционного процесса. А именно, если сравнить популяцию агентов, имеющих мотивационные входы нейронной сети, с популяцией агентов, в которых эти входы искусственно "подавлены", то эволюционный процесс приводит к тому, что первая популяция (с мотивациями) имеет значительные эволюционные преимущества по сравнению со второй (без мотиваций). Мотивации обеспечивают эволюционное возникновение целенаправленности.
  2. В ходе эволюции находится интересное поведение агентов: агенты не только обучаются действовать в соответствии с ситуациями во внешней среде, но и находят стратегию поведения "не суетись" – часто агенты ничего не делают, выжидая удобного момента, когда ситуация во внешней среде изменится и нужно будут совершить действие, приводящее к полезному результату.
  3. Переход от схемы управления агентом без мотиваций к схеме с мотивациями можно рассматривать, как формирование нового уровня иерархии управления, а именно, как метасистемный переход от простых рефлексов к сложному рефлексу.

Хотя мы рассматриваем проведенное моделирование как начальный этап исследований целенаправленного адаптивного поведения, которые в дальнейшем должны включать исследование поведения с большим числом мотиваций и с более богатой схемой поведения агентов, тем не менее разработанная модель характеризует достаточно общую схему эволюционного возникновения целенаправленности и может служить основой для анализа структур управления многоагентных систем различной природы: робототехнических, производственных, экономических и социальных.

6. Приложение. Расшифровка весов нейронной сети агента

Номер веса

Вход

Действие

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

Еда слева

Еда слева

Еда слева

Еда слева

Еда слева

Еда слева

Еда слева

Еда рядом

Еда рядом

Еда рядом

Еда рядом

Еда рядом

Еда рядом

Еда рядом

Еда справа

Еда справа

Еда справа

Еда справа

Еда справа

Еда справа

Еда справа

Есть сосед слева

Есть сосед слева

Есть сосед слева

Есть сосед слева

Есть сосед слева

Есть сосед слева

Есть сосед слева

Есть сосед справа

Есть сосед справа

Есть сосед справа

Есть сосед справа

Есть сосед справа

Есть сосед справа

Есть сосед справа

Мотивация соседа слева к скрещиванию

Мотивация соседа слева к скрещиванию

Мотивация соседа слева к скрещиванию

Мотивация соседа слева к скрещиванию

Мотивация соседа слева к скрещиванию

Мотивация соседа слева к скрещиванию

Мотивация соседа слева к скрещиванию

Мотивация соседа справа к скрещиванию

Мотивация соседа справа к скрещиванию

Мотивация соседа справа к скрещиванию

Мотивация соседа справа к скрещиванию

Мотивация соседа справа к скрещиванию

Мотивация соседа справа к скрещиванию

Мотивация соседа справа к скрещиванию

Собственная мотивация к поиску пищи

Собственная мотивация к поиску пищи

Собственная мотивация к поиску пищи

Собственная мотивация к поиску пищи

Собственная мотивация к поиску пищи

Собственная мотивация к поиску пищи

Собственная мотивация к поиску пищи

Собственная мотивация к скрещиванию

Собственная мотивация к скрещиванию

Собственная мотивация к скрещиванию

Собственная мотивация к скрещиванию

Собственная мотивация к скрещиванию

Собственная мотивация к скрещиванию

Собственная мотивация к скрещиванию

Скрещиваться вправо

Скрещиваться влево

Прыгать

Двигаться вправо

Двигаться влево

Кушать

Отдых

Скрещиваться вправо

Скрещиваться влево

Прыгать

Двигаться вправо

Двигаться влево

Кушать

Отдых

Скрещиваться вправо

Скрещиваться влево

Прыгать

Двигаться вправо

Двигаться влево

Кушать

Отдых

Скрещиваться вправо

Скрещиваться влево

Прыгать

Двигаться вправо

Двигаться влево

Кушать

Отдых

Скрещиваться вправо

Скрещиваться влево

Прыгать

Двигаться вправо

Двигаться влево

Кушать

Отдых

Скрещиваться вправо

Скрещиваться влево

Прыгать

Двигаться вправо

Двигаться влево

Кушать

Отдых

Скрещиваться вправо

Скрещиваться влево

Прыгать

Двигаться вправо

Двигаться влево

Кушать

Отдых

Скрещиваться вправо

Скрещиваться влево

Прыгать

Двигаться вправо

Двигаться влево

Кушать

Отдых

Скрещиваться вправо

Скрещиваться влево

Прыгать

Двигаться вправо

Двигаться влево

Кушать

Отдых

 

7. Литература

  1. Анохин П.К. Системные механизмы высшей нервной деятельности. – М.: Наука, 1979, 453 с.
  2. Yaeger, L. (1994). Computational Genetics, Physiology, Learning, Vision, and Behavior or PolyWord: Life in a New Context. // Langton, C. G. (ed). Artificial Life III. Addison-Wesley, pp. 263-298.
  3. Ackley, D. Littman, M. (1992). Interactions between learning and evolution. // Langton, C. G., Taylor, C., Farmer, J. D., and Rasmussen, S. (Eds.) Artificial Life II. Reading, MA: Addison-Wesley. pp.487-509.
  4. Nolfi S., Parisi D. (1997). Learning to adapt to changing environments in evolving neural networks // Adaptive Behavior V.5, N.1, PP. 75-98.
  5. Tsitolovsky L.E. (1997) A model of motivation with chaotic neuronal dynamics// Journ. of Biological Systems, V. 5. N.2, pp. 301-323.
  6. Donnart, J.Y. and Meyer, J.A. (1996). Learning Reactive and Planning Rules in a Motivationally Autonomous Animat. // IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics, 26(3):381-395.
  7. Balkenius C. (1993) The roots of motivations. // In J.-A. Mayer, H. L. Roitblat and S. W. Wilson (eds.), From Animals to Animats II, Cambridge, MA: MIT Press.
  8. Моделирование обучения и поведения. М.: Наука, 1975.
  9. Гаазе-Раппопорт М.Г., Поспелов Д.А. От амебы до робота: модели поведения. М.: Наука, 1987. 288 с.
  10. Турчин В.Ф. Феномен науки. Кибернетический подход к эволюции. – М.: Наука, 1993, 295с. (1-е изд). М.: ЭТС, 2000, 368с. (2-е изд).
  11. http://pespmc1.vub.ac.be/
  12. Heylighen F. (2000): Evolutionary cybernetics // in: F. Heylighen, C. Joslyn and V. Turchin (editors): Principia Cybernetica Web (Principia Cybernetica, Brussels), URL: http://pespmc1.vub.ac.be/EVOLCYB.html

Copyright © Vladimir Red'ko Dec 19 2000 ( redko@keldysh.ru )

Last modified: Dec 19, 2000