Лекция 13

Направление исследований "Адаптивное поведение"

1. From Animal to Animat– естественно-научный подход к Искусственному интеллекту

С начала 90-х годов активно развивается направление "Адаптивное поведение" [1,2]. Основной подход этого направления – конструирование и исследование искусственных (в виде компьютерной программы или робота) "организмов", способных приспосабливаться к внешней среде. Эти организмы называются "аниматами". Термин "анимат" происходит от слов animal и robot:

ANIMAL + ROBOT = ANIMAT .

Поведение аниматов имитирует поведение животных. Исследователи направления "Адаптивное поведение" стараются строить такие модели, которые применимы к описанию поведения как реального животного, так и искусственного анимата.

Программа-минимум направления "Адаптивное поведение" – исследовать архитектуры и принципы функционирования, которые позволяют животным или роботам жить и действовать в переменной внешней среде [3].

Программа-максимум этого направления – попытаться проанализировать эволюцию когнитивных способностей животных и эволюционное происхождение человеческого интеллекта.

Для исследований "Адаптивного поведения" характерен синтетический подход: здесь конструируются архитектуры, обеспечивающие "интеллектуальное" поведение аниматов. Причем это конструирование проводится как бы с точки зрения инженера: исследователь сам "изобретает" архитектуры, подразумевая конечно, что какие-то подобные структуры, обеспечивающие адаптивное поведение, должны быть у реальных животных.

2. Составляющие адаптивного поведения

Охарактеризуем составляющие поведения анимата, следуя краткому обзору, который написали Ж.-А. Мейер и А. Гуиллот [2], подводя итоги работ по адаптивному поведению, выполненных к 1994 году. Здесь мы только перечислим составляющие адаптивного поведения, которые используются в моделях аниматов. Заинтересованный читатель может более детально ознакомиться с этими исследованиями, используя обширный список литературы, представленный в [2]. См. также ссылки на литературу (и Интернет-ссылки) в конце лекции.

Анимат взаимодействует с внешней средой (Рис.1), он выполняет действия, получает информацию о внешней среде через сенсорные входы и получает подкрепления от внешней среды.

wpe11.jpg (6901 bytes)

Рис. 1. Упрощенная схема взаимодействия анимата с внешней средой.

 

2.1. Действия анимата

Во-первых, действия включает в себя движение самого анимата. Динамика анимата может быть самой разнообразной, в частности, разными авторами моделировалось движение 2-х, 4-х, 6-ти и 8-ми-ногих аниматов, а также плавающих, летающих и извивающихся как червяк "организмов".

Во-вторых, это действия с объектами в окружающей среде: схватывание объектов, толкание их, перенос с места на место. Выполнение таких действий может быть направлено на достижение каких-либо прагматических целей (которые поручает анимату его хозяин), скажем, очистка помещения от мусора.

В-третьих, это действия, имитирующие поведение животных и направленные на обеспечение жизни и "продолжение рода" аниматов: поиск пищи, избегание встречи с хищниками, поиск партнеров для скрещивания, сбивание в стадо и т.д.

И, наконец, это могут быть некоторые формы социального поведения, например, общение между аниматами на их собственном "аниматном" языке.

Действия анимата выполняются исполнительными органами, которые называют эффекторами.

2.2. Восприятие окружающего мира

Ряд исследователей изучали вопросы, связанные со спецификой сенсорных систем животных и аниматов. Например, изучалось, как слух дельфинов адаптирован к сложным задачам эхолокации, или как составные глаза мух помогают им следить за движущимися объектами. В ряде работ исследовалось способы адаптации сенсорики аниматов к решаемым ими задачам: фильтрация сигналов, фокусировка внимания на наиболее существенных объектах и т.п.

2.3. Архитектура систем управления аниматов

Поведение анимата адаптивно, если он выполняет правильные действия в правильные моменты времени. Идеально, выбор действий должен определяться 1) восприятием аниматом внешнего мира и его внутреннего состояния, 2) ожидаемыми следствиями его текущих действий и 3) прогнозом будущих событий. Иными словами, анимат должен иметь желания и быть наделенным мотивационной системой. Такая система должна все время выбирать текущую цель действий и организовывать поведение анимата в соответствии с этой целью. Эта система подразумевает, что 1) должна быть память о том, какие действия к каким следствиям приводили в прошлом, 2) должен быть планировщик, который оценивает последствия текущих действий и принимает решения в соответствии с ожидаемыми последствиями.

В традиционной робототехнике или системах искусственного интеллекта мотивационная система интеллектуального агента обычно задается как центрально управляемая организация функциональных модулей – модулей восприятия, моделирования, планирования и исполнения – которые последовательно обрабатывают и передают информацию от сенсоров к эффекторам. Конструкторы аниматов поступают иначе. Они мыслят мотивационную систему интеллектуального анимата как распределенную сеть процессоров обработки информации, которые совместно обеспечивают требуемое функционирование. Каждый такой модуль может быть непосредственно связан с сенсорами и эффекторами и может работать параллельно с другими модулями; тем самым обеспечиваются дополнительные надежность и скорость функционирования. Часто мотивационные системы реализуются на основе нейронных сетей.

2.4. Обучение

Исследователи аниматов наделяют их способностью к обучению.

В процедурах обучения может быть выделено обучение на основе подкрепления и ассоциативное обучение. При обучении на основе подкрепления (см. Рис.1) запоминается соответствие между ситуациями и действиями, которые анимат должен выполнить в той или иной ситуации. При ассоциативном обучении запоминаются связи между объектами (или ситуациями) во внешнем мире.

При обучении на основе подкрепления используют ряд хорошо разработанных методов и алгоритмов: классифицирующие системы (кратко охарактеризованные в лекции 12 ) [4], обучение с подкреплением [5], обучение в нейронных сетях (см. лекцию 11 ). Отметим, что метод обучения с подкреплением (reinforcement learning) – это самостоятельное серьезное направление кибернетических исследований. Достоинство этого метода – его сравнительная простота: наблюдают действия обучаемого объекта и в зависимости от результата поощряют, либо наказывают данный объект. Т.е. учитель поступает с обучаемым объектом примитивно: "бьет кнутом" (если действия объекта ему не нравятся), либо "дает пряник" (в противоположном случае), не объясняя обучаемому объекту, как именно нужно действовать. Подчеркнем, что здесь роль учителя может играть внешняя среда. В этом методе, как и в классифицирующих системах, большое внимание уделяется поощрению/наказанию не только текущих действий, которые непосредственно привели к положительному/отрицательному результату, но и тех действий, которые предшествовали текущим.

Ассоциативное обучение иногда связывают с биологическими приобретенными навыками, такими как классический условный рефлекс.

2.5. Планирование

Планирование подразумевает, что анимат должен не просто реагировать на текущие события, но и прогнозировать последовательность действий или событий, которые должны привести его к намеченной цели.

В идеале анимат мог бы строить модели внешнего мира, проводить "мысленные эксперименты" и планировать действия в соответствии с результатами этих "экспериментов". В [2] только отмечается возможность построения моделей внешнего мира в "сознании" аниматов.

Реально воплощены более простые схемы планирования. Пример описан в разделе 3. В приведенной там схеме планирования конечная цель действий разбивается на подцели, и анимат "планирует" выполнение последовательности действий, каждое из которых соответствует текущей ситуации и текущей подцели [3]. При этом выполнение всей последовательности приводит к достижению намеченной конечной цели.

2.6. Эволюционные аспекты

При моделировании поведения аниматов часто используются эволюционные методы, это позволяет находить конкретные структуры управления аниматом естественным, самоорганизующимся путем, без навязывания воли автора модели процессу конструирования.

3. Архитектура MonaLysa – модель мотивационного поведения

Приведем пример исследований адаптивного поведения – разработку довольно интеллектуальной архитектуры управления аниматом MonaLysa, который, функционируя в сложной среде, способен сам выделять цели и подцели адаптивного поведения. (MonaLysa – сокращение от MotivatioNAlLY autonomouS Animat). Разработка проводится в AnimatLab, Париж, Франция, под руководством одного из организаторов данного направления Ж.-А. Мейера [3].

Структура системы управления анимата представлена на Рис.2.

wpe13.jpg (32941 bytes)

Рис. 2. Схема управления анимата MonaLysa (по работе [3]).

Здесь я не буду детально описывать работу этой системы управления, так как она содержит много специальных деталей. Рисунок 2 можете воспринимать как художественную картину, получая от нее некоторое общее интуитивное впечатление об управлении аниматом.

Основная идея состоит в том, чтобы разбить задачи достижения цели на подзадачи, а затем использовать этот опыт при планировании решения новых задач.

В работе [3] исследовалось поведение на примере навигационной задачи. Анимат помещался в центральную нижнюю точку прямоугольника, и нужно было попасть в центральную верхнюю точку (Рис.3), обходя различные препятствия. Анимат мог работать в "планирующем режиме", т.е., как сказано выше, разбивать задачи на подзадачи, и планировать свои действия в соответствии с уже имеющимся опытом. Это поведение сравнивалось поведением в "реактивном режиме" – без плана, на основе только текущей видимой ситуации. Пример поведения анимата в "реактивном режиме" и "планирующем режиме" приведен на Рис.3. В "реактивном режиме" анимат знает, где расположена конечная цель, и если нет препятствия, то движется прямо к этой цели; натыкаясь на препятствие, он обходит его до тех пор, пока не появится снова возможность двигаться к прямо к цели. В "планирующем режиме" анимат на основании предшествующего опыта выделяет подцели, и движется прямо к текущей подцели, причем последняя подцель совпадает с конечной целью движения.

wpe16.jpg (14945 bytes)

                                a                                                                           b

Рис. 3. Траектории движения анимата MonaLysa в реактивном (a) и планирующем (b) режиме работы системы управления [3]. 1 – исходное положение анимата, 2 – конечная цель движения анимата. Жирной линией показаны препятствия, которые должен обойти анимат, тонкой линией – путь анимата.

Отметим, что схема анимата MonaLysa была реализована как в компьютерной программе, так и для управления реальным роботом Khepera.

4. О мотивации

Одно из ключевых понятий адаптивного поведения – мотивация. Под этим термином разные авторы понимают несколько разные вещи. По-видимому, понятие "мотивация" в адаптивном поведении это примерно так же, как понятие "энтропия" в физике – всем это очень интересно, но никто не может сказать точно, что же это такое.

Мы не будем пытаться точно определить понятие "мотивация". Мы ограничимся интуитивным пониманием термина мотивация, считая, что мотивация – это стремление к цели, не уточняя, что такое цель и что такое стремление. Вместо определения мы проиллюстрируем применение этого термина на примерах.

Один пример использования понятия мотивационная система был охарактеризован выше в архитектуре MonaLysa. Ниже мы представим еще один пример работы понятия "мотивация" модель мотивации по Л.Е. Цитоловскому [6].

5. Есть мотивация, но нет запоминания – модель Л.Е. Цитоловского

Возникновение целенаправленного поведения могло возникнуть на очень ранних стадиях эволюции. Мотивация могла сформироваться до появления приобретенных навыков, скажем, у одноклеточных организмов. Т.е. свойство индивидуальной памяти могло быть еще не "изобретено" эволюцией, а действия в соответствии с целями, и, следовательно, мотивация могла уже возникнуть.

Именно такое поведение (без памяти, но уже с мотивацией) рассматривается в модели Л.Е. Цитоловского [6]. Предположения этой модели состоят в следующем: 1) есть некоторое пространство поиска; 2) в пространстве поиска есть точки, которые соответствуют условиям гомеостаза (сочетанию оптимальных параметров для жизни организма); 3) если есть отклонения от гомеостатического оптимума, то цель организма – достичь оптимум; 4) организм ищет цель методом случайного поиска; 5) амплитуда случайного поиска тем больше, чем больше отклонения от оптимума.

Цитоловский приводит пример с червяком, которому требуется определенный уровень влажности. Если червяк попадает в сухое место, то он начинает хаотически двигаться, и чем больше отклонение влажности от требуемого для жизни организма червяка, тем больше амплитуда случайных движений. В конце концов, червяк натыкается на влажное место (например, под камнем, где влага не высохла) и там успокаивается, – гомеостаз достигнут.

Покажем, как работает такой метод случайного поиска в простейшем случае одномерного пространства параметров. Считаем, что есть параметр x , а организм ведет поиск оптимума некой функции f(x). Скажем, для приведенного выше примера величина f(x)   характеризует влажность, а величина x   – расстояние от места с оптимальной влажностью. Считаем, что мотивация M  к достижению оптимума пропорциональна отклонению от оптимума, амплитуда случайного поиска пропорциональна мотивации, сам случайный поиск состоит из последовательности шагов:

M = f(xn) - fopt ,                                                                          (1)

xn+1 = xn + M a rn ,                                                                  (2)

где a  – константа, такая что  0 < a < 1 ;  rn  – случайная величина, равная rn =  ±1 , причем  p {rn = 1} = p {rn = -1} = 0,5; n  – номер шага. Величина M a rn в (2) есть величина случайного шага. Как видно, здесь мы накладываем ограничение достаточно малой амплитуды случайных шагов.

Для простоты полагаем, что функция f(x)  линейна:  f(x) = x , а оптимальное значение функции равно нулю: fopt = 0. Очевидно, что оптимальное значение аргумента этой функции тоже равно нулю: xopt = 0. Тогда из (1), (2) имеем:

xn+1 = xn + xn a rn ,                                                                 (3)

Из (3) имеем:

xn+1 = x0 (1+ a r1) (1+ a r2) …(1+ a rn) .                                 (4)

Преобразуя (4), имеем:

ln (xn+1/x0 ) = S i 0.5 ln [(1+ a ri) /(1- a ri)] + S i 0.5 ln [1 - (a ri)2] =

= S i 0.5 ln [(1+ a ri) /(1- a ri)] + S i 0.5 ln [1 - a 2] , i =1,…, n.        (5)

Величина  ln [(1+ a ri) /(1- a ri)]  есть нечетная функция ri , следовательно, среднее значение первой суммы в правой части формул (5) равно нулю, в итоге при больших n  приближенно имеем:

ln (xn+1/x0 wpe8.jpg (698 bytes)  0.5 n ln [1 - a 2] .                                                 (6)

Так как  0 < a < 1 , то из (6) следует, что при больших n  величина xn+1   стремится к нулю, т.е. к оптимальному значению xopt  .

Как показано в [6] , такой метод стохастической оптимизации можно обобщить и на многомерный случай, правда, поиск оптимума происходит довольно медленно.

Так как есть основания считать, что мотивация и целенаправленное поведение возникли на ранних стадиях эволюции, то целесообразно попытаться промоделировать эволюционное возникновение целенаправленного поведения, предполагая самые минимальные требования на свойства "организмов". Структура такой модели будет описана в следующей лекции ( лекция 14 ).

6. Общая характеристика направлений "Искусственная жизнь" и "Адаптивное поведение"

Направления "Искусственная жизнь" (см. лекцию 12 ) и "Адаптивное поведение" имеют много общего: синтетический подход к конструированию жизнеподобных "организмов, попытка промоделировать формальные законы жизни и систем управления, ориентация на компьютерные и математические модели, использование эволюционных концепций и моделей.

Эти направления используют ряд нетривиальных компьютерных методов:

нейронные сети (см. лекцию 11 ),
классифицирующие системы (Classifier Systems) [4],
обучение на основе подкрепления (Reinforcement Learning) [5],
генетический алгоритм и другие методы эволюционной оптимизации (см.
лекцию 10 ).

В целом соотношение между направлениями "Искусственная Жизнь" и "Адаптивное Поведение", используемыми в них компьютерными методами, их научным значением и их потенциальными применениями можно представить в виде схемы, показанной на Рис. 4.

wpe17.jpg (38411 bytes)

Рис. 4. Схема междисциплинарных связей направлений "Искусственная Жизнь" и "Адаптивное Поведение".

 

Подчеркнем, что это активно развивающиеся направления исследований. По этим направлениям регулярно проводятся международные и европейские конференции "Artificial Life" (international), "European Conference on Artificial Life", "Simulation of Adaptive Behavior (From Animal to Animat)". Издаются журналы "Artificial Life" и "Adaptive Behavior".

Многочисленные ссылки по направлению исследований "Адаптивное поведение" можно найти на сайте международного общества "International Society for Adaptive Behavior" : http://www.adaptive-behavior.org/info/#101

 

Литература:

  1. Meyer J.-A., Wilson S. W. (Eds) From animals to animats. Proceedings of the First International Conference on Simulation of Adaptive Behavior. The MIT Press: Cambridge, Massachusetts, London, England. 1990.
  2. Meyer J.-A., Guillot, A. From SAB90 to SAB94: Four years of Animat research. // In: Proceedings of the Third International Conference on Simulation of Adaptive Behavior. The MIT Press: Cambridge, Cliff, Husbands, Meyer J.-A., Wilson S. W. (Eds) 1994,  See also: http://www-poleia.lip6.fr/ANIMATLAB/#Publications
  3. Donnart, J.Y. and Meyer, J.A. (1996). Learning Reactive and Planning Rules in a Motivationally Autonomous Animat. // IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics, 26(3):381-395. See also: http://www-poleia.lip6.fr/ANIMATLAB/#Publications
  4. Holland J.H., Holyoak K.J., Nisbett R.E., Thagard P. Induction: Processes of Inference, Learning, and Discovery. Cambridge: MIT Press, 1986. 416 p.
  5. R. Sutton and A. Barto. Reinforcement Learning: An Introduction. Cambridge: MIT Press, 1998. 432 p. See also: http://www-anw.cs.umass.edu/~rich/book/the-book.html
  6. Tsitolovsky L.E. (1997) A model of motivation with chaotic neuronal dynamics // Journ. of Biological Systems, V. 5. N.2, pp. 301-323.

Copyright © Vladimir Red'ko,  Nov 16, 1999 ( redko@keldysh.ru )

Last modified: Nov 16, 1999