Когнитивные системы управления роботами на поведенческих сетях



Скачать 131,5 Kb.
Дата24.04.2016
Размер131,5 Kb.
Л.А. СТАНКЕВИЧ
КОГНИТИВНЫЕ СИСТЕМЫ УПРАВЛЕНИЯ РОБОТАМИ

НА ПОВЕДЕНЧЕСКИХ СЕТЯХ

Санкт-Петербургский институт информатики и автоматизации РАН


Введение. Последние исследования в области сознательного и бессознательного поведения человека, которые дали толчок к совершенствованию интеллектуальных систем управления поведением роботов. Интеллектуальные системы предназначены для управления роботами в сложных ситуациях путем выбора рациональных поведений из имеющегося в памяти набора поведений. Их совершенствование связано с разработкой более эффективных когнитивных систем управления роботами, способных познавать среду за счет обучения и вырабатывать некоторые новые поведения в неожиданных ситуациях с использованием ментальных средств вывода при их выборе. Реализация когнитивных систем управления возможна с использованием интеллектуальных обучаемых средств, построенных на сетях логических правил, нейронных и нейрологических сетях. Обучаемые поведенческие сети являются новым вариантом реализации когнитивных систем управления роботами.

В данной работе рассмотрены возможности применения когнитивных систем управления на обучаемых поведенческих сетях, реализованных на нейрологических компонентах, в виртуальных роботах-агентах, а также реальных роботах андроидного класса.



Поведенческие системы и когнитивная теория сознания. Понятие поведения можно определить как способность системы к формированию рациональных действий роботов в соответствии с заданными целями и условиями среды. По характеру действий и механизмам их выбора можно различать реактивное поведение, с простой, но быстрой реакцией на ситуацию, основанной на использовании для формирования ответов функций или правил принятия решений, а также делиберативное (разумное) поведение с более совершенным механизмом принятия решений, основанным на логическом выводе и планировании действий. Системы, обеспечивающие реактивное или делиберативное поведение роботов в изменяющихся условиях среды, должны быть способны изменять заложенные при проектировании поведения в новых неожиданно появляющихся ситуациях за счет обучения. Такие обучаемые поведенческие системы должны иметь средства коррекции знаний о поведении в процессе функционирования. В нервной системе человека это соответствует процессам познания и сознания, которые изучаются специалистами по когнитивным наукам.

Когнитивная теория сознания Бара является физиологической теорией сознания, которая описывает функциональное построение и высоко-уровневую архитектуру системы сознания [1, 2]. Она постулирует глобальное рабочее пространство (GW – Global Workspace), где события сознания возникают и обрабатываются в распределенной системе процессоров, для которых особую важность имеет контекст. Процессоры могут рассматриваться как малые автономные бессознательные системы, каждая из которых управляет отдельной функцией. Обычно процессоры имеют прямые или не прямые коммуникации между собой. GW является разделяемой областью памяти, используемой коалицией бессознательных процессоров. Любое сообщение из GW активизирует набор бессознательных процессоров, помогающий им иметь дело с текущей ситуацией. Далее активизируется подходящий бессознательный процессор для выработки управления в новой ситуации. В любой данный момент сознание имеет дело с одиночным событием, которое является внутренне консистентным. Контекст определяется коалицией процессоров, которые сами организуются, как нужно, чтобы формировать понимание.

Поведенческие сети. В настоящее время разработано несколько вариантов поведенческих сетей, в основе которых лежат разные гипотезы когнитивной теории сознания. В этой работе рассматриваются поведенческие сети Майеса, Дорера и Франклина.

Поведенческие сети Майеса (BN – Behavior Network) [3, 4] были разработаны первыми и оказались эффективным средством реализации сложных поведенческих систем. Появилось несколько расширений поведенческих сетей Майеса на случаи управления работой объектов в динамических непрерывных средах за счет добавления зависимых от ситуаций мотивационных влияний и средств обработки информации в непрерывной области.

Расширенная поведенческая сеть Дорера (EBN - Extended Behaviour Network) [5] состоит из целей сети, модулей компетентности, и средств восприятия среды. Цель представляется условием цели, которое определяет ее статическую важность и описывает ситуацию, в которой цель удовлетворяется, и условием релевантности, которое определяет истинное значение динамической релевантности цели. Статическая важность и динамическая релевантность комбинируются, чтобы вычислить степень реализуемости цели. Модуль компетентности включает поведение, которое выполняется, когда модуль выбран, списка предусловий для определения выполняемости цели, списка эффектов и оценок ожидаемого эффекта после выполнения действий, сгенерированных этим модулем, и значения активности, которое определяет вклад модуля в достижение цели. Восприятия являются пропозициями, представляющими различные состояния среды агента. Они используются, чтобы вычислять способности модуля к выполнению поведения, релевантность цели и степень распространения активации. Чтобы достичь целенаправленного поведения, модули компетентности связываются в сеть, через которую получают активацию от целей и других модулей. Модуль компетентности получает активацию от цели, если он дает эффект, который удовлетворяет цель. Модуль может быть также заторможен целью, если эффект от его действий будет мешать удовлетворению цели. Если модуль не выполняется, он распространяет активацию к тем модулям, которые могут удовлетворить ложные предусловия. Неудовлетворенное предусловие становится подцелью сети. Чем менее удовлетворяется предусловие, тем больше активации распространяется к другим модулям. Модуль может тормозиться другими модулями, уже удовлетворившими его предусловие.

Активация модуля k в момент t является суммой всех приходящих активаций от цели , с которой модуль связан прямо или через другие модули, и предыдущей активации модуля , измененной через коэффициент затухания , т.е.



, (1)

Селекция поведения производится в цикле, содержащем следующие шаги: (1) вычисление активации каждого модуля в соответствии с выражением (1); (2) вычисление выполнимости для каждого модуля как вероятности истинности предусловия цели; (3) вычисление оценки выполнения цели, как произведения активации и выполнимости; если наивысшая оценка выше заданного порога, выбор соответствующего модуля, выполнение его поведения и переход к шагу 1; (4) иначе, уменьшение порога на малое значение и переход к шагу 1.



Расширенные поведенческие сети Франклина [6], построенные в рамках рассмотренной идеологии когнитивной теории сознания, используют модифицированный способ управления переменными в механизме выбора действий, в результате чего стало возможным обрабатывать потоки поведений. Поток поведений является набором поведений, которые служат удовлетворению одиночной цели агента. Сеть в целом сравнивает множество потоков поведений и выбирает потоки, которые удовлетворяют ее.

Когнитивные агенты на поведенческих сетях. Поведенческие сети могут быть иметь возможность обучаться с использованием специальных механизмов настройки, изменяющих параметры с целью коррекции процесса выбора поведений в новых условиях среды. Такие обучаемые поведенческие сети могут быть средством реализации когнитивных поведенческих систем или агентов. Известно несколько вариантов таких когнитивных агентов, например, CMattie [6] и LIDA [7].

Поведения, выполняемые в механизме выбора действий агента CMattie, соответствуют контекстам целей-доминант расширенной поведенческой сети Франклина. Цель может быть выражена как представление о будущем состоянии, которое помогает выбирать подцели и (или) действия, чтобы достичь намеченного состояния. Чтобы достичь состояния данной цели, соответствующее ей поведение производит коллекцию действий. Процесс обучения CMattie имеет две фазы: (1) обучение концепциям проблемной области, (2) обучение тому, как производить действия, подходящие под вновь добытые концепции. Поскольку, как уже было сказано, поведенческая сеть построена на потоках поведения, она должна быть обучена этим потокам. Поток поведений строится как частично упорядоченный план на основе действий оператора. Поэтому обучение новому потоку поведений является задачей обучения такому частично упорядоченному плану. Такое обучение реализуется с использованием планировщика, основанного на прецендентах (Case-based planner).

В когнитивном агенте LIDA (Learning Intelligent Distribution Agent), также построенном на поведенческих сетях, использованы механизмы памяти процедур и обучения процедурам, основанные на когнитивной теории сознания и обучении с подкреплением.

В данной работе обучаемые поведенческие сети реализуются на нейрологических модулях кластерного типа [8]. Отдельный, нейрологический модуль реализует когнитивную функцию поведения, т.е. отображение ситуации в действия, сформированное в процессе обучения (познания). Сеть таких модулей реализует когнитивную функцию селекции поведений, т.е. отображение для выбора по типу ситуации соответствующе когнитивной функции поведения из набора предварительно сформированных поведенческих функций.



Нейрологический модуль кластерного типа построен на основе нечетко-логического базиса, но не поддерживает стандартный нечеткий вывод. При его обучении не требуется предопределения входных термов, поскольку они формируются динамически для каждого из примеров. Кроме того, точный вектор выхода вычисляется непосредственно без дефаззификации. Обработка информации (вычисление значений когнитивной функции по запомненному при обучении отображению входного вектора X в выходной скаляр или вектор Y) в кластерном модуле производится в активаторе с использованием нечетко-логического базиса (операций «нечеткого И» и «нечеткого ИЛИ»). Пусть j(xi) является значением j-й функции принадлежности для i-й входной переменной. Тогда функция, реализованная активатором, может быть представлена выражением (2), т.е.

(2)

Здесь: n – множество входных переменных; m – множество примеров для обучения (значений функции поведения); wi – весовой коэффициент, соответствующий i-му терму переменной; k – число термов, определяющих переменную.

Обучение модуля путем настройки весовых коэффициентов и определяющих параметров функций принадлежности термов входных переменных (вершины и левой и правой границ функций) реализуется специальной процедурой настройщика модуля (обучателя).

Обучаемая поведенческая сеть робота-агента. Рассмотрим вариант обучаемой поведенческой сети для управления командной игрой робота-агента в виртуальной среде. В настоящее время существует несколько игровых виртуальных сред для проведения исследований командной работы и соревнований роботов-агентов. Наиболее известной является среда симуляционного футбола роботов (RoboCup Soccer Simulation), в которой проводятся соревнования на Кубок Роботов (RoboCup) [9]. В данной работе рассмотрен пример робота-агента для виртуальной среды баскетбола роботов RoboFIBA [10].

Среда RoboFIBA обеспечивает игру в баскетбол двух команд роботов-агентов и трехмерную визуализацию игры на компьютере. Робот-агент имеет три уровня поведения. Нижний уровень определяет набор навыков агента: бег по прямой, повороты и броски в корзину или партнеру. Средний уровень обеспечивает индивидуальное поведение агента: ведение мяча, обход противника, индивидуальная атака или защита кольца. Верхний уровень отвечает за командное поведение агента: выбор позиции для атаки или защиты, реализация пассов и др. Все три уровня были реализованы на нейрологических модулях кластерного типа. Каждый модуль своего уровня обучался отображению своей поведенческой функции, а локальная сеть уровня в целом реализовала механизм селекции поведений на этом уровне. Локальные сети всех трех уровней были соединены связями, по которым передается информация о выбранном на данном уровне поведении по принципу «каждый-каждому». Информация от верхних уровней воспринималась нижними как указание на соответствующее изменение своего поведения. Информация, передаваемая от нижних уровней, является подтверждающей исполнение поведений этими уровнями.

При разработке поведенческой сети сначала определялись предусловия целей и поведения для модулей компетенции, а затем - их связность. Обучение модулей выполнялось с использованием процедур параметрического или структурного обучения. Параметрическое обучение производилось путем изменения параметров взаимной активации узлов сети, в то время как структурное – изменением структуры сети.

Рассмотрим подробнее процедуру параметрического обучения, которая используется для определения подходящего номера активируемого модуля компетенции (в нашем случае заранее обученного определенной поведенческой функции кластерного модуля локальной сети уровня системы) и степень его активации , которые фиксируются в памяти связей каждого модуля. Для этого используется обучение с подкреплением, которое обеспечивает вычисление параметров связи подготовленных модулей, используя сигналы подкрепления.

Допустим, ситуации С1 и С2 возникают в среде агента, причем каждая ситуация может одновременно активизировать модули М1 и М2. Как следствие, степень активизации каждого модуля может увеличиться. Однако, поскольку приоритеты М1 и М2 неизвестны (потому, что номера модулей изначально не определены и нет цепочки «активизация-торможение»), любой из них может быть выбран случайно.

Теперь предположим, что случайно выбран модуль М1, и затем получен позитивный сигнал подкрепления. Чтобы сделать тенденцию выбора М1 при таких же или похожих ситуациях, можно записать номер М1 (т.е. 1) в память связей модуля М2 и увеличить степень активизации. Модификация степени активизации может производиться в соответствии с выражениями:

; (3)

. (4)

Здесь и представляют степени функции принадлежности к термам Активизации (Act - Activation) и Торможения (Inh - Inhibition), соответствующие нечеткой переменной поддержки выбора модуля компетенции (DsDegree of support). , , и являются степенями функции принадлежности к нечетким термам Пенальти (ppenalty) и Поощрения (r - reward), которые рассматриваются как термы сигнала Подкрепления R (для модуля М1 или М2). Последние 4 степени функций принадлежности могут быть вычислены, используя заданные функции принадлежности для термов p и r переменной R и подсчитывая число раз получения пенальти или поощрения, когда выбираются модули М1 или М2. Заметим, что эта процедура работает, например, чтобы поднять относительный приоритет М1 по отношению к М2. В случае, когда агент получает сигнал пенальти, номер М2 (т.е. 2) должен быть записан в память связей М1 и степень активации должна быть модифицирована аналогичным предыдущему образом. Это увеличивает относительный приоритет М1 по отношению к М2.

В нашем случае, при обучении формировались следующие поощрения и пенальти:

Таблица 1. Поощрения и пенальти для обучения сети



Вид подкрепления

Оборона

Подбор мяча

Атака

Поощрения

Противник потерял мяч

Игрок подобрал мяч

Мяч попал в кольцо

Пенальти

Мяч пропущен

Противник подобрал мяч

Мяч потерян

Также был использован следующий набор ситуаций среды и поведений агента.

Ситуации: (С1) Мяч у меня, (С2) Мяч у партнера, (С3) Мяч у противника, (С4) Мяч свободен в игре, (С5) Мяч рядом, (С6) Партнер ближе к кольцу, противника, (С7) Партнер ближе к моему кольцу, (С8) Рядом противник с мячом, (С9) Я с мячом, противник на пути к кольцу, (С10) Я в прыжке.

Поведения: (П1) Бросок по кольцу противника, (П2) Движение к кольцу противника, параллельно линии поля, (П3) Движение к кольцу противника по прямой, (П4) Стоять на месте, (П5) Движение наперерез противнику, (П6) Блокшот, (П7) Пас партнеру вперед, (П8) Пас ближайшему партнеру назад или в сторону, (П9) Прыжок, (П10) Шаг влево/вправо (выбор стороны случаен), (П11) Ловить мяч.

Эксперимент. Созданная по этим данным и обученная поведенческая сеть использована в агенте команды А, которая тестировалась в соревновании с командой В агентов, поведение которых определялось жесткой системой правил поведения, составленных разработчиком. Результаты тестовой игры показаны в таблице 2.

Таблица 2. Результаты тестовой игры

Показатели

Команда А

Команда В

Счет

10

5

2-х очковые броски (точные / всего)

2 / 8

1 / 2

3-х очковые броски (точные / всего)

2 / 7

1 / 1

Пасы (точные / всего)

33 / 64

20 / 65

Точность паса (%)

52

31

Владение мячом

52

48

Анализ игры показал, что более высокие показатели в точности паса и владении мячом у команды А обусловлены тем, что при выборе партнера для паса игрок отдает предпочтение тем партнерам, которые меньше находятся по опекой соперника и, следовательно, вероятность, что адресуемый им мяч будет перехвачен, будет меньше. Более качественная игра в пас обеспечила команде А преимущество в счете. Команда В лишь 3 раза довела свою атаку до броска по корзине, в то время как команда А совершила 15 бросков.

Заключение. Реализация когнитивных систем управления на поведенческих сетях позволяет обучать модули компетентности требуемым поведенческим функциям и обеспечить целенаправленный выбор поведений. Исследование робота-агента на обучаемой поведенческой сети, построенной на нейрологических средствах, показало возможность достижения лучшего поведения в игре, чем у робота-агента с жесткой системой правил.

Дальнейшие исследования направлены на разработку обучаемых поведенческих сетей с механизмами настройки, сочетающими параметризацию и структуризацию сети. Такие сети предполагается использовать для управления поведением андроидных роботов серии АР, которые разработаны Российской компанией «Андроидные роботы» [11].



Список литературы

1. Baars В. A Cognitive Theory of Consciousness. Cambridge University Press, New York, 1988.

2. Baars В. In The Theater of Consciousness. Oxford University Press, New York, 1997.

3. Maes Р. How to do the right thing. Connection Science. 1990.

4. Maes Р. and Brooks Р., "Learning to Coordinate Behaviors", Proceedings of the Eighth National Conference on Artificial Intelligence, AAAI Press/MIT Press, 1990, p. 796-802.

5. Dorer K. Extension Behavior Networks for Behavior Selection in Dynamic and Continuous Domain. Proceeding of Conference ECAI-2004.

6. Franklin S. (1997) Autonomous Agents as Embodied AI, Cybernetics and Systems. 28: 499-520.

7. Sidney D’Mello et al. A procedural Learning Mechanism for Novel Skill Acquisition. University of Memphis, USA, 2001.

8. Станкевич Л.А. Нейрологические средства систем управления интеллектуальных роботов. Научная сессия МИФИ-2004. VI Всероссийская НТК «Нейроинформатика-2004»: Лекции по нейроинформатике, ч.2. – М.: МИФИ, 2004, стр. 57-110.

9. RoboCup Soccer Server (http://www.robocup.org).



10. RoboFIBA Server (http://www.robofiba.narod.ru).

11. Андроидные роботы серии АР (http://www.rusandroid.ru)
Каталог: conference -> cai-08 -> files
conference -> Роль психофизиологической адаптации студентов в учебном процессе
conference -> Формирование профессионально-коммуникативной культуры студентов педагогического вуза
conference -> Конкурентоспособность выпускников вузов как ориентир государственных образовательных стандартов
conference -> Анализ и выбор средств оценки самостоятельной работы будущего бакалавра
conference -> Программа 55 ( LV) научно-методической конференции новосибирск, 201 Содержание Пленарные доклады
conference -> Взаимосвязь иноязычной коммуникативной компетентности студентов неязыковых вузов с готовностью использовать иностранный язык в Профессиональной деятельности
files -> Эмоции, априорные знания и дружесвенное поведение робота
files -> Интеграция wiki-технологии и онтологического моделирования в задаче управления знаниями предприятия 1
files -> О возможности моделирования творческого мышления методом голографии Фурье
files -> Адаптация нечёткого вывода к аппарату нечётких таблиц решений


Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©psihdocs.ru 2019
обратиться к администрации

    Главная страница