Головная страница ИПМ Библиотеки, издания  •  Поиск публикаций  English 
Публикация

Препринт ИПМ № 170, Москва, 2018 г.
Авторы: Князятов С.А., Малинецкий Г.Г.
Решение задачи распознавания блефа в игре «верю – не верю» с помощью алгоритмов обучения с подкреплением
Аннотация:
В работе исследуется возможность построения алгоритма на основе обучения с подкреплением для задачи распознавания и использования блефа в карточной игре «верю — не верю». Построенный алгоритм обладает «интеллектуальной способностью» перестраивать свою стратегию поведения и оценивать возможные ходы, основываясь на предыдущем опыте. Данный класс алгоритмов используется для принятия решений в быстроменяющихся средах. Описаны способ и результаты сравнения алгоритмов между собой, результаты игр лучших алгоритмов с реальным соперником. Обнаружен эффект «переобучения» — увеличение количества обучающих партий в ряде случаев не улучшает, а ухудшает качество работы алгоритма.
Ключевые слова:
обучение с подкреплением, математическое моделирование, Q-обучение, метод SARSA(λ), алгоритм распознавания блефа, имитация блефа, нейронные сети, высокоскоростное принятие решений
Язык публикации: русский, страниц: 21
Направление исследований:
Математическое моделирование в актуальных проблемах науки и техники
Полный текст: Сведения об авторах:
  • Князятов Станислав Александрович,  ,  Сибинтек
  • Малинецкий Георгий Геннадьевич,  ,  ИПМ им. М.В. Келдыша РАН