2 ноября 2018
Любопытство поможет машинам учиться
Константин Иванов
По материалам theverge.com
Когда вы играете в видеоигру, что побуждает вас продолжать это занятие?
Возможно, это слишком широкий вопрос, чтобы дать на него однозначный ответ, но все же, если вы попытаетесь подытожить, почему вы берете новый квест, открываете новый уровень или пещеру, играете новый раунд, простейшее объяснение будет таким: из любопытства. Просто чтобы посмотреть, что дальше. И, как оказалось, любопытство является очень эффективным мотивирующим фактором при обучении искусственного интеллекта игре в видеоигры.
Совсем недавно лаборатория изучения искусственного интеллекта OpenAI опубликовала исследование, где объясняется, как управляемый ИИ персонаж, обладающий чувством любопытства, превзошел своих предшественников в классической игре 1984 года от Atari «Месть Монтесумы». Конечно, успехи в «Мести Монтесумы» нельзя сравнить с такими показателями, как игра в го или в Dota 2, но, тем не менее, это большой прогресс. Когда принадлежащая Google компания DeepMind, занимающаяся ИИ, опубликовала свой доклад 2015 года, в котором объяснялось, как ИИ выигрывал в игры от Atari с использованием глубокого обучения, «Месть Монтесумы» оказалась единственной игрой, где он не набрал очков.
Проблемы именно с этой игрой кроются в несоответствии того, как играют в эту игру, и того, как учится ИИ, что также обнаруживает и слепое пятно в видении мира искусственным интеллектом.
Обычно обучение управляемого ИИ персонажа видеоиграм основывается на методе, называемом усиленным обучением. В этой парадигме персонажи внедряются в виртуальный мир и получают вознаграждения за свои действия (например, за увеличение счета) или, наоборот, штрафуются за другие (такие как потеря жизни). Управляемый ИИ персонаж начинает игру, принимая решения случайным образом, но учится путем проб и ошибок. Усиленное обучение зачастую рассматривается как способ создания более умных роботов.
Проблема игры «Месть Монтесумы» в том, что она не дает обычных наград для управляемого ИИ персонажа. Это платформер, где игроки должны исследовать подземелье пирамиды, избегая ловушек и врагов, собирая при этом ключи для открывания дверей и добывая специальные предметы. Если вы тренируете персонажа ИИ для победы в игре, то вы должны вознаграждать его за сохранение жизней и получение ключей, но как научить его сохранять определенные ключи, необходимые для конкретных предметов, а также использовать эти предметы для преодоления ловушек и прохождения уровня? Ответ: любопытство.
В исследовании OpenAI их персонаж вознаграждался не только за перепрыгивание ям с кольями, но и за открытие новых частей пирамиды. Это позволило добиться более высокой эффективности, чем у человека, бот набирал в среднем более 10 000 очков за девять прохождений, тогда как игроки-люди имеют средний счет около 4 000. В одном из прохождений персонаж ИИ сумел даже пройти один из игровых уровней.
«Предстоит еще много над чем работать», — говорит Харрисон Эдвардс из OpenAI в интервью The Verge. «Но уже сейчас у нас есть система, которая позволяет исследовать многие комнаты, получить множество наград и случайно, но пройти первый уровень». Он добавляет, что все последующие уровни игры сходны с первым, так что полное прохождение игры – просто вопрос времени.
Преодоление «Проблемы ТВ-помех»
Команда OpenAI далеко не первая в своем начинании, разработчики искусственного интеллекта разрабатывают концепцию «любопытства» как мотивации уже десятилетия. Они также обращались к игре «Месть Монтесумы», но до сих пор никому не удавалось добиться такого успеха для ИИ без обращения к обучению через человеческий пример.
Таким образом, получается, что хотя в общем виде теория хорошо проработана, на практике в конкретных решениях все еще возникают проблемы. Например, любопытство, основанное на прогнозировании, пригодно только для обучения в играх определенного типа. Оно будет работать в играх типа «Марио», где есть большие уровни для исследования, а также достаточно много не встречавшихся ранее в сценарии боссов и врагов. Но в более простых играх типа Pong ИИ будет предпочитать длительные матчи реальной победе над оппонентом. Вероятно, по той причине, что победа в игре более предсказуема, чем траектория полета мячика.
Другая проблема известна как «Проблема ТВ-помех». Она возникает в момент, когда управляемый ИИ персонаж был запрограммирован на поиск нового опыта, но стал возвращаться к случайным паттернам, как телевизор, ловящий при настройке статический шум, но запоминающий его как ТВ-канал. Это происходит по той причине, что такие персонажи обладают чувством «интересного» и «нового», построенном на прогнозировании будущего. До того, как предпринять некое действие, они прогнозируют, как изменится игра после него. Если предсказание было верным, то это может быть воспринято как столкновение с уже известной частью игры. Этот механизм получил название «Ошибка предсказания».
А поскольку статический шум непредсказуем, то получается, что любой искусственный интеллект, столкнувшийся с «ТВ-помехами» (или любым другим непрогнозируемым стимулом), оказывается загипнотизирован. Представители OpenAI сравнивают эту проблему с азартными людьми, которые страдают зависимостью от игровых автоматов, будучи не в силах оторваться от них, поскольку не могут предугадать следующий результат.
В новом исследовании OpenAI эта проблема обходится изменением алгоритма прогнозирования будущего искусственным интеллектом. Полная методология, получившая название Random Network Distillation, весьма сложна, но Эдвардс и его коллега Юрий Бурда сравнивают ее с сокрытием секрета от ИИ в каждом экране игры. Этот секрет является случайным и бессмысленным (типа вопроса «какой цвет в левом верхнем углу экрана?»), но он заставляет управляемого ИИ персонажа исследовать уровень без попадания в ловушку ТВ-помех.
Что более важно, такая мотивация не требует проведения вычислений, что имеет большое значение. Такой метод усиленного обучения основывается на огромном количестве данных, которые требуются для тренировки персонажа ИИ (для бота команды OpenAI опыт игры в «Месть Монтесумы» эквивалентен трем годам реального времени), так что каждый шаг на пути исследований должен быть как можно более быстрым.
Артур Джулиани, программист из Unity и эксперт по машинному обучению, говорит о том, что делает работу команды OpenAI такой впечатляющей. «Метод, который они использовали, действительно предельно простой, но, тем не менее, на удивление эффективный, — говорит Джулиани в интервью The Verge. – Он действительно намного проще других методов исследования, которые проверяли на играх в прошлом и которые не дали такого же впечатляющего результата». Джулиани отмечает, что сходство между различными уровнями игры «Месть Монтесумы» в работе OpenAI «по существу эквивалентно» прохождению игры, но добавляет, что «тот факт, что они не смогли добиться устойчивого прохождения первого уровня, говорит о том, что еще есть над чем работать». Он также не уверен в том, что такой метод будет работать в трехмерных играх, где визуальные эффекты более тонкие, а мир рассчитан на взгляд от первого лица. «В сценариях, где требуется исследование, но различия между частями окружающей обстановки более тонкие, метод может не работать», — говорит Джулиани.
В чем смысл любопытства
А зачем нам вообще нужен искусственный интеллект, обладающий любопытством? Какую полезную работу он может выполнять, кроме как обеспечивать забавные параллели с людской способностью отвлекаться на случайные события.
Главная причина – любопытство позволяет компьютерам учиться самостоятельно.
Большая часть машинного обучения, используемого в настоящий момент, может быть разделена на два лагеря. В первом машины обучаются, просматривая громадные объемы информации, вырабатывая паттерны, которые они могли бы применить к аналогичным проблемам. Во втором их внедряют в определенную среду и вознаграждают за достижение определенного результата, используя усиленное обучение.
Оба этих подхода эффективны применительно к определенным заданиям, они также требуют больших трудозатрат со стороны людей по предоставлению данных для тренировки или разработке функций вознаграждения в виртуальной среде. Если же дать искусственному интеллекту внутренний стимул для исследования ради исследования, то часть человеческого труда станет ненужной, и люди станут тратить меньше времени на направление искусственного интеллекта на правильный путь.
Эдвард и Бурда из OpenAI говорят, что эта часть обучающей системы, основанной на любопытстве, гораздо больше подходит для создания компьютерных программ, которые должны взаимодействовать с реальным миром. Кроме всего прочего, в реальности, как и в «Мести Монтесумы», моментальное вознаграждение бывает редко, нам нужно работать, учиться и исследовать в течение долгого времени, прежде чем получить что-нибудь взамен. Любопытство заставляет нас идти вперед. Возможно, с компьютерами будет та же история.
Ну машины может и так а я для того чтобы время убить
Авторы АМР, пожалуйста, не делайте длинных подписей к фото — на мобильных устройствах они перекрывают добрую часть картинки, особенно в зуме, когда есть желание рассмотреть что-то подробнее. https://uploads.disquscdn.com/images/7f9dbaa2ab36e14eb22524a7bff1638cf1f57c1d38d6c6f0f8804a603f23d0b9.jpg https://uploads.disquscdn.com/images/5fc06bb4ae7f3933ac28ade2ff62b4130fd2527e3f048eda16a1b158e675967c.jpg
Самого сейчас вопросы машинного обучения иересуют. И прихожу к мнению, что космические схемы не конкурентны. Да, можно используя огромные вычислительные мощности научить программу вводит авто, переводить тексты и тд. Но вот поддерживать диалог не умеет ни один интеллектуальный помощник. Не позвонить куда-то и по шаблону что-то сказать, а действительно поддержать диалог .Быть в курсе, что происходит у человека, фильтровать новости интересные, помнить о прошлых проблемах, которые волновали собеседника и тд
Вот на полу жук, куда то ползёт…
Что им двигает? Любопытство?
Не думаю…
Вот он остановился.
О чём он думает? О том есть ли жизнь на Марсе?
Не думаю…
Ну вы поняли)))