31 мая 2019
Голосовое программирование: то, что изменит нашу жизнь
Константин Иванов
Голос – это то, что вдыхает жизнь в искусственный интеллект. Так говорит Джеймс Влахос, программист, журналист и писатель, автор книги Talk to Me: How Voice Computing Will Transform the Way We Live, Work, and Think. Именно ему принадлежит уникальный эксперимент – цифровая копия его умирающего от рака отца. Использовав появившиеся в Facebook Messenger инструменты для создания чат-ботов и многие часы диктофонных записей с отцовскими историями, байками и рассуждениями, Влахос при поддержке отца фактически добился для него своего рода бессмертия. Но речь сегодня пойдет не об этом проекте.
Интервью с Джеймсом посвящено голосу как «провоцирующему воображение» аспекту технологии, который уже многие годы фигурирует в научной фантастике. И сейчас, по мнению писателя, именно голос должен изменить все. Голосовые ассистенты уже могут говорить и демонстрировать индивидуальность. И по мере развития технологии она принесет множество вопросов, с которыми мы никогда не сталкивались.
Что на самом деле происходит, когда мы говорим с кем-то вроде Алексы и она нам отвечает?
Если вы поговорили с Сири или Алексой, сказали что-то и услышали что-то в ответ, вам кажется, что происходит один процесс. Но в реальности стоит воспринимать его как совокупность вещей, каждую из которых трудно выделить.
Прежде всего, звуковые волны вашего голоса должны быть сконвертированы в слова, это автоматическое распознавание голоса (automatic speech recognition, ASR). Затем слова должны быть переведены компьютером, чтобы он мог осознать их значение, и это уже понимание естественного языка (NLU, natural language understanding). Если значение было каким-то образом понято, компьютер должен сказать что-то в ответ, и это генерация естественного языка (NLG, natural language generation). Если ответ был сформулирован, происходит синтез речи, когда слова берутся в компьютере и переводятся обратно в звук.
Каждый из этих компонентов очень сложен. Это не то, что компьютер просто «залез в словарь посмотреть слово». Компьютеру надо понять, как функционируют люди и мир, чтобы быть способным ответить.
Есть ли какие-то впечатляющие успехи в данной области, которые вызывают у вас интерес?
Много интересной работы проведено в области генерации естественного языка. Нейронные сети позволяют компьютеру говорить самостоятельно. Это не просто использование неких предписанных слов, это происходит после обучения на огромных массивах человеческой речи – субтитров к фильмам, тредов на Reddit и тому подобном. Компьютеры обучаются стилям взаимодействия людей, типам высказываний, которые человек А может адресовать человеку Б. До определенной степени компьютер стал творчески подходить к задаче, это привлекло мое внимание.
Какова конечная цель? Как это будет выглядеть, когда голосовое программирование станет вездесущим?
Большие возможности кроются в том, что компьютеры и телефоны, которые мы сейчас используем, потеряют в значимости в нашей жизни среди технологий, а компьютеры в каком-то роде исчезнут. Вам нужна информация, вы хотите, чтобы нечто было сделано, вы просто говорите, а компьютеры выполняют вашу просьбу.
Это большой сдвиг, ведь мы всегда были создателями и пользователями инструментов. Всегда есть то, что мы берем, держим, касаемся, свайпаем. И когда мы представляем, что это все попросту исчезает, и все возможности компьютера оказываются эффективны в своей незаметности, поскольку мы говорим с маленькими встроенными микрофонами вокруг, подключенными к облаку, – вот тут этот сдвиг и ощущается.
Еще одно изменение связано с тем, что мы стали устанавливать взаимоотношения с компьютерами. Людям нравятся телефоны, но они не воспринимают их как личности. Но мы вступили в эпоху, когда мы стали относиться к компьютерам как к существам. До определенной степени они выражают эмоции, у них есть индивидуальность. У них есть свои антипатии. Мы ищем их общества. Это то новое, чего вы не могли ожидать от тостера, микроволновки или смартфона.
Кто может больше всего выиграть от роста голосовых ассистентов? Одна из групп людей, о которых мы часто слышим, – это пожилые люди, поскольку у них ухудшается зрение и им легче общаться голосом. Кто еще?
Пожилые люди и дети – вот истинные фокусные группы для испытания возможностей голосового программирования и искусственного интеллекта. У пожилых существует проблема долговременного одиночества, так что именно они могут захотеть, например, поболтать с Алексой. Есть приложения, где голосовой ИИ используется в качестве сиделки, напоминая принять лекарства и давая возможность родным отслеживать это на расстоянии.
Не прибегая к чрезмерным обобщениям, можно вспомнить, что у некоторых пожилых людей развивается деменция, и им сложнее распознать, что компьютер на самом деле не является живым существом. То же и с детьми, их связь с реальностью еще не так прочна, и они, возможно, могут более охотно общаться с этими персонифицированными ИИ, как если бы те были живыми существами. Вы можете также видеть, как голосовые ИИ используются как виртуальные няньки – мы не дома, а за ребенком может присмотреть компьютер. Пока что это не является реальностью в полной мере, но в какой-то степени, кажется, скоро ей станет.
Что произойдет, когда у нас будут виртуальные няньки и все такое, а все технологии отойдут на задний план?
В мрачном сценарии мы станем все меньше искать человеческого общества, потому что нам будет хватать наших виртуальных друзей. Также будут происходить утечки информации в Amazon, когда людям потребуется компания Алексы, чтобы поболтать.
Но можно посмотреть на это и с позитивной стороны. То, что мы делаем машины человечнее, хорошо. Хотим мы или нет, но мы проводим массу времени перед компьютером. И если это взаимодействие станет более естественным и менее – про клики и свайпы, это будет означать, что и мы станем более реальными и человечными в сравнении с тем, как мы сейчас превращаемся в псевдомашины, взаимодействуя с устройствами.
И я думаю, что у нас будет больше централизованной власти над Большими Технологиями. В особенности когда речь идет о чем-то вроде поиска в интернете. Меньше надо будет сидеть в браузере, искать нужную информацию, синтезировать ее, открывать журналы, книги, что угодно. Вместо этого можно будет просто задавать вопросы нашим голосовым оракулам с искусственным интеллектом. Это действительно удобно, но это означает и гораздо большее доверие компаниям вроде Google, говорящим нам, что правда, а что нет.
Чем этот сценарий отличается от нынешнего, тревожного, с фейковыми новостями и дезинформацией?
В случае с голосовыми ассистентами нежелательно и непрактично в ответ на ваш вопрос предлагать вам голосовой аналог столбика голубых ссылочек. И потому Google должен выбрать, какой ответ вам дать. Сейчас он обладает огромной силой, так как решает, какая информация должна быть показана, а история доказала, что если контроль над информацией сосредоточен в одних руках, это редко хорошо кончается для демократии.
Сейчас очень много говорят о фейковых новостях. В случае с голосовыми ассистентами мы получаем перекос в другую сторону. Google должен будет быть очень зациклен на том, чтобы не показывать «фейковые новости». Если надо показать всего один ответ, лучше бы ему не быть полным барахлом. Думаю, что в большей степени пойдет о цензуре. Почему они должны выбирать то, что должно считаться истиной?
Насколько нам стоит беспокоиться о приватности и типах анализа информации, который может быть проведен с использованием голоса?
Я так же беспокоюсь о проблемах приватности, как и в целом касательно смартфонов. Если технологические компании смогут злоупотреблять доступом к моему дому, они могут сделать это и с моим компьютером, и с Алексой, находящейся в комнате.
Речь не о том, чтобы уменьшить беспокойство насчет приватности. Я думаю, что эти опасения очень, очень реалистичны. Но я уверен, что нечестно выделять голосовые ассистенты как худшие в этом отношении. Хотя смысл в том, что мы используем их в других условиях, на кухне и в гостиной.
Немного сменим тему. В вашей книге некоторое место занимает обсуждение индивидуальностей различных голосовых ассистентов. Насколько компаниям важно, чтобы их продукты обладали индивидуальностью?
Индивидуальность важна. Это ключевой момент, а иначе зачем вообще нужен голос? Если вам требуется чистая эффективность, вам подойдет телефон или ПК. Чего пока в полной мере нет, так это разницы между Cortana, Alexa и Siri. Мы не видим усилий технологических компаний по созданию значительно отличающихся индивидуальностей с идеями в основе, целящимися в различные части рынка. Они не делают то, что практикуют кабельное телевидение или Netflix, которые делят потребительский ландшафт на разнообразные сегменты.
Я предвижу, что это произойдет в будущем. Сейчас Google, Amazon и Apple просто хотят нравиться большему числу людей, поэтому они не работают прицельно. Но я думаю, они станут развивать технологию до той степени, что мой ассистент будет не таким, как ваш или вашего коллеги. Думаю, они займутся этим, потому что это может быть привлекательно. С каждым продуктом в нашей жизни имеет место одно и то же – не существует универсального решения, и я не вижу причин, почему это не затронет и голосовые ассистенты.
Очень хорошая статья, которая показывает, что программисты живут в мире цифр, а не реального железа. Они забыли или не понимают, что конкретное ПО заточено под конкретное железо. Идеальный смартфон — этот тот, который поддерживает все команды ОС на аппаратном уровне. И чтобы «для каждого свой ассистент» работал быстро, то придется для каждого смартфона выделять удаленный сервер, который мог бы дистанционно и «на лету» перепрограммировать микрокод чипсета (а не ОС) на корневом уровне. Каждый день, 24/7. ИМХО.
Ваши бы фантазии, да (ээээ, кто там сейчас вместо билла гейтса в гугле руководит фейсбуком?) вот ему самому, в уши.
Но вы ведь понимаете, что культура программирования — это не про бизнес. И даже не про командный стиль управления.
Согласен. Более того, у каждого своя культура программирования. Самые умные программисты придумывают сложные формулы, которые одной строкой описывают сложнейшие алгоритмы, упорные но глупенькие предпочитают все решать таблицами, а современные, похоже, уже не программисты, а такие как бы пианисты, играющие на уже настроенном пианино. Вот в вашем понимании кто такой есть программист?
Специалист, занимающийся разработкой программного обеспечения. Естественно, железное обеспечение уже должно, в данном случае, функционировать, и желательно не в виде надстройки популярным фронтэндом, отдающим программисту лишь свое API.
Вначале порадовался. Неужели грамотная статья? Разбито на 4 логичные части. Преобразование в текст, обработка смысла, создание текста и озвучка. Но потом… упс. Опять зацикленость только на первой части. Голос, голос, голос и… облако.
Когда уже дойдет, что важна обработка запроса на естественном языке!? И место голоса в этом даже не десятое, а вовсе последнее. Ибо задачи у человека, это не открыть книгу, не запустить фильм и даже не заказать пиццу, а намного сложнее. Например: возьми картинку с уличной камеры, найди парковочные места и сообщи когда одно из них освободится. Или, найди тексты всех песен евровидения, разбей на жанры и определи наиболее популярные. То есть выбор и адаптация алгоритмов. Вот это и есть
голосовоепрограммирование на естественном языке. А голосом оно, текстом или мыслеволнами…Ребята, ало, при чем тут вообще програмирование? В книге речь идёт о вычислении («computing»).
Программировать с помощью голоса можно уже лет 40 и это мало чем (почти ничем) не отличается от программирования пальчиками и используется узкой группой людей без функционирующих пальцев рук (и ног)