Голосовой интерфейс: сегодня и завтра

Стоит подумать о том, как было бы здорово управлять компьютером и прочими цифровыми девайсами исключительно голосом, как в уме тут же возникает образ разумного компьютера HAL 9000 из фильма Стэнли Кубрика «2001: Космическая Одиссея». Его голос вдохновляет и будоражит до сих пор.

И хотя идея создания искусственного интеллекта была скомпрометирована в массовом сознании такими блокбастерами, как «Терминатор» или даже недавним «Превосходством» с незабвенным Джонни Деппом в главной роли, все же программисты и девелоперы по всему миру не оставляют попыток создать нечто подобное, что и по сей день существует лишь в воображении сценаристов и режиссеров.

Будет ли человечество уничтожено искусственным разумом?

Перспективность голосового взаимодействия

Предсказания, сделанные Артуром Ч. Кларком (Arthur Clarke) и столь правдоподобно воплощенные в культовой ленте Кубриком, хоть и не успели осуществиться к 2001 году, но, по словам основателя Expect Labs Тима Таттла (Tim Tuttle), технологиям голосового интерфейса в течение ближайших двух лет будет уделено пристальное внимание разработчиков, и процесс ускорится в десятки раз.

Платформа голосового интерфейса MindMeld, созданная самой Expect Labs, уже успешно применяется программистами для встраивания голосового взаимодействия в разного рода программы и мобильные приложения. Таттл без тени скромности заявляет, что такого рода интерфейс, в отличие от созданных ранее систем, является наиболее дружелюбным для конечного пользователя. Сегодня MindMeld выходит на рынок, на котором уже доминируют системы Google Now и Siri, но такая жесткая конкуренция просто доказывает неизбежность того, что совсем скоро управлять техникой своим голосом станет делом привычным.

Многие компании уже тратят миллионы долларов на разработку и внедрение в систему пользовательского взаимодействия с продуктом возможности речевого управления: для некоторых категорий товаров это и впрямь оказалось бы полезной находкой. Смартфоны — довольно избитый пример, а вот голосовое управление автомобилем Ford с помощью системы Sync — уже интересно: голосом вы можете включить музыку или запросить дорогу у GPS-навигатора. Голосовые технологии добрались даже до последних поколений приставок: с помощью Kinect вы можете управлять своим Xbox one, — а в 2011 году издание Bloomberg Business уже говорило о конце эры пультов от телевизоров.

Голосовые технологии

Доступность

Если говорить об адаптивности голосового интерфейса к различным платформам, то уже сегодня можно легко заметить, что подобные технологии не имеют каких-либо существенных ограничений: они легко приживаются как на Android и iOS, так и на Windows OS.

Кроме того, Консорциум Всемирной Паутины (World Wide Web Consortium (W3C)) разработал ряд предложений по улучшению юзабилити сайтов, включающий в себя также и альтернативный текст для изображений, который может быть понят современными программами чтения с экрана. Совершенно очевидно, что такие программы, как Nuance’s Dragon, найдут отклик у тех пользователей, которые не могут работать с клавиатурой и мышью. Подобные решения позволяют им выполнять все распространенные операции (поиск информации, работа с текстовыми документами) без рук.

По этим и многим другим причинам голосовое управление становится вполне достижимым в уже обозримом будущем: user experience будущего уже нельзя будет представить без возможности речевого взаимодействия. Однако, остается открытым вопрос, который еще десять лет назад, вызвал бы только улыбку: какой голос должен быть у компьютера?

Будущее искусственного интеллекта — как найти «общий язык» с компьютером?

Зловещая долина

Одной из причин, почему разработчики наделяют свои творения голосом более роботизированным, нежели человеческим, является так называемая концепция «зловещей долины» (The uncanny valley). Эта концепция была предложена в 1970 году японским робототехником Масахиро Мори (Dr. Masahiro Mori), и именно эта идея лежит в основе современной коммуникации между компьютером и человеком.

Зловещая долина

Схематическое изображение «зловещей долины». Чем сильнее сходство роботов с людьми, тем большую симпатию они вызывают у последних, но ровно до того момента, когда роботы начинают напоминать живых мертвецов: тогда симпатия уступает место страху.

Суть этой концепции в том, что по мере эволюции машин симпатия к ним людей будет только расти, но лишь до определенного предела. Как только роботы станут очень сильно похожи на людей, симпатия резко сменится страхом и неприязнью. В теории, если сходство продолжит рост, то симпатия вновь вернется, но это промежуточное состояние, когда роботы похожи на передвигающихся мертвецов и не вызывают ничего, кроме страха, и называется «зловещей долиной». Этот термин отражает естественную для нас неприязнь к человекоподобным роботам. В то же время эта теория описывает внешний вид тех роботов, которые вызывают у нас чувство умиления (яркий пример, робот WALL-E).

В недавней статье Николаса Боумана (Nicholas Bowman), опубликованной в издании Ux Booth, автор приходит к мысли, что эта концепция может сработать и в области голосового взаимодействия. Интерфейс голосового взаимодействия, который реализован в Siri, создает у пользователя чувство близкого контакта с устройством, и во многом это можно объяснить тем, что вся интеракция строится на привычной нам речи. Мы слышим голос робота и тут же приписываем устройству какие-то человеческие черты. Это неотъемлемая особенность каждого из нас, так мы выстраиваем связи с внешним миром. Очевидно, что Siri далеко не человек, но в программе реализовано то, что ее делает похожим на людей: например, юмор.

Таким образом, Apple удалось пройти по узкой грани: сделать Siri похожим на человека, но не настолько, чтобы мы все решили, будто бы с нами и впрямь разговаривает живая женщина. Мы все стремимся к идеальному интерфейсу, но приемлемым для нас он будет только тогда, когда останется роботизированным.

Эволюция компьютеров. Согласно закону Мура, к 2025 году PC смогут мыслить как люди

Заключение

Любой текст, озвученный современными цифровыми устройствами, может вызвать чувство неприязни, если голос будет либо излишне роботизированным, либо слишком очеловеченным. В этом кроется огромная сложность при создании голосовых интерфейсов. Однако опыт проектирования Siri, в которой разработчикам удалось найти верный баланс, убедительно показывает, что достаточно придать системе некоторые человеческие черты (например, юмор), но при этом оставить очевидное отличие от человека.

Если исследования в области голосовых интерфейсов будут продолжены, то, возможно, совсем скоро мы сможем разговаривать со своими компьютерами и смартфонами в контексте свершено различных и спонтанных ситуаций..

Высоких вам конверсий!

По материалам usertesting.com,Image source: Kate McCully

29-05-2015