Стоит подумать о том, как было бы здорово управлять компьютером и прочими цифровыми девайсами исключительно голосом, как в уме тут же возникает образ разумного компьютера HAL 9000 из фильма Стэнли Кубрика «2001: Космическая Одиссея». Его голос вдохновляет и будоражит до сих пор.
И хотя идея создания искусственного интеллекта была скомпрометирована в массовом сознании такими блокбастерами, как «Терминатор» или даже недавним «Превосходством» с незабвенным Джонни Деппом в главной роли, все же программисты и девелоперы по всему миру не оставляют попыток создать нечто подобное, что и по сей день существует лишь в воображении сценаристов и режиссеров.
Перспективность голосового взаимодействия
Предсказания, сделанные Артуром Ч. Кларком (Arthur Clarke) и столь правдоподобно воплощенные в культовой ленте Кубриком, хоть и не успели осуществиться к 2001 году, но, по словам основателя Expect Labs Тима Таттла (Tim Tuttle), технологиям голосового интерфейса в течение ближайших двух лет будет уделено пристальное внимание разработчиков, и процесс ускорится в десятки раз.
Платформа голосового интерфейса MindMeld, созданная самой Expect Labs, уже успешно применяется программистами для встраивания голосового взаимодействия в разного рода программы и мобильные приложения. Таттл без тени скромности заявляет, что такого рода интерфейс, в отличие от созданных ранее систем, является наиболее дружелюбным для конечного пользователя. Сегодня MindMeld выходит на рынок, на котором уже доминируют системы Google Now и Siri, но такая жесткая конкуренция просто доказывает неизбежность того, что совсем скоро управлять техникой своим голосом станет делом привычным.
Многие компании уже тратят миллионы долларов на разработку и внедрение в систему пользовательского взаимодействия с продуктом возможности речевого управления: для некоторых категорий товаров это и впрямь оказалось бы полезной находкой. Смартфоны — довольно избитый пример, а вот голосовое управление автомобилем Ford с помощью системы Sync — уже интересно: голосом вы можете включить музыку или запросить дорогу у GPS-навигатора. Голосовые технологии добрались даже до последних поколений приставок: с помощью Kinect вы можете управлять своим Xbox one, — а в 2011 году издание Bloomberg Business уже говорило о конце эры пультов от телевизоров.
Доступность
Если говорить об адаптивности голосового интерфейса к различным платформам, то уже сегодня можно легко заметить, что подобные технологии не имеют каких-либо существенных ограничений: они легко приживаются как на Android и iOS, так и на Windows OS.
Кроме того, Консорциум Всемирной Паутины (World Wide Web Consortium (W3C)) разработал ряд предложений по улучшению юзабилити сайтов, включающий в себя также и альтернативный текст для изображений, который может быть понят современными программами чтения с экрана. Совершенно очевидно, что такие программы, как Nuance’s Dragon, найдут отклик у тех пользователей, которые не могут работать с клавиатурой и мышью. Подобные решения позволяют им выполнять все распространенные операции (поиск информации, работа с текстовыми документами) без рук.
По этим и многим другим причинам голосовое управление становится вполне достижимым в уже обозримом будущем: user experience будущего уже нельзя будет представить без возможности речевого взаимодействия. Однако, остается открытым вопрос, который еще десять лет назад, вызвал бы только улыбку: какой голос должен быть у компьютера?
Зловещая долина
Одной из причин, почему разработчики наделяют свои творения голосом более роботизированным, нежели человеческим, является так называемая концепция «зловещей долины» (The uncanny valley). Эта концепция была предложена в 1970 году японским робототехником Масахиро Мори (Dr. Masahiro Mori), и именно эта идея лежит в основе современной коммуникации между компьютером и человеком.
Схематическое изображение «зловещей долины». Чем сильнее сходство роботов с людьми, тем большую симпатию они вызывают у последних, но ровно до того момента, когда роботы начинают напоминать живых мертвецов: тогда симпатия уступает место страху.
Суть этой концепции в том, что по мере эволюции машин симпатия к ним людей будет только расти, но лишь до определенного предела. Как только роботы станут очень сильно похожи на людей, симпатия резко сменится страхом и неприязнью. В теории, если сходство продолжит рост, то симпатия вновь вернется, но это промежуточное состояние, когда роботы похожи на передвигающихся мертвецов и не вызывают ничего, кроме страха, и называется «зловещей долиной». Этот термин отражает естественную для нас неприязнь к человекоподобным роботам. В то же время эта теория описывает внешний вид тех роботов, которые вызывают у нас чувство умиления (яркий пример, робот WALL-E).
В недавней статье Николаса Боумана (Nicholas Bowman), опубликованной в издании Ux Booth, автор приходит к мысли, что эта концепция может сработать и в области голосового взаимодействия. Интерфейс голосового взаимодействия, который реализован в Siri, создает у пользователя чувство близкого контакта с устройством, и во многом это можно объяснить тем, что вся интеракция строится на привычной нам речи. Мы слышим голос робота и тут же приписываем устройству какие-то человеческие черты. Это неотъемлемая особенность каждого из нас, так мы выстраиваем связи с внешним миром. Очевидно, что Siri далеко не человек, но в программе реализовано то, что ее делает похожим на людей: например, юмор.
Таким образом, Apple удалось пройти по узкой грани: сделать Siri похожим на человека, но не настолько, чтобы мы все решили, будто бы с нами и впрямь разговаривает живая женщина. Мы все стремимся к идеальному интерфейсу, но приемлемым для нас он будет только тогда, когда останется роботизированным.
Заключение
Любой текст, озвученный современными цифровыми устройствами, может вызвать чувство неприязни, если голос будет либо излишне роботизированным, либо слишком очеловеченным. В этом кроется огромная сложность при создании голосовых интерфейсов. Однако опыт проектирования Siri, в которой разработчикам удалось найти верный баланс, убедительно показывает, что достаточно придать системе некоторые человеческие черты (например, юмор), но при этом оставить очевидное отличие от человека.
Если исследования в области голосовых интерфейсов будут продолжены, то, возможно, совсем скоро мы сможем разговаривать со своими компьютерами и смартфонами в контексте свершено различных и спонтанных ситуаций..
Высоких вам конверсий!
По материалам usertesting.com,Image source: Kate McCully