Продолжение пересказа доклада Константина Самойлова «Голосовые интерфейсы и проектирование виртуальных ассистентов».

Персоналити

Что ещё интересного обнаружили во время работы над голосовыми интерфейсами (ГИ) в Google.

Один из самых популярных вопросов — характер личности голосового ассистента. Сейчас технологии позволяют только имитировать дружелюбность, интеллектуальность, чувство юмора и так далее. Особенность человека в том, что это очень многоплановые характеристики. Подходы компаний разнятся и зависят от цели создания голосовой системы и философии компании.

Сири — проект компании, которая создаёт магический пользовательский опыт. Всё должно просто работать. И если пользователь угадывает с грамматикой и словарём, всё замечательно. Но если не угадывает, система перестаёт работать без малейшего указания на то, что не так и как скорректировать поведение, чтобы в следующий раз она работала лучше.

При этом огромное внимание уделено персоналити. Они работали над качеством голоса и человечным взаимодействием: Сири может пошутить, добавить забавный комментарий при выполнении стандартной задачи. Иногда это выглядит естественно, но мы быстро достигаем uncanny valley («зловещей долины»).

Эффект такой: чем больше система похожа на человека, тем больше она ему нравится. Но когда она становится очень похожей, приязнь резко снижается и восстанавливается только для полной имитации. Этот спад и называется «зловещей долиной». См. статью на Википедии.

С персоналити мы быстро в неё сваливаемся: система удачно шутит, человек расслабляется, использует другой набор слов и грамматику, и система начинает реагировать не так, как он ожидает. Пользователь может посчитать, что система над ним смеётся или не одобряет. Это намного хуже, чем если бы он просто думал, что перед ним глупый робот.

Одно из основных отличий ассистента Гугла в том, что у него даже нет имени (OK, Google). У Сири (Apple) и Алексы (Amazon) есть имена, и они пытаются вести себя как человек.

В Гугле мы пришли к выводу, что безопаснее всего не имитировать персоналити и показать пользователю, что это просто технологии без какого-либо человеческого общения.

Ответы на вопросы

Безопасность

Интересные решения есть у Алексы: она может контактировать с устройствами, которые есть дома, например, с умным замком. Можно подойти к двери и сказать: «Алекса, открой дверь, код такой-то».

Есть куча нюансов. Когда мы используем голос, нас слышат все, кто находится поблизости — это не безопасно и иногда неуместно. Люди используют ГИ у себя в машине для создания события, но не делают этого в автобусе, так как окружающие услышат, где, когда и с кем они планируют быть.

Мы решили не использовать ГИ, когда важна безопасность. В этом случае требования к системе выше. Если мы ставим будильник, и он срабатывает в 99 случаях из 100, это нормально. Если закрываем машину или сейф, срабатывание 99 случаях из 100 неприемлемо.

Появляется вопрос обратной связи. Если мы ставим будильник, достаточно ответа, что он поставлен. Мы не уточняем все записанные системой параметры. При повышенных требованиях к безопасности мы должны полностью доверять системе, что невозможно в текущем состоянии. Либо должны получать обратную связь: включена сигнализация, такого-то плана, будет работать до такого-то момента, выключить её может этот человек и так далее. Если система сообщает это голосом, кто-то другой может это услышать. А если система сообщает конфиденциальную информацию?

Поэтому в своей работе мы решили не связываться с ситуациями, когда важны безопасность и приватность.

Ближайшее будущее

Крупные компании будут пытаться имитировать возможность ассистента ответить на любой вопрос, и это всё ещё не будет работать.

Применение будет возможно в узких сферах, где ожидания пользователя ограничивают его словарь и динамику взаимодействия. Например, билетному аппарату можно сказать, что нужен билет от Москвы до Калуги на завтрашний вечер. Если человек затем спросит, сколько лет Бараку Обаме, совершенно нормально, когда такая система не ответит.

Будущее за фокусом на определённом юзкейсе, поддержке всей связанной с ним грамматики и игнорировании всего, что за его пределами.

Использование в платежах

Голос используется для подтверждения платежей, но это лишь часть всего взаимодействия. Нет примеров, когда весь процесс можно пройти голосом. Отчасти это связано с юридическими особенностями и возвратом платежей.

В Европе есть cooldown period, когда в течение определённого времени (в разных странах оно разное) покупатель может вернуть товар, даже если с ним всё в порядке. Человек может поменять своё мнение без причины, и это поддерживается законом.

Платёжной системе также необходима гарантия, что человек оплатил продукт, зная, что он покупает, и это не ошибка. Если это ошибочная покупка, при возврате платежа действует совсем другое правило. Были случаи, когда ребёнок брал телефон (Amazon Fire), что-то говорил и запускал процесс покупки. В этом случае невозможно доказать, кто её инициировал.

Когда необходим

Принято считать, что новая технология просто заменит предыдущую, но это не всегда так. Сейчас говорят о голосификации приложений, когда для существующего приложения экран просто заменяется голосом. Очевидно, это так не работает. В основном потому, что голос используется в других условиях. Если человек может держать телефон и нажимать на экран, он, скорее всего, не будет использовать голос. Тачскрин чаще всего удобнее ГИ.

Голос удобен тогда, когда сложно использовать телефон: за рулём, в дороге с сумками или дома на диване, когда телефон лежит на столе и просто лень вставать, чтобы взять его в руки. Включить музыку голосом оказывается проще, даже если нажать на кнопку — быстрее.

ГИ необходим тогда, когда использование телефона обычным способом невозможно, например, в автомобиле. Но если компания говорит, что продукт можно использовать во время вождения, ей надо доказывать специальным органам, что все законодательные ограничения, связанные с вождением, приняты во внимание.

ГИ необходимо использовать, когда соблюдается 2 условия:
Человек занимается чем-то многозадачным и не может сконцентрировать внимание на одном устройстве;
То, что он делает с помощью ГИ, не является основной задачей.

Связь с визуальным интерфейсом

Огромное преимущество визуальных интерфейсов в том, что варианты взаимодействия видны. С ГИ мы не знаем, что нам доступно.

Взаимодействие с экранами — очень хорошо проработанная тема. Экран останется даже тогда, когда ГИ будет работать хорошо, хотя бы потому, что у нас есть глаза. Визуальное восприятие — основное. Голосовое — вспомогательное.

Голос может взаимодействовать с экранным представлением данных и при этом не быть подчинённой структурой. Например, в Алексе основной компонент — голос. Можно поставить приложение, чтобы видеть ответы системы на экране (некоторые ответы сложно воспринимать на слух). Правда, сейчас концепция меняется — следующая версия Amazon Echo будет со своим экраном.

Применение в критических процессах

Хирург — хороший пример многозадачности. Он фокусируется на одном виде деятельности, но ему может требоваться дополнительная информация. Здесь ГИ применяется уже сейчас.

IBM с проектом Watson пошли по другому пути. Они начали работать над искусственным интеллектом. Сначала он выиграл у людей в викторину, а 4 года назад его внедрили в нескольких американских клиниках. Сейчас его используют для диагностики рака в 1000 клиниках. Система используются для критических процессов, но в очень узких юзкейсах. При этом персонал проходит специальную подготовку.

Примеры удачных решений

Амазон запустил продукт, который кардинально отличался: нет экрана, это физический объект, качество голоса намного выше (за счёт встроенного хранилища данных с предзаписанными сэмплами).

Интересное диалоговое взаимодействие Гугла. Если мы говорим, что хотим добавить что-то в календарь, запустится система диалогов, достаточно гибкая и довольно очевидная. Он уточняет информацию о мероприятии, вы можете корректировать данные и так далее.

Хорошо Майкрософт в Кортане решили вопрос настройки. Сейчас ожидается, что человеку не надо ничего знать о системе и настраивать: когда я говорю это, то обычно имею в виду следующее; вот эти слова я использую не так, как остальные люди и так далее. По идее, это должно работать автоматически, но не работает, а значит, должна быть система настройки.

Эпл вопрос настроек полностью игнорирует. Для Кортаны можно указать свои интересы и так далее, и при этом интерфейс достаточно простой.

Предыдущий урок

Следующий урок