Пересказ доклада Константина Самойлова «Голосовые интерфейсы и проектирование виртуальных ассистентов» с UX-марафона на тему «Взаимодействие будущего». Константин был исследователем пользовательского опыта в Google и занимался речевыми интерфейсами (система OK Google и голосовой поиск).

Что это

Чтобы не было путаницы, важно договориться, что в принципе понимается под голосовым интерфейсом (ГИ).

Задача распознавания голоса активно решается. Его качество даже для не английского языка в неидеальных условиях (с акцентами и интонациями) составляет 95−98%. Если натренировать модель, качество можно повысить.

Кроме распознавания и генерации голоса есть 3 составляющих, о которых часто забывают. Без них голосовое взаимодействие с системой практически невозможно.

1. Естественный язык

Если говорить о ГИ как о замене печатания на клавиатуре или касания экрана, реализовать его просто — достаточно сделать ввод команд голосом.

Но это не будет работать, так как язык команд не естественен для человека. В понимании пользователей преимущество ГИ заключается в том, что ему не надо учиться. Мы умеем говорить, мы — эксперты по взаимодействию друг с другом.

Сейчас язык взаимодействия со всеми существующими системами не естественный. Можно сказать «Алекса, начни играть такой-то трек», но это определённая грамматика, которой обучена система и которая на самом деле скрыта от пользователя.

2. Диалог

Даже если мы можем голосом передавать команды в компьютер, система всё равно не будет работать. Предполагается, что все данные вводятся в самом начале. В программировании, если разработчик ввёл неправильную команду, система не уточняет, что именно он имел в виду. Как правило, она просто не работает.

Это должен быть диалог.

3. Неограниченный словарный запас и грамматика

Та же Алекса работает на маленьком островке ответственности. В соответствии с заложенными алгоритмами, она ожидает получить от пользователя определённые аргументы. Ожидания системы ограничивают грамматику и словарный запас, которые пользователь может использовать.

В Гугле разработчики продумали, какую грамматику и типы слов в английском языке могут использовать люди для самых распространённых задач вроде установки будильника или создания напоминания.

4 года назад начали проводить тесты. На первом же тесте пользователь сказал что-то, чего разработчики не планировали. Система не сработала, разработчики сказали: «Чёрт, мы об этом не подумали».

Через 3 года улучшенной версии той же системы пользователь сказал что-то такое, что она не сработала, и разработчики сказали: «Чёрт, об этом мы тоже не подумали». Шло время, развивалось дерево решений и грамматики для конкретной задачи, и каждый новый тест выявлял исключение, которое разработчики не учли.

Естественный язык, диалог и словарный запас с грамматикой — фундаментальные вопросы, которые надо решить, чтобы ГИ на самом деле работал.

Типы

В обсуждениях ГИ и диалоговых интерфейсов люди затрагивают целый спектр систем. Начиная с ботов, которые отвечают на самые простые вопросы и невпопад шутят, и заканчивая сложными системами, которые используются на промышленном уровне. Например, на удивление хорошая система подачи налоговой декларации в Англии.

Текущее состояние

Основные игроки:

Alexa от Amazon,
Siri от Apple,
OK Google,
Cortana от Microsoft, которой мало кто пользуется.

Samsung делает свою новую систему под названием Vera. Alibaba — помощника для китайских пользователей. Рынок взорвался, все работают в этой области.

Но возникла парадоксальная ситуация. Компании, обладающие ресурсами, знаниями и навыками для значительного шага вперёд и сильного изменения индустрии, не заинтересованы в этом шаге. ГИ и голосовые ассистенты — инновация, которая меняет текущее положение дел (disruptive technology).

Гугл зарабатывает на рекламе. Если вместо ссылок, рядом с которыми показывается реклама, люди станут получать готовый ответ на вопрос, возникнет вопрос: что делать с рекламой?

Сири — достаточно хороший ассистент, который стимулирует продажи айфонов. Она выполняет свои задачи, и компании нет смысла делать что-то новое, что изменит экосистему приложений App Store.

Нынешняя модель взаимодействия человека с компьютером — ящик с инструментами. Мы находим инструмент, кладём его в ящик и в определённый момент используем для достижения цели. Мы сами отвечаем за поиск и владение инструментами и сами должны понимать, когда и в какой последовательности их использовать.

Преимущество ГИ в том, что мы выражаем своё желание естественным образом. Естественно сказать «Дорогая, принеси мне, пожалуйста, чай» — мы говорим о нужном результате, а не проговариваем все шаги, которые для этого необходимы.

Фундаментальное изменение модели взаимодействия приведёт к тому, что отдельные инструменты будут не нужны.

Проектирование

Люди ожидают, что можно естественным образом выражать свои желания, а система будет их понимать. Система должна подстраиваться под человека, а не наоборот. Поэтому проектирование ГИ — это в большей степени работа над пониманием человеческих особенностей.

Доверие

Одна девушка трижды участвовала в тестировании. Во 2-й раз, когда система уже достаточно хорошо работала, реакция была «О боже мой, эта штука живёт в моём телефоне, теперь моя жизнь изменится». На 3-м тестировании, через месяц, она сказала, что ни разу не использовала систему и не собирается.

Хоть система и работала в большинстве случаев, девушка ей просто не доверяла. Доверие — не технический вопрос, но если его не решить, вся остальная работа будет проделана зря.

Доверие противоположно контролю. Поговорка «Доверяй, но проверяй» — нонсенс. Не бывает, чтобы вы пришли домой и жена вам сказала: «Дорогой, ты вернулся в 12 часов ночи. Ты говорил, что на совещании. Поэтому я позвонила всем твоим друзьям, в твою компанию и твоему водителю, и ты действительно был на совещании. Я тебе доверяю, но проверяю». Такого не бывает.

Сначала мы узнаём, как система справляется, а потом начинаем делегировать ей задачи. Она становится чёрным ящиком — мы не знаем, как она это делает. Как и с живым ассистентом, мы отдаём контроль и заменяем его доверием.

Даже простая задача вроде установки будильника в определённом контексте не может быть так же легко делегирована. Одно дело — поставить будильник на субботу, чтобы просто не проспать до полудня. Другое — на 5 утра, чтобы приехать в аэропорт и встретить родителей. Люди не понимали, насколько система может ошибаться, поэтому не использовали её вовсе.

Невидимый интерфейс

Уникальность голосового интерфейса в том, что он невидимый. В графическом интерфейсе мы видим элементы управления: есть ли они, как выглядят, современный ли дизайн, есть ли кнопки «Назад» и «Вперёд», на каком шаге мы сейчас находимся, промежуточном или конечном.

ГИ не даёт этого увидеть. Мы пытаемся создать умственную модель системы и ответить на вопросы вроде: «Если скажу сейчас “Назад”, я попаду в начало диалога или в предыдущее состояние? И что это за состояние?»

Умственная модель отвечает на вопрос о возможностях системы. Причём, эта модель всегда неправильная. Если мы только что общались с голосовым меню «Нажмите один, чтобы что-то», ожидания будут занижены. Если мы недавно смотрели фильм «Она», ожидания будут завышены.

Чтобы ГИ хоть как-то работал, надо помогать пользователю создать и скорректировать умственную модель системы.

Корректировка умственной модели

Система может задавать вопросы, предполагающие простые ответы: «Вы хотите сохранить событие в календаре? Да / нет». А может — предполагающие развёрнутые ответы: «Вы хотите сделать что-то ещё? Перенеси это событие на полчаса вперёд».

Из формата вопроса пользователь может сделать вывод, что в первом случае система довольно глупая. Он скажет «Нет, не сохранять» и последующие команды будет давать с такой же гранулярностью: «Новое событие. Когда хотите сделать? В 12:30. Что хотите сделать? Встретить родителей. Где? В аэропорту».

Во втором случае он может решить, что система умная и понимает развёрнутые ответы. Для корректировки введённой информации он скажет: «Вместо этого я хочу сделать новое событие на завтра, на 12:30, чтобы встретить родителей в аэропорту».

Человечность

Чтобы сделать ГИ, который естественен для человека, надо понять, почему наш разговор с другим человеком считается естественным. За счёт каких характеристик? Мы поняли, что не знаем этого.

Есть умные люди, с которыми приятно общаться и с которыми нет. Есть люди с достаточно зрелыми реакциями: они иначе реагируют на наши ошибки и вопросы. 50 лет назад не было такого понятия как эмоциональный интеллект. Наверняка, мы не знаем многих других характеристик, благодаря которым мы можем комфортно общаться с другими людьми.

Не зная этих характеристик, нельзя внести их в систему и сделать общение с системой естественным. Один из возможных выходов — система не обязательно должна быть готовой. Можно выпустить полуфабрикат, который будет получать обратную связь от людей и узнавать, что он сделал правильно и неправильно.

Несмотря на то, что мы не знаем, какими эти характеристики должны быть, в какой-то момент система сама их выяснит и будет поддерживать.

Предыдущий урок

Следующий урок