Полезные материалы по проектированию голосовых интерфейсов +30

Будущее у голосовых интерфейсов получше, чем у покрывающихся пылью ботов. Продажи устройств бодро растут, а основные платформы стремительно обзаводятся партнёрствами и интеграциями во всё, что подключено к электричеству и интернету. К концу года прогнозируют 100 миллионов устройств; уже 20% американских семей имеют умную колонку. Ну а отечественные хайпожоры позавчера стояли в очереди за Алисой. Были вы там или нет, изучить тему полезно.


Главная книжка — Designing Voice Interfaces от Cathy Pearl. Она, кстати, руководит дизайном Google Assistant и описывала недавно основные особенности проектирования голосовых интерфейсов.



У каждой крупной платформы есть гайдлайны по проектированию интерфейсов для них:

  1. Amazon Alexa
  2. Google Assistant
  3. Microsoft Cortana
  4. Apple Siri
  5. Яндекс Алиса — гайдлайнов по дизайну пока нет, но есть общая документация

Лучше всего развита экосистема Alexa — для неё хватает инструментов и интересных экспериментов (у платформы более 50% рынка). Например:

  1. Онлайн-сервис Storyline для создания навыков.
  2. Echoism для их тестирования.
  3. Rafal Cymerys из Upside показывает эксперимент по голосовому управлению StarCraft II на базе Alexa. Он неплохо подходит для операций, включающих последовательность нескольких примитивных действий, хотя базовые операции всё же проще делать через мышь и клавиатуру.
  4. Хватает голосовых игр и квестов вроде Jurassic World. Есть интересные комбинации с настолками. И даже Skyrim в ироничном виде.



Кучу свежих новостей и актуальной статистики можно найти на сайте Voicebot. А вот просто парочка относительно свежих статей на тему:

  1. Несколько стендап-комиков оценили юмор умных помощников Amazon Alexa, Apple Siri, Google Assistant и Microsoft Cortana. Например, в Google работает отдельная команда писателей, которые обеспечивают шутки.
  2. Jacky Li из Connected Lab провел несколько пользовательских исследований на тему управления функциями машины с помощью сенсорного экрана и голоса. Сенсорные экраны, очевидно, отвлекают водителя. Но и голосовое управление не лучше (свежая статья Nielsen/Norman Group приводит конкретные причины).
  3. Памятка Frederik Goossens по проектированию голосовых интерфейсов.


Это только небольшой срез из интересных и важных для дизайнера штук. Держите себя в курсе, есть шанс что скоро пригодится в работе.

Вы можете помочь и перевести немного средств на развитие сайта



Комментарии (1):

  1. trapwalker
    /#18879219 / +1

    Я бы добавил ряд замечаний и вещей, которых лично мне не хватает во всех этих умных помощниках и я не понимаю почему это еще никто не реализовал.

    • Интроспективность, самодокументируемость. Я считаю любой голосовой помощник должен уметь доходчиво и лаконично рассказывать о своих возможностях. Это можно делать как по запросу, так и в ходе обычной «болтовни» между разговорами о погоде и новостями.
    • Смысловая детерминированность (относительная предсказуемость). Нужно, чтобы был очевидный и понятный способ добиться желаемого от голосового помощника. Кейсы. которые поддерживает голосовой помощник вполне ложатся на граф. Да, в нем могут быть циклы и альтернативные пути, но этот граф благодаря выше затронутой интроспективности должен быть более-менее прозрачным и поддающимся навигации.
    • Перманентная ацикличность. Чем больше оборотов по короткому пути в графе состояний проходит диалог, тем ниже нужно опускать приоритет выбора этой ветви. Особенно раздражает, когда, например, в игре в города та же Алиса не может понять город, и раз за разом бесконечно и одинаково переспрашивает. Везде должна быть вариативность и возможность выхода из циклов.
    • Вариативность. Множественная вариативность вариантов ответов. Нужно больше синонимов, больше альтернативных способов сказать одно и то же. Это не так сложно реализуется, но оживляет диалог, делает помощника гораздо более антропоморфным.
    • Автоконфигурируемость. Мне кажется очень важным иметь возможность (благодаря той же интроспекции) влиять на то, как помощник отвечает на те или иные вопросы, какие ветки графа стандартных ситуаций выбирает, какие анекдоты рассказывает. Важно, чтобы это всё можно было править голосом прямо в ходе диалога.
    • Сервисное голосовое меню. Что мешает в каждом узле графа стандартных кейсов сделать ссылку на контекстный подграф голосового меню? В этом меню можно было бы блокировать ветку диалога, менять её приоритет и вероятность выбора, менять умолчания для контекста, добавлять альтернативы, синонимы, редиректы в другие узлы графа и т.д. Кроме того, можно также сделать возможность запустить обучение пониманию слова, которое помощник плохо или совсем неправильно распознает, можно добавлять макрокоманды и сценарии. В совокупности с интроспекцией и самодокументированностью это очень удобный инструмент, чтобы не ползать в огромных запутанных и нечитаемых XML и JSON файлах настройки для мелких и локальных правок.
    • Более развитая и, возможно, многоуровневая контекстность, мультиконтекстность. Человек с лёгкостью держит несколько контекстов в разговоре. Что мешает помощнику тоже не дискретно относиться к контексту? Можно актуальность контекста регулировать плавно. Малоактуальные темы постепенно выгорают, но если пользователь сказал что-то неожиданное имеет смысл заглянуть сперва в недовыгоревшие контексты, вдруг это продолжение разговора, который был 5 минут назад? Если уверенности в этом нет и «помощник» не хочет «ударить в грязь лицом», он может вежливо спросить: «не о том ли речь?».
    • Пояснять, уточнять, спрашивать. Даже люди между собой не гарантируют полного понимания. Нужно, чтобы в графе «помощника» было больше шаблонных способов уточнить какая из возможных ветвей диалога сейчас более актуальна. Уточнять и переспрашивать можно после некоторого порога «неочевидности».
    • Фреймворк. Нужен гибкий и прозрачный фреймворк для построения такого рода «помощников». И тут напрашивается какой-то слой абстракции и совместимости с текстовыми ботами. Было бы здорово. если бы электронный помощник в любой момент мог перейти с текста на голос и обратно.
    • Краудсорсинг и краудфандинг скиллов. Если вам кажется, что у вас есть замечательная идея нового скилла, расскажите об этом помощнику, а он запостит заявку в форум, а потом еще и новости из обсуждения почитает, и, возможно, предложит подключить подходящий скилл, когда он найдётся.

    Для продуктивного и полезного голосового интерфейса не нужен сильный ИИ. С ним будут те же проблемы, как с ЕИ: возможно ему быстро надоест с вами разговаривать=)