В MIT разработали новый тип интерфейса, позволяющий превращать «мысли» в голос +21




Арнав Капур, один из разработчиков нового типа интерфейса, демонстрирует работу устройства

Инженеры MIT создали систему, которая транскрибирует проговариваемые про себя слова и предложения в текст. Для успешной работы системы ее носителю нужно четко проговаривать слова и фразы про себя. В этом случае начинают работать мышцы лица, горла и языка, отвечающие за речь. Они не работают в полную силу, а лишь активируются, чего вполне достаточно новой системе для «чтения».

Со стороны это выглядит так — человек просто молчит, а система «говорит», вернее печатает. Разработка состоит из двух частей: гаджета, который необходимо носить на лице и специально «обученной» нейросети, которая анализирует получаемую информацию и ассоциирует ее с буквами и словами. Кроме того, интерфейс позволяет управлять гаджетами — переключать каналы на ТВ, вести учет затрат и вести вполне обычную активность.

Гаджет, который нужно надевать на ухо, включает в конструкцию «костяной наушник», то есть наушник, проводящий звук по кости к внутреннему уху. Внешний канал остается открытым и человек слышит все, что происходит вокруг.

Такая система весьма портативна и подходит для ношения как на улице, так и дома. Некоторые способы ее применения необычны. Например, можно играть в шахматы, проговаривая про себя ходы противника и получать помощь от компьютера.

Использовать разработку можно не только людям с физическими проблемами, но и обычным пользователям в самых разных ситуациях. Задачей разработчиков было создание системы, которая позволяет улучшить способности человека, дополнить его интеллект и в некотором роде органы чувств.

«Мы уже неспособны жить без смартфонов и других цифровых устройств», — говорит Петти Маес, один из участников проекта. «Но использование этих гаджетов мешает нам, необходимо прерываться для того, чтобы с ними работать. Например, идет беседа, и вдруг возникает нужда воспользоваться телефоном. Нужно его найти, взять в руки, ввести пароль и открыть приложение. Поэтому мои студенты и я долгое время экспериментировали с новыми типами систем и их форм-факторами, которые позволяют людям использовать преимущества современных технологий и сервисов, не отвлекаясь на, собственно, гаджеты».

Результаты работы были доложены на конференции Association for Computing Machinery’s ACM Intelligent User Interface.

В принципе, идея, предложенная учеными, не нова. Она появилась где-то в 19-м веке, а с появлением новых технологий над ее реализацией стали работать уже серьезно. В 60-х годах проговаривание про себя фраз и слов во время чтения стали считать сторонним фактором, который препятствует скорочтению (собственно, так оно и есть). Но у проговаривания есть свои преимущества, оно может использоваться при разработке компьютерных интерфейсов. Один из примеров был приведен выше.


В ходе создания системы ученым понадобилось вначале понять, какие мышцы на лице человека задействуются в ходе проговаривания активнее всего. После этого стартовала разработка прототипа устройства для преобразования «мыслей в текст». Основным считывающим сигналы элементом системы были электроды в количестве 16 штук.

С них снимали показания и сверяли с тем, что произносил про себя человек. Затем на основе полученного массива данных разработчики стали обучать нейросеть. Кстати, изначально устройство охватывало обе стороны лица. Но затем оказалось, что нейросеть преобразовывает сигналы в текст без проблем даже в том случае, если электроды находятся лишь на одной стороне лица. Поэтому для снижения габаритов системы ее уменьшили вдвое.

Обучение нейросети начали с малого — всего с 20 слов. С течением времени словарь увеличивали, и нейросеть стала более «умной». По словам ученых, ее можно персонализировать под любого человека, увеличивая точность распознавания «мыслей». Чем больше будет тренировок, тем лучше сможет работать система.

У разработчиков не было планов доводить ее до совершенства, это лишь proof-of-concept. Технология может использоваться во многих сферах, включая производство. Можно представить себе промышленное предприятие, уровень шума на котором мешает нормальному общению сотрудников по рабочим вопросам. В этом случае можно использовать такую систему. Аналогичная ситуация — с пожарниками или водолазами. Им не нужно будет говорить, система озвучит «мысли».

Пока что о коммерциализации технологии речь не идет, но такое развитие событий тоже не исключается.


Вы можете помочь и перевести немного средств на развитие сайта



Комментарии (23):

  1. baldrs
    /#10716943 / +1

    Интересно было бы, если бы они смогли уменьшить систему до размера слухового аппарата и без внешних датчиков на лице. Выглядит как-то громоздко пока. Также не ясна погрешность распознавания, насколько она выше/ниже чем у современных систем распознавания речи? Но вообще идея интересная.

    • vbif
      /#10717023

      Как минимум, на эту систему не действуют посторонние шумы. Плюс нет вероятности, что система услышит команду постороннего человека. Полагаю, у этой системы большое будущее, даже если точность распознавания ниже, чем у систем распознавания речи, она могла бы дать дополнительный канал управления, когда заняты все руки.

    • CreFroD
      /#10717813

      Они говорят о точности 92 процента, правда непонятно на каком словаре.

  2. lingvo
    /#10717011

    Сорри, но мне непонятно, что значит проговаривать «про себя». Тихо шептать? Или как можно проговаривать не открывая рта?

    • vbif
      /#10717085

      Двигать челюстью, языком и немного губами так, будто говоришь слово.

    • ClearAirTurbulence
      /#10717185

      Легко. Попробуйте прочитать этот текст так, как если бы вы говорили его вслух, но не открывать при этом рта, и не двигая намеренно языком. Если наблюдать за этим процессом внимательно, заметите, что язык (и другие ответственные за речь мышцы) все равно совершает микроскопические движения. Они и будут улавливаться датчиками.

      Вообще для «тихого» общения есть два основных подхода — (развивающийся сейчас) с помощью датчиков, считывающих активацию мышц, и с помощью обычных микрофонов (старые добрые ларингофоны).

  3. exehoo
    /#10717049

    Интересно, как отрабатывает эта распознавалка при жевании

  4. Germanets
    /#10717139 / +1

    Даёшь технологию в массы!)
    image

  5. stanislavkulikov
    /#10717209

    Я вот не знаю ни одного человека, который бы пользовался голосовым управлением. А вот эта штука, у которой явно больше погрешность, и вообще бесполезной получается.

    • dabar347
      /#10717615

      Теперь видите, пол года пользуюсь алексой от амазона дома

    • sith
      /#10718199

      Я уже несколько лет ежедневно пользуюсь Siri. Она всё ещё очень тупая, но тем не менее очень полезная. Начиная от набора голосом текстовых сообщений, Call my wife, Set an alarm for, Set a timer и заканчивая Take me home, Where is my wife? и Hey Siri, What time is it now?, когда валяешься на диване и смотришь какой-нибудь фильм по Netflix.

  6. halted
    /#10717261

    Вот и новые вершины для цензуры обрисовываться начали.

  7. arheops
    /#10717833

    Получился очень громоздкий и плохо держащийся лорингофон.

    • yurrig
      /#10718473

      С такой штукой, когда доведут до ума, голосовое управление компом (да и не только) может получить шанс — станет бесшумным и помехозащищенным. Да и просто комфортнее, когда вслух не надо команды произносить. А если еще курсором можно будет управлять движениями глаз…

      • arheops
        /#10718543

        Так лорингофон уже сейчас доведен до ума.

        • yurrig
          /#10718613

          С ним же придется вслух команды проговаривать… Представьте себе такой офис)

          • arheops
            /#10718639

            В том то и дело, что нет. Вы проговариваете слова, не выдавая воздух из легких, он реагирует на дрожание связок. После получасовой тренировки у вас это получается без слышимых звуков.

  8. Memiy
    /#10718963

    Слышал нечто подобное лет 5-7 назад.
    Вот только гугл ничего не нашёл. Я из параллельной вселенной?

  9. KT3102
    /#10718967

    Ничто не ново под луной. Достаточно открыть старый номер «Техники-молодежи»
    tm.itizdat.ru/docs/Archive/TM_01_1994/41

  10. Zavtramen
    /#10719977

    Заголовок желтый, несмотря на кавычки.