Как считать звук с пачки из-под чипсов, или что такое «визуальный микрофон» +20


«Визуальный микрофон» — это техника, позволяющая восстановить аудиоряд с беззвучной видеозаписи. Сегодня мы расскажем о не только о ней, но и других методах и технологиях, которые позволяют дистанционно считывать и восстанавливать музыку или речь.


Фото m01229 CC
?

Предшественники технологии


Одним из способов записать звук на расстоянии являются лазеры. Так называемые лазерные микрофоны используют для считывания вибраций, вызванных звуковыми волнами. Например, «захватить» звук таким образом можно с поверхности оконного стекла, если в комнате разговаривают люди или играет музыка. Интерферометр фиксирует «движение» поверхности по изменению оптической длины пути отраженного луча. После чего эти отклонения при помощи специальных алгоритмов преобразуют в звуковой сигнал.

В сети есть аудиозаписи, которые показывают, что «лазерные микрофоны» позволяют восстанавливать звук с довольно неплохим качеством. Однако такой подход имеет свой недостаток, связанный со сложностью установки прибора.

Также «записать звук на расстоянии» можно с помощью микроволнового излучения малой интенсивности, которое используется в средствах связи. Подобные технологии применяли в НАСА для улавливания и распознавания слабых радиосигналов в космосе.

Рупорная антенна через стену здания направляет в комнату микроволны с частотой 30–100 ГГц. Если в помещении говорят люди или играет музыка, звуковые волны можно считать по микровибрациям легкий предметов и материалов — в «захваченном» виде они приобретают амплитудную модуляцию. Эта информация затем используется для восстановления звука, воздействующего на объект. Причем этим объектом может быть любая одежда, поэтому такой метод позволяет «перехватывать» даже звук сердцебиения.

Визуальный микрофон — решение ученых из MIT


Ученые из MIT предложили другой способ считывания звука на расстоянии. Они доказали, что возможно восстановить звук на основании видеозаписи. Для этого нужно записать видео объекта с помощью камеры для высокоскоростной съемки и проанализировать микроскопические вибрации, вызванные распространением звуковых волн.

На основании видео строится управляемая пирамида изображений, которая представляет собой набор фильтров, «разбивающих» каждый кадр видеозаписи на комплексные поддиапазоны, соответствующие различным точкам на исследуемом объекте.

Ученые разработали специальный алгоритм (и выложили его в открытый доступ), который вычисляет в каждой из выделенных точек интенсивность звуковых вибраций. Локальные сигналы усредняются, и на их основании формируется один общий сигнал, определяющий то, как звуковые волны воздействуют на объект. Этот сигнал проходит через фильтр верхних частот Баттерворта с порогом среза 20–100 Гц. После чего появляется возможность восстановить аудиозапись.

По словам руководителя исследования Эйба Дэвиса (Abe Davis), визуальный микрофон позволяет получить аудиозапись менее хорошего качества, по сравнению с активными методиками (например, с использованием лазеров), однако он обладает своими преимуществами. Их система не требует дополнительного оборудования и каких-либо детекторов — нужна только высокоскоростная видеокамера. При этом поверхность, с которой будет «считываться звук», не обязана быть зеркальной или гладкой, как того часто требуют лазерные микрофоны.

Команда Эйба пробовала считать звук с бумажного пакета, пачки из-под чипсов и алюминиевой фольги. Они легкие, потому звуковые вибрации на них были наиболее заметны, а результирующий сигнал менее зашумлен. Среди тестовых объектов также было домашнее растение и кирпич, который, по словам ученых, «проявил» себя лучше, чем они ожидали.

Команда сделала видео, в котором показала, как «звучат» те или иные объекты:


Учёные отмечают, что планируют продолжить работу в этом направлении и исследовать возможность воспроизведения аудио с любых видеозаписей, а не только подготовленных специально с помощью высокоскоростной камеры.

Развитие технологии


Другие ученые пытаются улучшить технологию, предложенную группой из MIT. Например, в прошлом году Иранские исследователи представили алгоритм, который ускоряет извлечение звука с «высокоскоростной видеозаписи» и повышает его качество.

На различные области объекта звук воздействует по-разному. Интенсивность вибрации зависит от материала, из которого изготовлен предмет, его формы, частоты воздействующего звука и расстояния до источника. Например, при съемке видео на частоте в 20 кГц звуковые волны перемещаются примерно на 17 мм между двумя фреймами. Поэтому объекты, находящиеся дальше от источника звука, реагируют с задержкой.

Все эти факторы заставляют различные области объекта вибрировать с разной силой. Поэтому ученые при анализе изображений с камеры учитывают только те зоны, которые делают наибольший вклад в формирование результирующего сигнала — наименее «зашумленные» блоки. При этом частоты, их формирующие, имеют различные фазовые сдвиги, чтобы исключить ослабляющую интерференцию.

Иранские исследователи отмечают, что благодаря этому им удалось повысить качество воспроизводимого звука, а также ускорить обработку изображения, по сравнению с исходным алгоритмом MIT. Они говорят, что их система способна обрабатывать изображение и восстанавливать звук в реальном времени.

Потенциал визуальных микрофонов


В целом технология пока является экспериментальной и о полноценной коммерческой реализации речи не идет. Но ей уже пророчат потенциальное применение в сфере правопорядка — полиция сможет получать больше информации с камер видеонаблюдения.

?Есть и другие варианты: подобные системы позволят анализировать то, как ведет себя звук в студиях звукозаписи и концертных холлах, чтобы определить их акустические свойства. Другое применение — использовать систему в космической отрасли для изучения звуков в космосе. К слову, резиденты Hacker News уже предположили, что в будущем «визуальные микрофоны» позволят раз и навсегда разгадать загадку высадки на Луну.



Больше интересного о звуке — в нашем «Мире Hi-Fi»:


Наши новые материалы на GT:



Вы можете помочь и перевести немного средств на развитие сайта



Комментарии (12):

  1. Idot
    /#10629623

    Учёные отмечают, что планируют продолжить работу в этом направлении и исследовать возможность воспроизведения аудио с любых видеозаписей, а не только подготовленных специально с помощью высокоскоростной камеры.

    И как восстановить звук с частотой 300-3400 Герц с видео имеющим частоту 24 кадра в секунду?

    • Aytuar
      /#10629627

      По кускам. Которые запаздывают и соответственно одна и та же звуковая волна попадает в несколько кадров. Вон в Израиле уже что-то похожее уже сделали.

    • KatbertW
      /#10629635

      Ученые из MIT проводили эксперимент с обычной DSLR-камерой, но она снимала на 60 fps. В работе они пишут, что записать частоты свыше fps камеры возможно, используя эффект «раскатывающегося затвора» (rolling shutter), когда идет построчное считывание изображения. В этом случае звук восстанавливается для каждой дорожки, а не кадра, что повышает частоту дискретизации.
      Подробнее можно почитать здесь в пункте 6: people.csail.mit.edu/mrub/papers/VisualMic_SIGGRAPH2014.pdf

      • Diordna
        /#10632109

        Можно простым языком вкратце?

  2. REPISOT
    /#10629963

    Для этого нужно записать видео объекта с помощью камеры для высокоскоростной съемки

    И на этом «чудеса» визуального микрофона заканчиваются. Проще и дешевле использовать направленный микрофон или лазерный (который со стекла снимает).
    Возможности восстановить звук со случайной съемки — нет. Вероятность, что нужный кому-то звук попадет вдруг на запись скоростной камеры — нулевая.

    • HiMem-74
      /#10630027

      Проще и дешевле использовать направленный микрофон или лазерный (который со стекла снимает).

      Действительно, проще и дешевле. А еще дешевле прийти и послушать ухом. Вся ценность технологии — прослушать звуки окружения и получить дополнительную информацию, зачастую ретроспективно, т.е. с уже состоявшейся видеозаписи.
      Возможности восстановить звук со случайной съемки — нет. Вероятность, что нужный кому-то звук попадет вдруг на запись скоростной камеры — нулевая.

      Вероятность — почти 100%, просто не всегда возможно извлечь информацию из-за несовершенства технологии, ученые еще в начале пути.
      Это ж как с подменой лица на видео — придумали очень давно, даже в фильме «бегущий человек» засветились, а до практического применения только сейчас добрались. И, кстати, кто двинул технологию? Порноиндустрия! Наверняка здесь так же будет, кому-то захочется реальную аудиодорожку из клипов Александры Серовой с командами режиссера и появятся удобные инструменты…

  3. FakeOctopus
    /#10630453

    А какой в этом смысл. Если можно поставить камеру то почему нельзя поставить микрофон?
    Тем более что требуются специальные высокоскоростные камеры.

    • Ocelot
      /#10630953

      Камерой можно снимать с большого расстояния, через стекло, в шумной обстановке.

  4. Andrey_Epifantsev
    /#10630817

    Эту бы технологию, да для определения качества арбузов!

  5. eyno
    /#10631185

    Я уже натыкался на этот метод, довольно давно. Из того, что нагуглил, точно видел вот эту презентацию:


    https://www.ted.com/talks/michael_rubinstein_see_invisible_motion_hear_silent_sounds_cool_creepy_we_can_t_decide/transcript?language=ru#t-499044


    Довольно интересный метод обработки изображения.


    Причем, подавалось все это в иронично критическом ключе. Вот только где встречал ту статью — так и не смог вспомнить. (

  6. AlexAV1000
    /#10631359

    Интересно, когда они научатся считывать звук, с древних глиняных тарелок?