12

Nowy rodzaj podsłuchu – rekonstrukcja dźwięku na bazie obserwacji paczki chipsów bądź rośliny doniczkowej

Naukowcy prześcigają się w wymyślaniu nowych sposobów na pozyskiwanie informacji w niekonwencjonalny sposób. Trzy lata temu pisałem o przechwytywaniu tekstu wpisywanego na smartfonie, na klawiaturze ekranowej, bazując jedynie na danych z akcelerometru. Nowy, spektakularny pomysł polega na odtworzeniu informacji na temat dźwięku mając do dyspozycji jedynie obraz z kamery, która dźwięku w ogóle nie rejestrowała. […]

Naukowcy prześcigają się w wymyślaniu nowych sposobów na pozyskiwanie informacji w niekonwencjonalny sposób. Trzy lata temu pisałem o przechwytywaniu tekstu wpisywanego na smartfonie, na klawiaturze ekranowej, bazując jedynie na danych z akcelerometru. Nowy, spektakularny pomysł polega na odtworzeniu informacji na temat dźwięku mając do dyspozycji jedynie obraz z kamery, która dźwięku w ogóle nie rejestrowała. Opiera się on na obserwacji przedmiotów w bezpośrednim otoczeniu źródła dźwięku, a następnie przetwarzania wibracji w jakie wpadają.

W opracowanej i sprawdzonej w działaniu koncepcji, każdy przedmiot, znajdujący się dostatecznie blisko źródła dźwięku staje się mikrofonem. Wystarczy zarejestrować jego obraz i poddać go później analizie. W zaprezentowanych na filmie przykładach naukowcy odtwarzają fragment rymowanki „Mary Had a Little Lamb” obserwując roślinę doniczkową oraz paczkę chipsów, nie są to jednak jedyne przedmioty spełniające taką funkcję. Zadziała każdy przedmiot, który dźwięk jest w stanie wprawić w wibracje. Mogą to być zasłony, roleta (o ile nie porusza nimi wiatr), papierek po cukierku, sreberko po czekoladzie, kartka, cokolwiek.

vlcsnap-2014-08-06-10h00m03s129

Mimo, że nagrane przedmioty poruszają się, jak sami twórcy twierdzą, o setną część piksela i dla ludzkiego oka ruch jest niezauważalny, to analiza obrazu daje efekty na tyle dobre, że bez problemu można zrozumieć słowa, czy melodię w odzyskanym dźwięku Przekonajcie się sami oglądając film na końcu artykułu. Radzi sobie z tym również aplikacja do rozpoznawania muzyki Shazam, która rozpoznaje utwór bazując na pozyskanym z obserwacji dźwięku.

vlcsnap-2014-08-06-10h02m34s105

Czy zatem wystarczy zwykła kamera przemysłowa do prowadzenia podsłuchu? Tak i nie. Przedmioty wpadają w wibracje o częstotliwości podobnej do częstotliwości dźwięku. Najniższe słyszalne przez człowieka dźwięki oznaczają wibracje na poziomie kilkudziesięciu drgnięć na sekundę, ale dźwięki wysokie to już tysiące i dziesiątki tysięcy drgnięć na sekundę. Tak szybkiego ruchu nie zarejestruje zwykła kamera i najlepsze efekty dają kamery typu slow motion, które potrafią nagrywać obraz z prędkości kilku tysięcy klatek na sekundę, zamiast standardowych 25 czy 30 klatek. To przy pomocy takie kamery zarejestrowano paczkę chipsów przez dźwiękoszczelną szybę i odtworzono dźwięk.

vlcsnap-2014-08-06-10h02m54s50

Jak się jednak okazuje i z tym problemem sprytni twórcy nowego sposobu na podsłuch sobie poradzili. Wykorzystali do tego celu efekt znany branży filmowej pod nazwą rolling shutter. Polega on na tym, że sensor kamery nie rejestruje obrazu jako całości, za jednym zamachem, lecz zczytuje obraz po jednej linii. W efekcie przedmioty szybko poruszające się są zniekształcone, bo ich położenie różni się pomiędzy pierwszym zczytaniem linii, a ostatnim, dla jednej klatki. Czemu o jest istotne? Prawie wszystkie dzisiejsze aparaty i kamery rejestrują obraz z prędkością 60 klatek na sekundę, ale każda klatka składa się z wielokrotnego zarejestrowania poszczególnych linii, a nie obrazu jako całości, a więc częstotliwość zczytwania linii jest wielokrotnie wyższa od ilości klatek na sekundę. Tym sposobem naukowcy są w stanie odczytać z obrazu częstotliwości wielokrotnie wyższe, niż 60 Hz, wynikające z prędkości rejestracji zwykłą kamerą, chociaż efekty wciąż nie są tak dobre jak w przypadku kamer high speed.

vlcsnap-2014-08-06-10h03m43s24

Oczywiście przedstawiona metoda ma szereg ograniczeń. Niższe częstotliwości są zarówno łatwiejsze do odczytania, co wyjaśnia wyższy akapit, jak i niosą więcej energii, a więc łatwiej wprowadzają przedmioty w wibracje. Stąd wszystkie fragmenty dźwięku zastosowane jako źródło są również pozbawione wysokich dźwięków. Zarówno kamera jak i przedmiot wpadający w wibracje muszą pozostawać nieruchome, domyślam się więc, że odpada filmowanie z ręki, jak i odczytywanie dźwięku z rolety, znajdującej się w przeciągu i poruszanej ruchami powietrza.

vlcsnap-2014-08-06-10h02m19s213

Wszyto to jednak nie zmienia faktu, że odzyskanie dźwięku tak wysokiej jakości, że można rozumieć słowa, patrząc jedynie na paczkę chipsów jest bardzo imponujące. Co prawda szpiegowskie urządzenia podsłuchowe pozwalały prowadzenie podsłuchów laserowo mierząc wibracje odległej szyby, to jednak zaprezentowana technika jest jednak bardziej wszechstronna, bo nie wymaga ani lasera, ani szyby, która może być dźwiękoszczelna. W wielu zastosowaniach wystarczy zwykła kamera w pomieszczeniu, w którym znajdują się podsłuchiwane osoby, albo rejestrator zaglądający z daleka, za pomocą teleobiektywu. Wreszcie analiza klatek wideo za pomocą algorytmu jest na mistrzowskim poziomie, skoro wykrywa drgania na poziomie setnej piksela.

vlcsnap-2014-08-06-10h00m55s139

Wszystko to zmusza to do refleksji, że prywatności nie ma, nie tylko w internecie. Główna różnica polega na tym, że w tzw. realu potrzebne są zwykle większe środki do prowadzenia działań szpiegowskich, co podnosi barierę wejścia. Można jednak podsłuchiwać również drukarki igłowe, odczytując drukowane treści i nie tylko. Sposobów jest znacznie więcej, niż moglibyśmy się spodziewać.

Więcej o tej technice przeczytacie na stronie projektu: „The Visual Microphone: Passive Recovery of Sound from Video”.