Podsłuchiwanie monitora mikrofonem, czyli czy obrazy wydają dźwięki

dodał 25 sierpnia 2018 o 09:42 w kategorii Prywatność  z tagami:
Podsłuchiwanie monitora mikrofonem, czyli czy obrazy wydają dźwięki

Mikrofonem. Obraz. Widzieliśmy różne ataki, ale naukowcy odczytujący litery z ekranu monitora za pomocą mikrofonu nagrywającego dźwięki wydobywające się z układów elektronicznych monitora to już naprawdę przechodzi ludzkie pojęcie.

Podsłuchiwanie laserem i paczką czipsów możemy jeszcze zrozumieć – w końcu lasery w podsłuchach funkcjonują od dosyć dawna. Ale odczytywanie obrazu mikrofonem to dla nas zupełnie inna półka. Dwóch naukowców udowodniło jednak, że się da. Zobaczmy, co i jak sprawdzali.

Synestezja

Synestezja to zdolność odbierania bodźców jednego zmysłu pod wpływem innego – na przykład można mówić o synestezji, gdy ktoś słyszy kolory lub widzi dźwięki. Taką właśnie, nad wyraz trafną nazwą, określili swoje badanie Daniel Genkin i Mihir Pattani, którzy postanowili za pomocą mikrofonów odczytywać obraz z monitora. Jak działa taki proces?

Wszystkie monitory LCD działają według podobnej zasady. 30, 60 lub 120 razy na sekundę po kolei odświeżają wygląd każdego piksela na ekranie. Działanie monitora powoduje powstawanie bardzo cichych dźwięków, których charakterystyka może zależeć od tego, co akurat jest na ekranie rysowane. Czy da się to jednak zmierzyć? I czy z takich pomiarów można wyciągać wnioski na temat zawartości ekranu? Okazuje się, że się da. I nie trzeba dysponować superczułym mikrofonem. Co więcej, do niektórych zastosowań wystarczy na przykład:

  • mikrofon kamery internetowej,
  • komórka niedaleko ekranu,
  • nagranie dźwięku zamieszczone w sieci (np. ścieżka filmu nakręconego telefonem),
  • dźwięk przekazywany w czasie telekonferencji.

Wszystkim zainteresowanym szczegółami gorąco polecamy lekturę pracy badaczy (jest dość przystępnie napisana), a tych, którym wystarczy streszczenie, zapraszamy do kolejnego akapitu.

Osiągnięte wyniki

Koncepcja koncepcją, ale najciekawsze są zawsze wyniki praktyczne. Badacze zaczęli od nagrywania odgłosów generowanych przez poziome paski na ekranie komputera. Na początek zlokalizowali część monitora generującą interesujące je dźwięki – okazała się nią płytka odpowiedzialna za zasilanie. Potem spędzili sporo czasu na obliczeniach i eksperymentach w celu ustalenia optymalnej częstotliwości próbkowania dźwięku oraz metod czyszczenia sygnału.

W kolejnym kroku ustalili, że dźwięk nagrywany komórką leżącą z tyłu monitora jest bardzo dobrej jakości i pozwala na analizę obrazu. Zadowalające wyniki osiągnęli także, analizując sygnał przekazywany przez połączenie komunikatorem Hangouts przy użyciu wbudowanego mikrofonu monitora oraz zwykłego mikrofonu zewnętrznego. A co z jakością odczytywanych danych? Na zdjęciach obrazy nie wskazują raczej na łatwość ich interpretacji.

Machine Learning na ratunek

Naukowcy do interpretacji otrzymywanych wyników użyli uczenia maszynowego. Nie znamy się, więc nie będziemy nawet udawać, że potrafimy ich modele wytłumaczyć. Miłośnicy tematu znajdą opis w tekście pracy. Nas interesują efekty.

Zacznijmy od próby odczytania tekstu z ekranu. W eksperymencie użyto czcionki o rozmiarze 175 (zatem ogromnej), która ma mało wspólnego z rzeczywistym scenariuszem użycia. Jednak mimo tego efekty nas zaskoczyły. Po wyedukowaniu modelu uczenia maszynowego potrafił on rozpoznać prawidłowo wyświetlane słowo (z puli kilkudziesięciu tysięcy słów angielskich) ze skutecznością 56%. Dla 72% przypadków odgadywane słowo znalazło się wśród pięciu typowanych przez algorytm jako najtrafniejsze. Jeśli kiwacie głowami i mówicie „na co to komu”, to pamiętajcie, że mówimy o nagraniu wykonanym z odległości kilku metrów, gdzie mikrofon nagrywa buczenie elektroniki wyświetlającej obraz na ekranie. Nam się to w głowach nie mieści.

Drugim testem była próba identyfikacji strony WWW, którą na swoim monitorze otwiera rozmówca z sesji Hangouta. Zatem naukowcy nagrywają dźwięk rozmowy przez komunikator, ktoś przegląda internet, a oni próbują odgadnąć, na jaką stronę właśnie wszedł. Dla potrzeb eksperymentu wyuczyli swój model dźwięków towarzyszących otwieraniu 10 popularnych witryn. Stronę CNN byli w stanie rozpoznać przez Hangouty w ponad 96% przypadków.

Algorytmy użyte w testach opisanych powyżej uczone były na tym samym modelu monitora, na którym przeprowadzany był eksperyment. Naukowcy sprawdzili zatem, jak zachowa się model uczony na różnych monitorach. Okazało się, że jakość predykcji rośnie, jeśli model był trenowany na kilku egzemplarzach właściwego modelu monitora. W niektórych przypadkach także trenowanie na monitorach podobnych do docelowego było wystarczające. Gorsze wyniki osiągano, gdy model uczony był na innych monitorach niż te, na których przeprowadzano eksperymenty.

Wnioski

Choć nie należy się spodziewać, że sąsiad z mikrofonem przeczyta treść e-maila, którego tworzymy na ekranie, to warto wziąć pod uwagę fakt, że badanie przeprowadzali zwykli naukowcy dysponujący zwykłą technologią, dostępną dla prawie każdego zjadacza chleba. Można podejrzewać, że lepsze techniki rejestracji dźwięku, lepsze modele uczenia maszynowego i analitycy dysponujący większymi zasobami są w stanie osiągnąć więcej. Wyobraźcie sobie chociażby odzyskiwanie obrazu monitora z nagrań rozmów telefonicznych z porywaczami czy z terrorystycznych manifestów. Podejrzewamy, że w paru miejscach na świecie takie eksperymenty trwają lub dawno się już odbyły.