25.08.2018 | 09:42

Adam Haertle

Podsłuchiwanie monitora mikrofonem, czyli czy obrazy wydają dźwięki

Mikrofonem. Obraz. Widzieliśmy różne ataki, ale naukowcy odczytujący litery z ekranu monitora za pomocą mikrofonu nagrywającego dźwięki wydobywające się z układów elektronicznych monitora to już naprawdę przechodzi ludzkie pojęcie.

Podsłuchiwanie laserem i paczką czipsów możemy jeszcze zrozumieć – w końcu lasery w podsłuchach funkcjonują od dosyć dawna. Ale odczytywanie obrazu mikrofonem to dla nas zupełnie inna półka. Dwóch naukowców udowodniło jednak, że się da. Zobaczmy, co i jak sprawdzali.

Synestezja

Synestezja to zdolność odbierania bodźców jednego zmysłu pod wpływem innego – na przykład można mówić o synestezji, gdy ktoś słyszy kolory lub widzi dźwięki. Taką właśnie, nad wyraz trafną nazwą, określili swoje badanie Daniel Genkin i Mihir Pattani, którzy postanowili za pomocą mikrofonów odczytywać obraz z monitora. Jak działa taki proces?

Wszystkie monitory LCD działają według podobnej zasady. 30, 60 lub 120 razy na sekundę po kolei odświeżają wygląd każdego piksela na ekranie. Działanie monitora powoduje powstawanie bardzo cichych dźwięków, których charakterystyka może zależeć od tego, co akurat jest na ekranie rysowane. Czy da się to jednak zmierzyć? I czy z takich pomiarów można wyciągać wnioski na temat zawartości ekranu? Okazuje się, że się da. I nie trzeba dysponować superczułym mikrofonem. Co więcej, do niektórych zastosowań wystarczy na przykład:

  • mikrofon kamery internetowej,
  • komórka niedaleko ekranu,
  • nagranie dźwięku zamieszczone w sieci (np. ścieżka filmu nakręconego telefonem),
  • dźwięk przekazywany w czasie telekonferencji.

Wszystkim zainteresowanym szczegółami gorąco polecamy lekturę pracy badaczy (jest dość przystępnie napisana), a tych, którym wystarczy streszczenie, zapraszamy do kolejnego akapitu.

Osiągnięte wyniki

Koncepcja koncepcją, ale najciekawsze są zawsze wyniki praktyczne. Badacze zaczęli od nagrywania odgłosów generowanych przez poziome paski na ekranie komputera. Na początek zlokalizowali część monitora generującą interesujące je dźwięki – okazała się nią płytka odpowiedzialna za zasilanie. Potem spędzili sporo czasu na obliczeniach i eksperymentach w celu ustalenia optymalnej częstotliwości próbkowania dźwięku oraz metod czyszczenia sygnału.

W kolejnym kroku ustalili, że dźwięk nagrywany komórką leżącą z tyłu monitora jest bardzo dobrej jakości i pozwala na analizę obrazu. Zadowalające wyniki osiągnęli także, analizując sygnał przekazywany przez połączenie komunikatorem Hangouts przy użyciu wbudowanego mikrofonu monitora oraz zwykłego mikrofonu zewnętrznego. A co z jakością odczytywanych danych? Na zdjęciach obrazy nie wskazują raczej na łatwość ich interpretacji.

Machine Learning na ratunek

Naukowcy do interpretacji otrzymywanych wyników użyli uczenia maszynowego. Nie znamy się, więc nie będziemy nawet udawać, że potrafimy ich modele wytłumaczyć. Miłośnicy tematu znajdą opis w tekście pracy. Nas interesują efekty.

Zacznijmy od próby odczytania tekstu z ekranu. W eksperymencie użyto czcionki o rozmiarze 175 (zatem ogromnej), która ma mało wspólnego z rzeczywistym scenariuszem użycia. Jednak mimo tego efekty nas zaskoczyły. Po wyedukowaniu modelu uczenia maszynowego potrafił on rozpoznać prawidłowo wyświetlane słowo (z puli kilkudziesięciu tysięcy słów angielskich) ze skutecznością 56%. Dla 72% przypadków odgadywane słowo znalazło się wśród pięciu typowanych przez algorytm jako najtrafniejsze. Jeśli kiwacie głowami i mówicie „na co to komu”, to pamiętajcie, że mówimy o nagraniu wykonanym z odległości kilku metrów, gdzie mikrofon nagrywa buczenie elektroniki wyświetlającej obraz na ekranie. Nam się to w głowach nie mieści.

Drugim testem była próba identyfikacji strony WWW, którą na swoim monitorze otwiera rozmówca z sesji Hangouta. Zatem naukowcy nagrywają dźwięk rozmowy przez komunikator, ktoś przegląda internet, a oni próbują odgadnąć, na jaką stronę właśnie wszedł. Dla potrzeb eksperymentu wyuczyli swój model dźwięków towarzyszących otwieraniu 10 popularnych witryn. Stronę CNN byli w stanie rozpoznać przez Hangouty w ponad 96% przypadków.

Algorytmy użyte w testach opisanych powyżej uczone były na tym samym modelu monitora, na którym przeprowadzany był eksperyment. Naukowcy sprawdzili zatem, jak zachowa się model uczony na różnych monitorach. Okazało się, że jakość predykcji rośnie, jeśli model był trenowany na kilku egzemplarzach właściwego modelu monitora. W niektórych przypadkach także trenowanie na monitorach podobnych do docelowego było wystarczające. Gorsze wyniki osiągano, gdy model uczony był na innych monitorach niż te, na których przeprowadzano eksperymenty.

Wnioski

Choć nie należy się spodziewać, że sąsiad z mikrofonem przeczyta treść e-maila, którego tworzymy na ekranie, to warto wziąć pod uwagę fakt, że badanie przeprowadzali zwykli naukowcy dysponujący zwykłą technologią, dostępną dla prawie każdego zjadacza chleba. Można podejrzewać, że lepsze techniki rejestracji dźwięku, lepsze modele uczenia maszynowego i analitycy dysponujący większymi zasobami są w stanie osiągnąć więcej. Wyobraźcie sobie chociażby odzyskiwanie obrazu monitora z nagrań rozmów telefonicznych z porywaczami czy z terrorystycznych manifestów. Podejrzewamy, że w paru miejscach na świecie takie eksperymenty trwają lub dawno się już odbyły.

Powrót

Komentarze

  • 2018.08.25 09:51 yki

    Mój kineskopowy telewizor wydawał z siebie pisk o wysokiej częstotliwości, który zależał od wyświetlanego obrazu. Używając go przez kilkanaście lat nauczyłem się „na ucho” odróżniać obrazy w jasnych i w ciemnych barwach, więc pójście o krok dalej jest całkiem możliwe.

    Odpowiedz
    • 2018.08.25 10:00 Trafopowielacz

      To samo miałem napisać. Oczywiście nikt z rodziny nie słyszał tych dźwięków, więc pewnie uznawali mnie za świra. :)

      Odpowiedz
    • 2018.08.25 10:22 Duży Pies

      Kineskopowy telewizor miał pełno analogowej elektroniki.
      Np. mnóstwo cewek i transformatorów (ogólnie: indukcyjności) które wydawały z siebie dźwięki o szerokim spektrum, z których część faktycznie była słyszalna, szczególnie gdy cewki „ze starości” odklejały/odkształcały się. Także niektóre kondensatory wydawały z siebie dźwięki (np. elektrolity gdy wysychały to potrafiły piszczeć).
      .
      Podsłuch analogowej TV to bułka z masłem w porównaniu z tym co Adam zamieścił w artykule.
      Jak widać działanie analogowych podzespołów i pojawiający się tam ulot elektromagnetyczny ciągle dają możliwość inwigilacji w urządzeniach nazywanych „cyfrowymi” którymi są tylko w pewnym sensie.

      Odpowiedz
      • 2018.08.25 12:09 jozek

        Nie bierzesz pod uwagę, że urządzenia cyfrowe produkują sporo promieniowania elektromagnetycznego, chociażby układ scalony, który w różnym stopniu obciąża układ zasilający, w zależności od wykorzystywanej mocy (generowanych impulsów i częstotliwości). Teraz weźmy pod uwagę kartę graficzną – procesor, kości pamięci, własny układ regulujący napięcie – i wszystko wysokich częstotliwości. Ludzki słuch jest niezwykle wrażliwy na odpowiednie dźwięki (szmery, uwarunkowanie genetyczne dla lepszego wykrywania np. węża wśród suchych liści), więc w zależności od wykorzystywanego potencjału karty graficznej, promieniuje ona bardziej albo mniej. Kabel słuchawkowy, który jest całkowicie niezabezpieczony i nieizolowany (a sygnał nie jest stabilizowany np. ferrytem), będzie wrażliwy na to promieniowanie, a raczej, wrażliwy na zniekształcenia sygnału biegnące z karty dźwiękowej, przez kabel słuchawkowy obok karty graficznej.

        I tak, ja, siedząc sobie w moich Superluxach HD bez problemu potrafię rozpoznać dźwięk, jaki wydaje „karta” graficzna, gdy używam scrolla do przewijania strony. Dopuszczam myśl, że jeżeli ja słyszę kartę graficzną, to wyjątkowy sprzęt, sprecyzowany na odpowiednie zastosowanie, będzie tysiące razy bardziej dokładny niż ludzki słuch i kabel miedziowy.

        A problematyka ta znana jest od co najmniej 30 lat, jednak nie ma i jeszcze trochę nie będzie urządzeń tak precyzyjnych, że uda im się ODSEPAROWAĆ różne sygnały dźwiękowe na różnych częstotliwościach, kiedy taki monitor generuje (obliczenia mocno uproszczone) 1920x1080x120x3 = 746 496 000 impulsów wszystkich diod łącznie w ciągu sekundy płynących w jednym kablu miedziany do słuchawek/mikrofonu.

        Jakby ktoś się nad tym zastanowił, monitor LCD odświeżany jest od dołu do góry (sterowanie diodami jest z reguły na dole), jeżeli mogliby zrobić urządzenie tak niesamowicie czułe, mogli by wyłapywać z częstotliwości odświeżania wszystkie uruchomione diody w rzędzie i ich natężenie, ale czułość tego urządzenia? Haha… 120Hz częstotliwość, czas odpowiedzi matrycy 1ms to standard, myślę, że móc zrobić pomiar w DALEJ JEDNYM KABLU MIEDZIANYM na poziomie 1 000 000 000 próbek na sekundę, a tu dochodzimy do momentu, kiedy miedź jako materiał jest głównym ograniczeniem.

        Musieliby chyba mierzyć ilość elektronów, które są prądowo „przepychane” przez przewód. W obecnej technologii taki zespół szpiegowski musiałby całe mieszkanie przeznaczyć na instalacje i podciągnąć jakieś 20 metrów kabla z podsłuchiwanego pomieszczenia.

        BTW. Jak ktoś się interesuje tematem, polecam caaaaały potężny dział „kradnięcia” kodu źródłowego z mikrokontrolerów, metoda „słuchania” częstotliwości i zmian w działaniu diod czy bramek była wymyślona już w latach 60, przez Rosjan.

        Odpowiedz
        • 2018.08.25 12:40 Duży Pies

          „Nie bierzesz pod uwagę…”
          Biorę/brałem pod uwagę.
          Nie zawsze mam ochotę się rozpisywać, nie zawsze jestem w nastroju i formie do obszernych komentarzy.
          Wszystko co napisałeś, jest mi znane. Nie zaskoczyłeś mnie.
          Ale dobrze że to opisałeś, będzie dla innych. Treściwe komentarze są potrzebne, dzięki temu rozkręca się dyskusja. Nasze komentarze czytają inni, także autorzy Z3S, pojawia się – mam nadzieję że inspirujący – feedback i tak strona żyje.

          Odpowiedz
          • 2018.08.25 23:46 jozek

            W zasadzie, czysta luźna dywagacja:
            Jesteśmy wstanie ustawić wszystkie tranzystory w procesorze jednym impulsem na 0 albo 1. Prawo Moora nie funkcjonuje, wypadało by zmienić reprezentację tranzystorową.

            Ekrany ciekłokrystaliczne są ciekawe. Impuls elektryczny zmienia położenie ciekłych kryształów co sprawia, że z odpowiednim natężeniem świecą piksele. Natężenie świecenia jednego piksela, możemy zmierzyć w wartości 0-255, w kolorach RGB. To znaczy, że za pomocą 1 piksela sprawdzamy 3 stany 00000000 00000000 00000000.

            1. Zmniejszyć piksele do 20nm
            2. Odświeżać ekran z częstotliwością 2Ghz
            3. Czytać stan pikseli w jakiś sposób
            4. Zmieniać stan pikseli impulsami bardzo wysokiej częstotliwości

            Profit? Ilość pikseli = ilości tranzystorów, ale ilość wykorzystywanych kombinacji bitów = (ilośćPikseli*3)^255

            Prawo Moore’a? Hahahaha. Prawo Jozka rulez! Jeżeli bylibyśmy wstanie zmieścić, na procesorze niewiele większym od obecnych…

            Pytanie filozoficzno-akademickie, klasyka gatunku na pierwszym roku, „jeżeli udałoby nam się stworzyć procesor 5×5 centymetrów, zawierający więcej tranzystorów niż istnieje atomów we wszechświecie, to jaką by miał moc obliczeniową?”.

            Kiedyś dywagowałem też nad procesorem opartym na atomach gazu, jednak proces odczytywania stanów byłby znacząco za długi. Nad wykorzystaniem światła jeszcze nie myślałem.

          • 2018.08.27 13:27 C. Bolek

            @jozek
            „jeżeli udałoby nam się stworzyć procesor 5×5 centymetrów, zawierający więcej tranzystorów niż istnieje atomów we wszechświecie, to jaką by miał moc obliczeniową?”.
            To pytanie bez sensu, więc po co je zadawać?
            Nawet jeżeli jeden tranzystor składał się z jednego atomu i i tak zabrakło by atomów we wszechświecie. A gdyby ograniczyć się „tylko” to ilości dostępnych atomów, to gęstość misiała by być taka jak przed Wielkim Wybuchem, więc nawet nie istniałyby atomy tylko zupa cząstep pierwornych bez żadnej struktury.
            Po co epatować siebie i innych pytaniami bez sensu??

          • 2018.08.28 00:40 jozek

            @C.Bolek

            To pytanie retoryczne, które często pada na studiach, ale nie koniecznie bez sensu. Skupiłeś się na fizycznym tranzystorze (który reprezentuje 1 bit, 0/1), a ja się skupiłem na reprezentacji stanu wielu bitów.

            Można uzyskać reprezentacje stanu znacznie większą, niż ilość atomów we wszechświecie. Przykład? Liczba PI. Ma nieskończenie wiele liczb po przecinku, a więc w pewnym momencie jest reprezentacją stanu większego, niż liczba atomów we wszechświecie. Inny, bardziej przyziemny przykład – prosta. Prosta jest pojęciem nieskończonym. Pojęciem większym niż ilość atomów we wszechświecie jest nawet stwierdzenie, takie jak „ludzka głupota”.

            Ale, krążąc w okół teorii wykorzystania światła do reprezentacji stanu bitów, wiesz, że nasze słońce co jakiś okres czasu podany w latach, wyrzuca z siebie ilość fotonów tryliard razy większą, niż ilość atomów we wszechświecie? No shit.

            I teraz kwestia wyjaśnień, procesor w modelu komputerowym Neumanna składa się z tranzystorów, reprezentujących bity (1 tranzystor = 1 bit). Aktualnie prowadzi się badania nad komputerami kwantowymi, w których używa się Kubitów (splątań w mechanice kwantowej). Najprostsze dla takiego laika jak ty jest wyjaśnienie, że kubit może w jednym momencie być 0 i 1, czyli reprezentacją 01, 10, 00, 11 – to znaczy, dwóch bitów. Co już jest trudniejsze do zrozumienia, to to, że stan kubitu jest tylko PRAWDOPODOBIEŃSTWEM. Czyli, istnieje przykładowo tylko 80% szans, że kubit przyjmie jakąś wartość, a wartość ta będzie prawidłowa (dlatego np. komputer kwantowy może wykonać operację 2+2 w czasie 5 lat, bo zanim osiągnie po milionach powtórzeń prawdopodobieństwo 99% będzie musiał wykonać N prób).

            I tu dochodzimy do przeskoku technologicznego – reprezentacja 1 kubitem, aż 4 możliwych stanów: 00,01,11,10, ale przyjmijmy, że to tylko 2 bity.

            Ja zaproponowałem, aby ciekłym kryształem zmieniać impulsami wysokiej częstotliwości stany natężenia światła w pikselach, gdzie 1 piksel składa się z 3 kolorów – RedGreenBlue. Natężenie, w których mogą pracować piksele to zakres o 0-255, czyli mogą mieć stan np. 255,255,255 (co daje ci kombinację 16mln możliwych kolorów). Liczbę 255 możesz zapisać na 8 bitach, co daje 11111111,11111111,11111111.

            W 2019 roku Intel planuje przejść na proces technologiczny 10nm, ilość tranzystorów na jednym rdzeniu krzemowym wzrośnie do 8 000 000 000, co daje 8 000 000 000 bitów. Gdybyś na takim samym procesorze, upchał moją koncepcję z pikselami i jakimś cudem znalazł sposób na sterowanie każdego piksela i jego odczyt z taką samą prędkością, jak Intel, miałbyś (8 000 000 000*3)*24 = 576 000 000 000 bitów. Całkiem nieźle, a to tylko koncepcja po jednym piwie.

            Czy istnieje możliwość upchnięcia ilości bitów większej niż ilość atomów we wszechświecie na płytce 5x5cm? Można. Można chociażby korzystać z informacji samych atomów – protonów, neutronów, kwarków, antykwarków czy informacji płynących z bozonów. Wszystko jest kwestią technologii, podejścia i odpowiedniej reprezentacji.

            Punkt widzenia, to wszystko.

      • 2018.08.27 08:25 Łukasz

        Był kiedyś nawet taki program co wyświetlał jakieś śmieci na ekranie a na podanej częstotliwości radiowej mogłeś sobie posłuchać „Do Elizy” :D

        Odpowiedz
      • 2018.08.27 22:16 W

        Ulot elektromagnetyczny? Masz na mysli zjawisko fizyczne ulotu wystepujacego przy wysokich napieciach?

        Odpowiedz
  • 2018.08.25 10:47 m4sk1n

    Wreszcie będę mógł nagrywać zawartość ekranu bez strat w wydajności ;)

    Odpowiedz
  • 2018.08.25 12:14 h!p3r

    Warto dodać że tu cipsy nie pomogą, chyba że te na prawdę grubo krojone.
    Nie jesteśmy natomiast całkiem bezradni i oglądając telewizję lub czytając e-malje możemy skorzystać z koca termicznego oraz folii aluminiowej.

    Odpowiedz
    • 2018.08.25 12:51 Duży Pies

      Po latach, nikt już się nie śmieje ze Snowdena którego zachowanie w Hong Kongu opisał Greenwald: chowanie smartfona w mikrofalówce po uprzednim wyjęciu baterii albo nakładanie na siebie koca podczas pracy na laptopie. Oczywiście takie coś to ekstremum, ale nie całkiem pozbawione sensu.
      Z perspektywy czasu trzeba Snowdenowi przyznać rację, jeśli chodzi o inwigilację, której doświadczamy i w której bierzemy aktywny udział (polskie służby współpracują np. z NSA). Nawet jeśli sam Snowden ukrywając się w Rosji stracił ze swej transparentności…

      Odpowiedz
      • 2018.08.25 13:38 h!p3r

        i z hackingteamem :D ale ogólnie tak boję się służb, wszystkich służb, zaczynając na straży pożarnej, na służbie oczyszczania miasta kończąc. Najbardziej boje się WSI, podejrzewam że co najmniej jeden z ochroniarzy na mojej ośce jest z WSI i jak wychodzę do pracy to kradną moje XSS-y aby wypracować przewagę w cyber przestrzeni.
        Chciałbym żeby mi ktoś zablokował internet, bo nudy tu takie że muszę czytać te wszystkie pierdoły, a one zmuszają mnie do umieszczania kretyńskich komentarzy, nawet pudelek nie cieszy jak kiedyś :(

        Odpowiedz
  • 2018.08.25 19:05 Imię

    Przypomina się stary dobry tempest for eliza.
    http://www.erikyyy.de/tempest/

    Odpowiedz
  • 2018.08.25 23:09 Moris

    Dałbym sobie rękę uciąć, że to nie jest nowość. Kiedyś mignął mi tekst, gdzie nagrywano dźwięki cewek zasilacza procesora i na tej postawie określano co procesor robi. Nawet klucze szyfrujące można było wyciagnąć…

    Odpowiedz
  • 2018.08.25 23:16 Marek

    15 lat w trakcie studiów prowadzący mówili o podsłuchiwaniu procesora jako jednym z ataków side-channel (https://en.wikipedia.org/wiki/Acoustic_cryptanalysis). Była też mowa o analizie sygnału elektromagnetycznego wysyłanego przez monitory, odczytywaniu tekstu na jego podstawie i metodach obrony. Wiadomo też, że podsłuchiwać można jak ktoś pisze na klawiaturze. Dlatego jedyne czym jestem zdziwiony to to, że na podsłuchiwanie monitora ktoś wpadł dopiero teraz.

    Odpowiedz
  • 2018.08.26 07:16 Wojciech

    Lata temu czytałem artykuł o „podsłuchiwaniu” monitorów kineskopowych używając promieniowania elektromagnetycznego. W tych czasach to już raczej mniej istotne ale udało mi się znaleźć link to tego materiału. Dla zainteresowanych: https://www.chip.pl/2004/12/zdradziecki-prad/

    Odpowiedz
    • 2018.08.26 08:44 Duży Pies

      Temat bardzo dobrze znany, wiele razy opisywany w branżowych publikacjach. Można powiedzieć że to informatyczna archeologia.
      Polskie służby (wojskowe) dysponowały sprzętem do rejestracji ulotu elektromagnetycznego już w latach ’80 i ’90.

      Odpowiedz
      • 2018.08.26 09:49 Jacek

        Ja się tak zastanawiam. Skorowidz latach 80-90tych sprzęt do „czytania” obrazu z kineskopów był już dostępny to pytanie co teraz potrafią zrobić. I faktycznie aluminiowa czapeczka juz tak nie smieszy jak kiedyś.

        Odpowiedz
    • 2018.08.26 15:30 c

      W okolicach lat ’95–’96 miałem do czynienia z wojskowym sprzętem antypodsłuchowym do komputerów. Wawa, Cytadela, Dowództwo Wojsk Lądowych, tajne przez poufne.
      Konkretnie było to ciężkie plastikowe pudło z wkładkami z blachy ołowianej. W środku mieścił się desktop i monitor, na który patrzyło się przez szybkę. Klawiatura też była jakoś obudowana.

      Odpowiedz
  • 2018.08.26 09:02 Przemysław

    Ha ha, posiadam kolumny mobilne dla rozrywki. Bez muzyki a włączone podczas ładowania aku, pięc metrów od laptopa (takiego mini raczej) podczas jego pracy każdy ruch myszki, klawisz ekran (zmiana) etc generuje duże bogactwo przeróżnych dźwięków…zero zdziwienia, zero.

    Odpowiedz
  • 2018.08.27 13:17 C. Bolek

    „Wyobraźcie sobie chociażby odzyskiwanie obrazu monitora z nagrań rozmów telefonicznych z porywaczami czy z terrorystycznych manifestów.”
    Tu wcale nie chodzi o takie zastosowania a o trakowanie userów, żeby im wyświetlić chwytliwą reklamę. Konsumpcja i coraz większa sprzedaż jest teraz bogiem :-\

    Odpowiedz
  • 2018.08.29 14:48 1a2

    Bruel and Kjaer wzmacniacz, uzywam takiego

    Odpowiedz

Zostaw odpowiedź do Moris

Jeśli chcesz zwrócić uwagę na literówkę lub inny błąd techniczny, zapraszamy do formularza kontaktowego. Reagujemy równie szybko.

Podsłuchiwanie monitora mikrofonem, czyli czy obrazy wydają dźwięki

Komentarze