01.02.2019 | 08:34

Gosia Fraser

Stare tweety pozwalają innym zdobyć adres twojego domu

Stare wpisy na Twitterze, zawierające dane geolokalizacyjne, mogą być wykorzystane przez niepowołane osoby do zdobycia informacji o użytkownikach serwisu.

Chodzi m.in. o adresy miejsca zamieszkania czy firmy, w której dana osoba pracuje – wynika z badania przeprowadzonego przez zespół naukowców z Grecji i USA. Chociaż praca zespołu zostanie zaprezentowana publicznie dopiero w lutym podczas jednej z konferencji, to jej rezultaty już teraz są przedmiotem szerokiego zainteresowania mediów. Pisały o nich m.in. magazyn „Wired” oraz serwis The Register.

Badacze przeanalizowali około 15 mln tweetów, do których dołączone były dane lokalizacyjne zebrane od około 87 tys. użytkowników serwisu. Niektóre z wpisów pochodziły od osób, które chciały publicznie podzielić się swoją dokładną lokalizacją, np. podczas koncertu bądź pobytu w muzeum. Część tweetów została natomiast napisana przez użytkowników, którzy w swoich wpisach planowali udostępnić wyłącznie przybliżone miejsce przebywania, np. miasto czy region, w którym się znajdowali. Okazało się jednak, że zamiast ogólnych informacji serwis bez ich zgody dołączył do tweetów dokładną lokalizację.

Wskazujemy, że lokalizacja zapisana w metadanych umożliwia wnioskowanie na podstawie wrażliwych informacji, które w wielu przypadkach mogą zostać wykorzystane w niewłaściwy sposób (począwszy od represyjnego reżimu chcącego zdeanonimizować konto aktywisty politycznego po firmę ubezpieczeniową, która dowiedziała się o problemach zdrowotnych swojego klienta, a także potencjalnego pracodawcę starającego się prześwietlić kandydata) – podkreślają autorzy badania.

Twitter ma problem. Od dawna

Zagrożenia prywatności użytkowników związane z udostępnianiem danych geolokalizacyjnych na Twitterze to stary problem, który został już szeroko opisany w różnych badaniach naukowych publikowanych od 2015 roku.

Od tego czasu serwis stara się zapewnić swoim użytkownikom większą kontrolę nad tym, co się dzieje z ich informacjami i ogranicza precyzję, z jaką są rejestrowane współrzędne geograficzne. W praktyce okazało się jednak, że zmiany, które deklarował serwis, nie przyniosły oczekiwanych rezultatów zwiększenia naszej prywatności.

Tam dom twój, gdzie Twitter twój

Zespół badawczy udowodnił, że można dokładnie określić adres zamieszkania danego użytkownika Twittera wyłącznie dzięki analizie tego, gdzie spędza czas. Analizę taką można wykonać za pomocą oprogramowania LPAuditor. Podczas eksperymentu, aby określić adres zamieszkania na podstawie zebranych danych, posłużono się dość prostym schematem, w ramach którego osoby korzystające z Twittera zamieszczały na nim wpisy najczęściej rano i wieczorem (w dni robocze), a w weekendy czas użytkowania serwisu rozciągał się właściwie na cały dzień (kiedy użytkownicy przebywali w domu).

Inaczej zespół podszedł do kwestii określenia miejsca pracy użytkowników serwisu. LPAuditor przeanalizował lokalizacje, w których użytkownicy najczęściej tweetowali, wyłączył jednak ze zbioru danych informacje o miejscu zamieszkania. Następnie zbadano ramy czasowe, w których wpisy zostały zamieszczone. W rezultacie badacze uzyskali wiedzę o tym, że tweety często były wysyłane w trakcie ośmiogodzinnej zmiany w pracy (bez względu na to, czy użytkownicy pracowali w systemie zmian dziennych czy nocnych). LPAuditor z dużą dozą pewności potrafił określić, że miejsce, z którego w tym segmencie czasowym zamieszczane było najwięcej wpisów na Twitterze, to miejsce pracy użytkownika.

Zebrane przez oprogramowanie dane zostały następnie poddane „ręcznej” weryfikacji przez członków zespołu badawczego i zrewidowane podczas pracy z grupą kontrolną, która liczyła około dwóch tysięcy osób. Naukowcy przeszukali zbiór tweetów w celu znalezienia kluczowych zwrotów mogących potwierdzić, że dana osoba przebywała w określonym przedziale czasowym (obejmującym również czas publikacji wpisów) w domu lub w pracy. Wskazówkę dla naukowców stanowiły m.in. takie zwroty, jak „jestem w domu” czy „jestem w biurze”. Każdy tweet był analizowany także pod kątem kontekstu, w jakim został napisany – mógł tym samym dostarczyć dodatkowych informacji użytecznych w badaniu.

Wyniki

Jak się okazało, LPAuditor prawidłowo przypisał miejsce zamieszkania do użytkownika w 92,5 proc. przypadków. Nieco gorzej program poradził sobie z określeniem miejsca pracy, uzyskując wyniki na poziomie 55,6 proc.

Zespół poszedł jednak jeszcze o krok dalej i postanowił przyjrzeć się identyfikacji „wrażliwych” miejsc, które mogli odwiedzać użytkownicy Twittera. W tym celu porównali lokalizację dołączoną do tweetów z katalogiem firm i miejsc dostępnych w niegdyś bardzo popularnej aplikacji Foursquare. Naukowcy szukali głównie takich miejsc jak szpitale, oddziały ratunkowe, miejsca kultu religijnego, ale też kluby ze striptizem czy bary gejowskie.

Jako potencjalnie relewantną lokalizację uznano każde miejsce, które pojawiło się w promieniu 27 metrów od współrzędnych zapisanych razem z tweetem. Następnie przeprowadzono analizę słów kluczowych, wyszukując te, które były związane ze zdrowiem, religią, życiem nocnym czy osobistym. Miało to na celu sprawdzenie, czy dana osoba faktycznie przebywa we wskazanym miejscu. Korzystając z tej metody, autorzy eksperymentu odkryli, że LPAuditor, badając wrażliwe dane, był w stanie poprawnie określić położenie użytkownika w około 80 proc. przypadków.

Wrażliwe dane to potężne narzędzie

Wielu z Was stwierdzi, że jeśli dana osoba tweetuje, że jest u lekarza, to sama ujawnia informacje na ten temat i daje do zrozumienia, że nie jest zainteresowana dbaniem o swoją prywatność. Według autorów eksperymentu sprawa nie jest jednak tak oczywista, jak się wydaje.

Lokalizacja może nam dostarczyć więcej informacji, niż użytkownik chce sam powiedzieć – twierdzą naukowcy i podkreślają, że w jednym z przeanalizowanych przypadków użytkownik sam regularnie informował u wizycie u lekarza, jednak zapisana lokalizacja ujawniła, iż przebywa on za każdym razem w ośrodku rehabilitacyjnym. To o wiele bardziej wrażliwy kontekst sytuacji niż jedynie wiadomość o samym pobycie u lekarza.

Ograniczenie gromadzenia danych?

Większość z zaprezentowanych wyników badań opierała się na tweetach, które zostały zamieszczone w serwisie przed zmianą polityki prywatności Twittera, jaką serwis wprowadził w kwietniu 2015 r. Według zespołu badawczego zmiana spowodowała znaczący spadek ilości dokładnych danych geolokalizacyjnych dostępnych przez API serwisu. Jak się okazało, już po zmianach naukowcy byli w stanie pozytywnie zidentyfikować lokalizację jedynie dla 1/15 poddanych analizie użytkowników Twittera.

Krok w dobrą stronę, ale niewystarczający

Zmiany, jakie zaszły od 2015 roku na Twitterze, nie zmniejszyły jednak znacząco zagrożenia dla prywatności użytkowników, ponieważ nadal można dotrzeć do historycznych danych lokalizacyjnych z użyciem API platformy. Warto przy tym zauważyć, że aplikacja Twittera na systemy Android oraz iOS przed 2015 rokiem automatycznie dołączała dokładne współrzędne GPS do metadanych tweetów, dodając przy tym etykietę wskazującą na małą precyzję zebranych danych geolokalizacyjnych.

W zbiorze danych, który przeanalizował zespół badawczy, znajdowały się m.in. tweety z 2010 roku z opisem wskazującym jedynie nazwę konkretnego miasta. Jak się jednak okazało, zawierały one przy tym również dokładne współrzędne GPS zapisane właśnie w metadanych. Po kwietniu 2015 roku zaczęły pojawiać się tweety z lokalizacją konkretnego miasta, ale już bez współrzędnych GPS w metadanych, co wskazuje na to, że w tym właśnie czasie nastąpiła zmiana w aplikacji Twittera – ocenia jeden z naukowców.

Specjaliści  zwracają uwagę, że przeciętny użytkownik Twittera może nie zdawać sobie sprawy z tego zagrożenia prywatności, gdyż dane geolokalizacyjne nie są widoczne na stronie internetowej, której na co dzień używa.

Naruszenie prywatności jest niewidoczne dla użytkowników, ponieważ współrzędne GPS są dołączane tylko w metadanych zwracanych przez API i nie są widoczne poprzez stronę internetową Twittera lub aplikację – zauważają naukowcy w swoim artykule. Co gorsza, historyczne metadane pozostają publicznie dostępne poprzez API – podkreślają.

Zapytany o tę sprawę rzecznik Twittera odpowiedział serwisowi „Wired”, że tego typu decyzję pozostawiono w gestii samych zainteresowanych użytkowników. Uznaliśmy, że byłoby niewłaściwe, aby jednostronnie podjąć decyzję o zmianie zawartości tweetów bez ich zgody – podkreślił przedstawiciel Twittera.

Z kolei cytowany przez The Register, niewymieniony z nazwiska, przedstawiciel platformy zapewniał, że użytkownicy mogą zdecydować o tym, czy chcą się dzielić swoją lokalizacją przed wysłaniem każdego tweeta. Proszę zauważyć tę klauzulę opt-in; nigdy nie dołączamy danych lokalizacyjnych do tweetów bez zgody danej osoby. Jeśli ktoś zdecyduje się udostępnić swoją lokalizację na Twitterze, takie dane lokalizacyjne są dostępne również za pośrednictwem naszego API. Powtórzę jeszcze raz, dzieje się to tylko wtedy, gdy dana osoba zdecyduje się na to – podkreślił pracownik Twittera.

OSINT

We współczesnym świecie bardzo często mylnie utożsamia się OSINT (open-source intelligence) tylko ze światem internetu. Podczas gdy nastanie ery cyfrowej przyniosło analitykom nowe możliwości gromadzenia informacji, sama idea OSINT była już dość powszechna wśród środowiska wywiadowczego, zanim pojawił się internet. Przykładami zasobów o dużej wartości dla analityków były w przeszłości m.in. ogłoszenia o pracę, prasa, radio, telewizja, dokumentacja publiczna itd.

Dane lokalizacyjne, które można uzyskać z portali społecznościowych, mogą posłużyć wielu (mniej lub bardziej) życzliwym jednostkom do wyśledzenia konkretnej osoby, poznania jej przyzwyczajeń. Jak już wspominałam w artykule, wyciek danych geolokalizacyjnych może być katastrofalny w skutkach dla aktywistów politycznych lub działaczy na rzecz praw człowieka.

Przykładem tego, w jaki sposób można wykorzystać dane geoinformacyjne, może być atak na konwój pojazdów tzw. Państwa Islamskiego (IS) w pobliżu Faludży w Iraku w 2016 roku.

Dzięki połączeniu przez analityków danych geolokalizacyjnych z materiałów filmowych opublikowanych zarówno przez międzynarodową koalicję walczącą z IS, jak i irackie ministerstwo obrony, można było precyzyjnie określić, jaka będzie trasa konwoju terrorystów.

Umiejętna analiza zgromadzonego materiału pozwala służbom wywiadowczym oddzielić informacje nieprawdziwe, będące niczym szum, hałas w przestrzeni kosmicznej, od prawdziwego sygnału, który jest wartościowy i spowoduje realizację określonego celu. Ogrom przetwarzanych informacji sprawia również, że służby sięgają nie tylko po specjalistów z dziedziny informatyki, ale również po ekspertów z socjologii, językoznawstwa czy religioznawstwa. Nadzieją dla analityków jest głębokie uczenie maszynowe (machine learning), które w przyszłości może zastąpić czasochłonną analizę materiału.

Złośliwi często twierdzą, że OSINT is just fancy Googling, zwracając przy tym uwagę na fakt, jak wiele danych można znaleźć, wykorzystując do tego tylko wyszukiwarkę internetową. Nie trzeba być przy tym ekspertem, aby samodzielnie zacząć zabawę w “detektywa”. Istnieje wiele darmowych narzędzi (również działających online), które pozwalają wyśledzić aktywność interesujących nas osób. 

Dzięki serwisowi Tinfoleak możemy we własnym zakresie “przeanalizować” dowolne konto na Twitterze pod kątem m.in. wycieku danych geolokalizacyjnych czy używanej aplikacji. Oczywiście pod warunkiem, że wcześniej dany użytkownik był na tyle nieuważny (czytaj: przeświadczony, że w sieci można być anonimowym), że wypuścił w świat tweety ze swoją lokalizacją.

Powrót

Komentarze

  • 2019.02.01 09:10 Supek

    Czy ten wpis nie jest na bakier z logiką i matematyką? Stawiacie tezę, że od 2015 serwis pracuje nad poprawą ochrony danych ale wg Was jednak nieskutecznie. Po czym opisujecie badania naukowców, którzy byli w stanie odkryć lokalizację użytkownika w ponad 80% przypadków prawidłowo. Brzmi strasznie.
    Po czym dodajecie, że to na danych przed 2015.
    Bo na danych po 2015 skuteczność wykrycia to już tylko 1/15, czyli 7%.
    Jak dla mnie spadek z 80 na 7 jest znaczący i raczej pokazuje, że wdrożone mechanizmy są skuteczne.
    Ale co ja tam wiem o logice, matematyce i bezpieczeństwie danych.

    Odpowiedz
    • 2019.02.01 17:09 Andrzeju

      Racja, nowsze tweety są lepiej zabezpieczone.
      Tylko stare tweety dalej wiszą, więc warto by pamiętać, że kiedyś ćwierknęło się coś co może nas zdradzić w przyszłości. Wiesz, Internet nie zapomina i takie tam ;)

      Odpowiedz
  • 2019.02.01 10:05 burbie

    ta, „w ośrodku rehabilitacyjnym”, pewnie miało być, że na odwyku, ale ja się nie znam

    Odpowiedz
  • 2019.02.01 21:47 mariusz

    „represyjny reżim” – ja Cie nie mogę.

    Odpowiedz

Zostaw odpowiedź do Andrzeju

Jeśli chcesz zwrócić uwagę na literówkę lub inny błąd techniczny, zapraszamy do formularza kontaktowego. Reagujemy równie szybko.

Stare tweety pozwalają innym zdobyć adres twojego domu

Komentarze