Wczoraj w sieci pojawił się rzekomy wyciek ponad 20 tysięcy kont z serwerów Minecraft, zawierający niezaszyfrowane hasła użytkowników. Pokażemy Wam, jak rozpoznać, że nie doszło do włamania na serwery firmy Mojang – mimo iż dane wyglądają na prawdziwe.
W piątek po południu na koncie Twitter o nazwie Game Over pojawił się wpis informujący o wycieku danych z serwerów popularnej gry Minecraft. Od prawie roku pilnie przyglądamy się wszystkim większym wyciekom danych pojawiającym się w sieci i wiemy, że nie każdy z nich faktycznie miał miejsce. Przyjrzyjmy się zatem bliżej tej informacji zanim opublikujemy sensacyjnego newsa. Zaczniemy od analizy opublikowanego wpisu.
<c/enter>
Możemy wyciągnąć następujące wnioski:
- doszło do włamania na serwer Minecrafta,
- wykradziono 20,000 danych kont użytkowników,
- hasła były przechowywane otwartym tekstem.
Czy te twierdzenia są prawdziwe? Wycieki tego typu zdarzają się dość często, zatem nie możemy wykluczyć, że Minecraft padł kolejną ofiarą włamywaczy. Spójrzmy jednak najpierw na dane, opublikowane w serwisie Pastebin.
Dane z serwisu Pastebin potwierdzają tezy z Twittera. Rzekomy włamywacz wskazuje, że dane zostały wykradzione z serwera Minecraft.net. Poniżej od wiersza 47 do 21633 znajdują się pary login:hasło i faktycznie hasło zapisane jest otwartym tekstem. W hasłach przewija się często ciąg „minecraft”. Czemu jednak na pierwszy rzut oka wyciek budzi podejrzenia?
Powód pierwszy
Baza kont graczy Minecrafta na pewno zawiera więcej niż 20 tysięcy wpisów. Wszystkie wycieki, które nie zawierają pełnej listy kont, są z góry podejrzane. Klasycznym przykładem prawdziwości tego twierdzenia jest rzekomy wyciek 11 milionów identyfikatorów urządzeń Apple z komputera agenta FBI. Autorzy wycieku opublikowali wtedy tylko milion rekordów, wzbudzając nasze – słuszne jak się potem okazało – podejrzenia.
Jeśli włamywacz uzyskał dostęp do całej bazy danych, to niewiele jest sytuacji, w których nie publikuje jej w całości. Autorzy włamań częściej nie decydują się wcale na publikację (bo np. chcą szantażować administratora danych) lub publikują całość bazy.
Rzadkim przykładem, kiedy częściowa publikacja bazy wygląda wiarygodnie, jest niedawny przypadek forum Adobe, gdzie włamywacz opublikował tylko 250 z 150,000 kont użytkowników, wybierając tylko rekordy z domen .adobe.com, .gov i .mil. Sytuacja, w której publikowane są jedynie dane spełniające określone kryteria (np. tylko rekordy na literę A), wydaje się dużo bardziej prawdopodobna niż wybór losowych 2% z całej bazy. Może się też zdarzyć, że np. włamywaczowi nie udało się ukraść całej bazy, ponieważ jego działalność została wykryta, zanim ukończył operację eksportu, jednak w sytuacji powszechnej dostępności szybkich łączy to dość rzadkie przypadki, dotyczące tylko bardzo dużych baz.
Powód drugi
Na pierwszy rzut oka widać także drugą przesłankę wskazującą na fałszerstwo – ograniczony zakres danych. Z reguły w przypadku kradzieży bazy danych włamywacze eksportują całą jej strukturę – wszystkie tablice, kolumny i wiersze. Skoro mają nieograniczony dostęp do danych, to czemu ograniczać się tylko do nazw użytkowników i haseł? Czemu nie dodać adresów email czy innych informacji zawartych w bazie? Klasyczne zrzuty, jak np. w przypadku wycieku z serwisu gay.pl czy sklepu z dopalaczami zawierają szerszy zakres danych.
Oczywiście brak innych pól nie oznacza, ze dane zostały sfałszowane – włamywacz mógł wyczyścić plik z mniej istotnych elementów lub mógł wyciągnąć z bazy jedynie najbardziej go interesujące pola. Nie da się jednak ukryć, że zrzuty baz danych wyglądają dużo wiarygodniej, gdy poprzedzone są np. informacją o nazwie bazy danych czy definicjami pól w bazie. Trzeba także pamiętać, że im więcej informacji zawarto w wycieku, tym trudniejszy był on do sfałszowania.
Powód trzeci
Charakterystyczny jest również brak jakichkolwiek innych danych dotyczących wycieku. Nie zawarto żadnej informacji o sposobie pozyskania danych, nie podano wykorzystanego błędu, nie zamieszczono żadnego innego elementu wskazującego na uzyskanie przez włamywacza dostępu do serwera lub bazy danych. Z reguły w przypadku prawdziwych wycieków danych włamywacze chwalą się odkryciem np. błędu typu SQLi lub porzuconego w zapomnianym katalogu pliku z backupem bazy. Brak takich informacji również jest przesłanką, by sceptycznie potraktować twierdzenia rzekomego włamywacza.
Należy także pamiętać, że zbyt szczegółowe i mało prawdopodobne informacje opisujące okoliczności wycieku mogą sugerować, że włamywacza poniosła fantazja – jak w przypadku rzekomego wycieku 11 milionów identyfikatorów urządzeń Apple z komputera agenta FBI, gdzie podano nawet model laptopa agenta oraz nazwę pliku, w którym znajdowały się dane, a sam agent był jednym z funkcjonariuszy FBI, ścigających Anonymous.
Powód czwarty
Trzy powyższe powody są wystarczające, by zacząć dokładniejszą analizę ujawnionych danych. Jeśli publikacja jest sfałszowana, istnieje duże prawdopodobieństwo, że jest kopią innego wycieku lub kompilacją kilku innych zestawów informacji. W naszym serwisie wielokrotnie już wskazywaliśmy na sensacyjne wycieki danych, które po analizie okazywały się nieudolnymi kopiami lub kombinacjami cudzych osiągnięć.
Oczywiście najprostszym narzędziem weryfikacji oryginalności danych jest Google. Szybko możemy zauważyć, że dane są dalekie od oryginalności. Już pierwsze zapytanie wskazuje na plik pochodzący z 29. września tego roku, zawierający pierwsze 3 tysiące rekordów z najnowszego rzekomego „włamania”. Szukając kolejnych źródeł trafiamy na podobny plik z tysiącem rekordów, opublikowany w lipcu tego roku. Następne zapytania doprowadzają nas do pliku z 13 tysiącami rekordów z września 2012. Kontynuując poszukiwania możemy udowodnić, że wszystkie opublikowane dane były wcześniej znane w sieci, a jedynym osiągnięciem rzekomego włamywacza było pozbieranie danych z wielu źródeł i nieudolne połączenie ich w jeden duży plik.
Oczywiście może się zdarzyć, że opublikowane dane nie zostaną odnalezione przez Google, a mimo to wcale nie doszło do włamania (np. dane są prefabrykowane lub pozyskane z innych źródeł) lub włamanie miało miejsce kilka lat wcześniej (a dane nie były do tej pory opublikowane, jak miało to często w miejsce w przypadku wycieków publikowanych przez JurassicSec).
Powód piąty
Co prawda wiemy już, że wyciek jest fałszywy, ale możemy jeszcze trochę popastwić się nad jego autorem. Czy zrzut danych zawiera duplikaty? Teoretycznie w opublikowanym pliku znajduje się 21586 rekordów. Ile jednak jest ich tam naprawdę? Sprawdźmy.
Szybka operacja usuwania duplikatów i widzimy, że w pliku znajduje się jedynie 9776 unikatowych rekordów. Sam ten argument wystarcza, by obalić tezę o prawdziwości wycieku. Zrzut danych z bazy rzadko będzie zawierał tyle duplikatów. Niektóre wpisy pojawiały się w oryginalnym pliku nawet 18 razy!
Najwięcej powtarzających się rekordów występowało dwukrotnie, co sugeruje, że twórca „wycieku” dwukrotnie umieścił w nim dane z jednego źródła (zapewne by pokazać większa skalę swojego osiągnięcia).
Co również ciekawe, niektóre konta pojawiają się w danych po kilka razy, za każdym razem z innym hasłem.
Jest to kolejny dowód na to, że dane nie zostały wyciągnięte z bazy serwera Minecraft – z jakiego powodu miały by się tam znajdować rekordy z kolejnymi hasłami użytkownika? Taka zawartość pliku wskazuje raczej na pozyskanie danych z komputerów zarażonych złośliwym oprogramowaniem – użytkownik mógł wiele razy zmieniać hasło, a każde z nich było przechwytywane przez przestępców i zapisywane w bazie.
Powód szósty
Spójrzmy jeszcze na opublikowane hasła użytkowników. Czy wyglądają one jak wyciągnięte z bazy?
Spośród niecałych 10 tysięcy unikatowych rekordów, ponad 500 ma hasło takie samo jak nazwa użytkownika. Dodatkowo prawie 500 kont ma jedno z bardzo popularnych, łatwych do przewidzenia haseł słownikowych. Te proporcje mogą oznaczać, że przynajmniej część danych z „wycieku” może pochodzić z próby odgadnięcia popularnych haseł użytkowników metodą brute force. Jest jednak także możliwe, że użytkownicy Minecrafta rzadko używają silnych i nieprzewidywalnych haseł.
Powód siódmy
Dane pojawiające się w sieci często nie posiadają już wartości handlowej w momencie ich publikacji. Nie da się ukryć, że spora część włamywaczy kradnie informacje nie dla sławy, a dla zysku. Kiedy skradzionych danych nie da się już sprzedać, zawsze można je opublikować. Tak tez jest i w przypadku danych z tego „wycieku”. Od wielu miesięcy trwa proces migracji kont graczy Minecrafta, którego skutkiem jest brak możliwości zalogowania się na konto bez znajomości skojarzonego z nim adresu email. Dzięki temu zapewne większość, jeśli nie wszystkie opublikowane rekordy są całkowicie bezużyteczne.
Podsumowanie
Przedstawiony powyżej przykładowy proces analizy wycieku pokazuje, jak zweryfikować prawdziwość opublikowanych danych. Nie jest to ani szczególnie trudne, ani bardzo pracochłonne, jednak często zdarza się, że nawet poważne serwisy informacyjne piszą o włamaniach, które nie miały miejsca. My z szacunku dla naszych Czytelników staramy się tego typu wpadek unikać :)
Komentarze
Możliwe że to ci którzy nie zmigrowali kont, ja migrowałem od razu jak było można i nie ma mnie na liście. Może to dzieci „minkrafta” które nie umiały zmigrować konta? To tłumaczy przewidywalne hasła. Wygląda na burte-force.
niedobry ser