reCAPTCHA Googla złamana ze skutecznością 99%

dodał 30 maja 2012 o 21:36 w kategorii Top, Wpadki  z tagami:
reCAPTCHA Googla złamana ze skutecznością 99%

Internauci dobrze znają obrazki zawierające słowa lub znaki, których przepisanie do formularza stanowi spore wyzwanie. Wielu naukowców mierzy się z tym problemem, z różnymi efektami. Jak zatem osiągnięto 99% skuteczności w tym procesie?

 reCAPTCHA, wymyślona na uniwersytecie Carnegie Mellon, została kupiona przez Googla w 2009 roku. Genialna w swojej prostocie metoda polega na odczytywaniu dwóch fragmentów zeskanowanych książek – jednego, znanego już programowi i drugiego, do tej pory nie rozpoznanego. Jeśli pierwszy fragment zostanie prawidłowo rozpoznany przez użytkownika, wtedy użytkownik zostaje uznany za człowieka a drugi fragment trafia do bazy, gdzie czeka, aż odpowiednio dużo osób rozpozna go w ten sam sposób i zostanie zatwierdzony. W ten sposób realizowane są dwa szczytne cele za jednym zamachem – ograniczona zostaje zarówno aktywność spamujących botów, jak i ilość liczba książek czekających na przepisanie.

Klasyczny test reCAPTCHA

Jak wiadomo, co jedni naukowcy wymyślą, to drudzy zaraz chcą popsuć. Nauczenie komputerów odgadywania słów z reCAPTCHY było tematem niejednej pracy naukowej. Skuteczność najlepszych metod nie przekraczała do tej pory 50%, najczęściej oscylując bliżej 20%. Trzeba tez pamiętać, że nawet skuteczność 10% uznawana może być za skuteczny atak – botowi w zupełności wystarczy, że 1 na 10 prób będzie udana. Za każdym razem, gdy pojawiała się nowa metoda ataku na reCAPTCHA, Google wprowadzało kolejne poprawki do metody przedstawiania słów na obrazkach. Pojawiały się zniekształcenia, dodatkowe linie czy inne tło. Nigdy jednak atakujący nie osiągnęli wyniku na poziomie 99% – aż do momentu, gdy na scenie pojawiła się grupa Defcon Group 949 z projektem Stiltwalker.

Skuteczny atak

Autorzy nowej metody ataku odnaleźli słabą stronę reCAPTCHA, jaką była wersja audio (przeznaczona dla osób mających problemy ze wzrokiem). Po dogłębnej analizie wielu nagrań okazało się, że reCAPTCHA audio nie tylko korzysta z zaledwie 58 słów (kolory, liczby, samochody, dni tygodnia), ale także tło dźwiękowe, stanowiące główna przeszkodę dla analizy, też pochodzi z określonej puli nagrań. Zadanie nie było jednak trywialne – wymagało zastosowania spektrogramów dźwiękowych, zaawansowanych metod analizy statystycznej, zaprogramowania sieci neuronowej i wielu godzin ciężkiej pracy nad uczeniem komputera prawidłowych odpowiedzi. Efekt był jednak więcej niż zadowalający: produkt końcowy pozwolił na prawidłowe odgadnięcie 17338 z 17495 prób, w tym 846 prób pod rząd.

Szybka reakcja Google

Radość autorów odkrycia nie trwała jednak długo – tuż przed prezentacją zespołu na konferencji LayerOne Google wdrożyło nowe algorytmy tworzenia nagrań, wydłużając je z 8 sekund do 30 i tym samym całkowicie usuwając zagrożenie tym rodzajem ataku. Niewykluczone, że prezentacja przyspieszyła wdrożenie nowej wersji reCAPTCHA. Możliwe także, że kolejne wersje, stawiające chętnym do ich złamania poprzeczkę jeszcze wyżej, już czekają na uruchomienie, lecz nie zostaną wdrożone, dopóki nie pojawi się skuteczny atak na wersje istniejące. Zainteresowanym tematem polecamy prezentację zespołu oraz obejrzenie nagrania z konferencji.