24.02.2012 | 23:04

Adam Haertle

Rozpoznawanie autorów anonimowych tekstów

Prowadzisz anonimowego bloga. Zawsze piszesz z kawiarenki internetowej. Nigdy nie zamieszczasz informacji, które mogą ujawnić Twoją tożsamość. Mimo to jest coś, co Cię zdradza. Twój styl pisania.

Badacze z uniwersytetów Stanforda i Berkeley opublikowali kilka dni temu niezwykle ciekawą pracę na temat identyfikacji autorów anonimowych wypowiedzi w internecie. Metoda statystycznej analizy dzieła w celu identyfikacji stylu oraz – docelowo – autora, zwie się stylometrią. Dotychczasowe badania w tej dziedzinie pozwalały na identyfikację autora tekstu z grupy ok. 300 osób. Z oczywistych powodów trudno w takim przypadku mówić o zagrożeniu dla prywatności anonimowych twórców. Jednak autorzy opisywanego badania poszli nie krok, ale wiele kroków dalej i poddali testowi grupę 100 000 autorów. Zaskakujące wyniki ich pracy przedstawiamy poniżej.

Każde dzieło ludzkie nosi cechy jego twórcy. Wychodząc z tego założenia badacze, przystępując do swojego eksperymentu, pobrali z ok. 100 000 blogów treści opublikowane przez ich autorów. Otrzymali 2,4 miliona wpisów, składających się w sumie z ok. miliarda słów. Analizowano jedynie wpisy w języku angielskim. Odrzucono także wszystkie blogi zawierające mniej niż 7500 znaków oraz duplikaty.

Wszystkie wpisy zostały poddane analizie statystycznej. Użyto następujących wskaźników:

  • długość (ilość słów/znaków we wpisie)
  • bogactwo słownika
  • obecność słów zawierających różne kombinacje małych i dużych liter
  • ilość liter w słowach (częstość występowania słów o określonej długości)
  • częstotliwość użycia poszczególnych liter (bez względu na wielkość)
  • częstotliwość występowania cyfr
  • częstotliwość występowania poszczególnych znaków interpunkcyjnych
  • częstotliwość występowania znaków specjalnych
  • częstotliwość występowania słów funkcyjnych (z, do, na)
  • częstotliwość występowania poszczególnych par słów

Zastosowanie wszystkich powyższych kryteriów zaowocowało zmierzeniem każdego blogowego wpisu 1188 parametrami pomiarowymi.

Wyniki badań
W przeprowadzonych eksperymentach badacze otrzymali wyniki, które pokazują faktyczną możliwość atrybucji anonimowych tekstów w świecie rzeczywistym. Próbka 3 wpisów z losowego bloga została prawidłowo dopasowana do innych wpisów z tego samego bloga w 20% przypadków. W 35% przypadków prawidłowa odpowiedź zawierała się w pierwszych 20 trafieniach. Kiedy badacze wzięli pod uwagę tylko połowę najlepszych wyników, skuteczność atrybucji wyniosła 80%.

Skuteczność dopasowania rośnie wraz ze wzrostem próby analizowanego tekstu. Dysponując jednym wpisem jako podstawą wyszukiwania badacze osiągnęli prawidłowe dopasowanie w 7,5% przypadków. Zwiększając próbę do 10 wpisów uzyskali skuteczność 25%. Dla autorów publikujących dużo tekstów wyniki były jeszcze lepsze – przy próbce 3 wpisów i 40 wpisach w przeszukiwanej populacji skuteczność wyniosła ponad 30%.

Powyższe wyniki dotyczą dopasowywania wpisu do innych wpisów z tego samego bloga tego samego autora. Kolejnym testem było dopasowywania dwóch blogów tego samego autora – wyzwanie dużo większe ze względu na zmianę kontekstu wypowiedzi. W takim scenariuszu na próbie 100,000 blogów osiągnięto skuteczność na poziomie 12%.

Zagrożenie dla anonimowości
Wyniki dopasowania w oparciu jedynie o styl wpisów mogą stanowić podstawę do dalszej analizy tożsamości autora. Czasy wpisów mogą wskazywać na strefę czasową, w jakiej przebywa. W przypadku, gdy prowadzącym analizę jest rząd lub jego organ, może także dysponować możliwością ustalenia adresu IP autora, określając precyzyjniej jego lokalizację geograficzną. Łączne zastosowanie wszystkich metod identyfikacji znacznie obniża poziom anonimowości autora. Należy także pamiętać, że wraz z rozwojem technik stylometrii powyższe wyniki będą się jedynie poprawiać. Stawia to pod dużym znakiem zapytania możliwość anonimowego publikowania treści w internecie.

Ograniczenia metody badawczej
Trzeba także wziąć pod uwagę, że badanie dotyczyło tekstów, których autorzy nie próbowali ukrywać swojego stylu. Istnieją proste techniki umożliwiające zmianę stylu pisarskiego w sposób znacząco utrudniający identyfikację piszącego. Dodatkowo badanie dotyczyło porównywania wpisów blogowych i nieznane są możliwości porównywania np. wpisu blogowego z treścią wiadomości poczty elektronicznej.

Wszystkim zainteresowanym stylometrią polecamy również pracę O problemie atrybucji tekstu w lingwistyce kwantytatywnej.

Powrót

Komentarze

  • 2014.06.03 18:30 Anonim

    Kłuje mnie to w oczy tak, że aż napiszę. „poddali testowi grupę 100,000 autorów.” … Ktoś tutaj chyba nie uważał na matematyce. 100,000 , to to samo co 100 lub 100,00000000. Poprawcie to, albo usuńcie ten przecinek, albo dopiszcie, że tysięcy. Bless.

    Odpowiedz
    • 2014.06.12 21:57 Adam

      Poprawione.

      Odpowiedz
  • 2013.11.08 20:48 Jakub W

    Witam serdecznie,
    wraz z przyjacielem stworzyliśmy właśnie oprogramowanie stylometryczne,
    zapraszam do zapoznania się z nim. ;)

    http://www.pek.org.pl/?pd=purepen#purepen

    Odpowiedz

Zostaw odpowiedź do Anonim

Jeśli chcesz zwrócić uwagę na literówkę lub inny błąd techniczny, zapraszamy do formularza kontaktowego. Reagujemy równie szybko.

Rozpoznawanie autorów anonimowych tekstów

Komentarze