Historia spektakularnych wpadek filtrów eliminujących zakazane słowa

dodał 29 listopada 2015 o 19:10 w kategorii Błędy  z tagami:
Historia spektakularnych wpadek filtrów eliminujących zakazane słowa

Niektórzy z Was mogą nie pamiętać czasów, kiedy to administratorzy wierzyli, że można z sieci wyeliminować bezeceństwa wprowadzając odpowiednie filtry brzydkich słów. Skutki działania takich filtrów bywały komiczne.

W czasach początków popularności internetu podejmowane były próby uchronienia sieci i jej użytkowników przed niepożądanymi treściami, najczęściej związanymi z erotyką. Jak pokazała historia próby te były skazane na niepowodzenie – warto jednak spojrzeć, jakie efekty uboczne generowały (i skąd wziął się sprinter Tyson Homosexual). Niech poniższe przykłady będą także lekcją dla wszystkich osób implementujących podobne mechanizmy – łatwo przy okazji przesadzić.

Miłe angielskie miasteczko Scunthorpe

Kategoria opisywanych poniżej wydarzeń zwana jest Problemem Scunthorpe. Nazwa ta pochodzi od angielskiego miasta Scunthorpe, którego mieszkańcy w roku 1996 nie mogli zarejestrować kont pocztowych w serwisie AOL. Nazwę ich miasta wyłapywał filtr, który doszukał się w niej słowa cunt, stanowiącego wulgarne określenie żeńskich narządów płciowych. Drugi raz miasto dostało kuksańca od Google, kiedy to w 2004 mechanizm Safe Search eliminował wyniki z domen zawierających nazwę miasta. Sprawa Scunthorpe była początkiem długiej fali problemów.

W 1998 odmówiono rejestracji domeny shitakemushrooms.com. W roku 2000 oprogramowanie filtrujące w Kanadzie wycięło dostęp do serwisu www.cum.qc.ca, obsługującego miasto Montreal. W 2004 niejaki Craig Cockburn dowiedział się, że nie może założyć konta na Hotmailu ze swoim nazwiskiem w nazwie. W 2010 podobny problem spotkał go w serwisie BBC. W 2006 Linda Callahan nie mogła założyć konta w serwisie Yahoo ponieważ jej nazwisko zawierało słowo allah. W 2008 Dr. Herman I. Libshitz nie mógł założyć konta pocztowego w firmie Verizon (tym razem dopatrzono się w nazwisku słowa shit). Dalej będzie jeszcze weselej.

Słowa używane w spamie (źródło: Bryan Kerr

Słowa używane w spamie (źródło: Bryan Kerr)

W roku 1996 użytkownicy mieli problemy z wyszukiwaniem informacji o Super Bowl XXX. Jeszcze w 2004 strony hrabstwa Sussex nie były dostępne w wielu bibliotekach. Z kolei w roku 2011 Chińczycy próbujący wyszukiwać informacji o rzekach, widzieli odpowiedź serwera informującą, że ich wyszukiwanie zostało zablokowane z powodu naruszenia przepisów – było to skutkiem blokowania informacji o rzekomej śmierci przywódcy Jiang Zemina, które imię – Jiang – oznacza również rzekę.

A może odfiltrujemy ataki?

Jeden z medali w tej kategorii bez wątpienia należy się Yahoo, które w roku 2001 wprowadziło w poczcie filtry mające za zadanie uniemożliwić wstrzyknięcie kodu JavaScript. Skutkiem tych filtrów było zmienianie w treści wiadomości JavaScript na Java-Script (podobnie z Jscript czy Vbscript) a także zamienianie eval na review, mocha na espresso i expression na statement. Powodowało to, ze np. słowo medieval nabierało formy medireview. Niektóre filtry pocztowe początkowo blokowały wiadomości zawierające słowa socialism czy specialist – zawierały słowo cialis, popularny temat spamerów. Na problemy narzekali także mieszkańcy takich angielskich miejscowości jak Penistone, Lightwater czy Clitheroe (odpowiednio penis, twat, clit). Systemy pocztowe nie lubiły także życiorysów zawierających informacje o dyplomie z wyróżnieniem – magna cum laude.

Bez wątpienia najzabawniejsze sytuacje miały miejsce w systemach, które aktywnie zamieniały podejrzane zwroty na bardziej akceptowalne. Strona Amerykańskiego Stowarzyszenia Rodzin w artykule pobranym z serwisu Associated Press stworzyła nowego sprintera – Tysona Homosexuala (oryginalnie nazywał się Tyson Gay). Z kolei serwisy korzystające z mechanizmów zamieniających słowo ass na butt wprowadzały takie pojęcia jak clbuttic (zamiast classic) czy buttbuttinate (zamiast assassinate).

Nie tylko zamierzchła przeszłość

Choć większość opisywanych powyżej wydarzeń miała miejsce 10-20 lat temu to problem od czasu do czasu powraca. W elektronicznym przewodniku telewizyjnym Virgin Media w roku 2011 zniknęła nazwa zespołu Arsenal (arse) oraz słowo canal (anal).  Z kolei filtry walczące z pornografią u brytyjskich operatorów internetu radośnie wycinały pliki gry  League of Legends takie jak np. VarusExpirationTimer.luaobj, zawierające słowo sex.

Podobne problemy miały równiez miejsce w Polsce – niektóre fora potrafiły wygwiazdkować słowo abstrahując (do formy absta***ąc), a sami pamiętamy, jak z niejednego kanału IRC można było wylecieć za stwierdzenie, że ktoś kogoś podsłuchuje. Może Wy także pamiętacie podobne perełki?

Aktualizacja: Czytelnicy podsyłają swoje przykłady:

  • korporacyjny system pocztowy wycinający emaile z sygnaturką ze słowem analityk (Mariusz)
  • domena z pluginami do Nagiosa nagiosexchange.org (s)
  • prokursor GaduGadu czyli SMS Express też notował problemy z domeną (troll)
  • pani Renata Cygan nie mogła założyć konta Microsoft (Aaa)
  • zablokowany w sieci korporacyjnej plik ProcessExplorer.exe (pracus)
  • wycinanie adresów ze słowem baby w rzeszowskiej darmowej sieci WiFi (dzek)
  • blokowanie witryn z opisem Brainfucka na uczelni (mpan)

Źródło artykułu: przypadkowo odnaleziony świetny wpis z Wikipedii (angielskiej oraz polskiej).