Za dawnych czasów do wydawania poleceń komputerom używano kart perforowanych. Potem przyszły klawiatury, myszki, ekrany dotykowe i polecenia głosowe. Te ostatnie zaczynają mieć jednak tendencję do robienia śmiesznych numerów.
Zapewne większość z Was ma pod ręką asystenta (czy też asystentkę) sterowanego głosem. Ma na imię Siri, Google Now lub Cortana. Włączony mikrofon może mieć też konsola lub telewizor. Wygoda obsługi idzie jednak ramię w ramię z różnymi ryzykami. Ciekawy przykład dotarł do nas z USA.
Niezaplanowana interakcja
Oprócz wymienionych wyżej asystentów największych rynkowych graczy Amerykanie znają także Alexę, stworzoną przez firmę Amazon. Co prawda urządzenia mobilne Amazona dużej części rynku nie zdobyły, jednak głównym przyczółkiem Alexy jest Amazon Echo – czarny cylinder, służący jako bezprzewodowy głośnik i potrafiący sporządzać listy zakupów, serwować aktualności pogodowe czy sportowe i odpowiadać na proste pytania. Da się też go połączyć z domową automatyką i umożliwić głosowe sterowanie ogrzewaniem, oświetleniem i innymi kompatybilnymi urządzeniami Philipsa, Samsunga czy WeMo. Te możliwości stały się powodem śmiesznego incydentu.
Pewna stacja radiowa poinformowała, że emisja jej poprzedniego programu poświęconego własnie Amazon Echo spowodowała reakcję urządzeń w domach słuchaczy. Prowadzący podawał w audycji przykłady poleceń głosowych, w tym między innymi komendy wyłączenia ogrzewania. Niektórzy słuchacze zgłosili się do stacji by przekazać, że ich Alexa polecenia wysłuchała i ogrzewanie wyłączyła.
Więcej wygody, więcej zagrożeń
Projektanci urządzeń sterowanych głosem najwyraźniej nie uznali takich sytuacji za szczególnie niebezpieczne. Faktycznie, dzisiaj trudno wyobrazić sobie scenariusz, w którym komuś dzieje się krzywda bo w radiu czy telewizji padła konkretna sekwencja słów. Warto jednak zauważyć, że tego typu anegdoty zaczynają się pojawiać. Już w 2014 reklama telewizyjna włączała konsole w pokojach widzów:
https://twitter.com/qassim_uk/status/477194279463714817?ref_src=twsrc%5Etfw
Pomysł wyłączania telefonu przez stację radiową wykorzystała w swojej reklamie Toyota. Zabawny był także przypadek gdy gracz nazwał swoje konto XBOX SIGN OUT, dzięki czemu każdy jego partner lub przeciwnik który wypowiedział na głos jego pseudonim zaskakiwał sam siebie niespodziewanym końcem zabawy. Słyszeliśmy także o próbach trollowania użytkowników dawno już zapomnianego Google Glass serią poleceń „Hey Google, safe search off, image search diarrhea”, lecz nie mamy potwierdzenia, że taki atak miał miejsce i zakończył się powodzeniem (przynajmniej dla atakującego). Problemy z Amazon Echo mają także pracownicy producenta:
https://twitter.com/DanielleAlberti/status/672614201618206721
Może Wy kojarzycie inne przykłady?
Niektórzy producenci próbują już zabezpieczać swoje systemy przed podobnymi zagrożeniami – podobno w najnowszych iPhonach Siri wykonuje tylko polecenia wydane głosem właściciela. O ile w przypadku urządzeń osobistych takich jak telefony komórkowe ma to sens, o tyle np. Amazon Echo musiałby nauczyć się głosów wszystkich domowników upoważnionych do wydawania poleceń, a to już trochę bardziej skomplikowane. Pewnie nie raz jeszcze będziemy mieli okazję opisywać podobne incydenty, szczególnie w dobie telewizorów podsłuchujących wszystkie rozmowy.
2016-03-12 19:00 Artykuł zaktualizowany o kilka przykładów.
Komentarze
Polecam jeszcze ten filmik do tematu http://youtu.be/r9Ulrt0oCgA
Świetna akcja! Wyłączmy klientowi nawigację i muzykę, na pewno nas dzięki temu pozytywnie zapamięta!
Ad domowników, zwykła tablica „głosów” i tyle.
Najpierw programujemy urządzenie, aby rozumiało głos jednej osoby. Następnie ta osoba mogła by powiedzieć „Cześć urządzenie. Przedstawiam ci Pawła. Paweł może robić wszystko to co ja.” Alternatywnie „Paweł będzie <nazwa_grupy/funkcji?". Na co urządzenie mówi "Cześć Paweł. Powtórz za mną.." i tu seria powtórek, lub odpowiedzi na pytania, by złapał melodię głosu. Potem można by dodać "Cześć urządzenie. Zapomnij o Pawle." I wtedy urządzenie wywaliło by usera ze swojej bazy.
As simple as that.
Właściwie to nic nie jest „As simple as that” ponieważ pomijasz wiele problemów, które z pewnością się pojawią. Po pierwsze ludzki głos może się zmieniać w trakcie życia i nie mówię tu o takim powolnym procesie jak mutacja, ale chociażby choroba. Ja bym jednak wolał, aby moje urządzenia mnie słuchały pomimo lekkiej grypy i zatkanego nosa. Kolejnym problemem jest fakt, że sporo osób ma podobny głos, w takim przypadku rozpoznawanie jedynie barwy głosu nie jest wystarczające, musiałbyś stworzyć profil danej osoby, który obejmuje chociażby sposób mówienia danej osoby. To z kolei budzi moje obawy. Nie wiem czy chce by jakieś urządzenie zbierało o mnie tak dokładne dane i wysyłało je nie wiadomo dokąd. Podejrzewam, że osoba pracująca przy takich rozwiązaniach wymyśliłby pewnie jeszcze z tuzin problemów:)
Najprostszym chyba rozwiązaniem byłoby dodanie niesłyszalnego tonu do reklam, który urządzenie by wyłapywało i wiedziało, że nie należy reagować. Co prawda otwiera to furtkę na taki DoS, ale to szczegół…
(No i kwestia możliwości przenoszenia określonych częstotliwości w różnych mediach i urządzeniach…)
To już istnieje ale w drugą stronę – są platformy reklamowe na androida, które podsłuchują i czekają na określony dźwięk – w ten sposób mogą powiązać co oglądasz w telewizorze z tym co robisz w internecie. Na szczęście legalne to jest tylko w stanach.
Każdy producent sprzętu, buszuje po waszych kontaktach i jeśli takowy zadzwoni to ma jego sample, więc może rozpoznać dowolna ilość osób. Cała rodzina to raptem 4 osoby, model GMM jest tak prosty że uruchomi z to ma raspberry pi.
Najlepszym zabezpieczeniem jest pełna kontrola nad nasłuchem. Włączamy kiedy chcemy i nie ma ryzyka, że prezenter z TV wyda naszej asystentce komendę. A to dlatego, że uprzednio TV wyłączymy.
Kazdy, kto ustawia sobie w domu mikrofon nasluchujacy jest 100% lemingiem, a tacy -> na dostrzal. I tyle.
Do kompletu ataków 'przemycenia komendy’ mogliście wspomnieć o klasyku: +++ATH0.
Co do SIRI już w BBT zdążyli o tym wspomnieć :) https://m.youtube.com/watch?v=l4lSi8xin7s
Wystarczyło by zmienić wywołanie, albo dodać safety word.
Można by dodać funkcję nadania asystentowi imienia, na które by reagował.
HAL, open the pod bay door!
I’m sorry, Dave. I’m afraid I can’t do that.
press alt+f4 for free porn
Jestem pod wrażeniem reklamy Toyoty. Wymierzona jest w tych, którzy mają włączone polecenia głosowe, więc możliwe, że właśnie jadą bezpiecznie, a po ich reklamie muszą sięgać do telefonu, żeby znów móc je wydawać. Ale fejm poszedł, to się liczy.
Można by wprowadzić własne słowa kluczowe do aktywacji urządzenia.
Dokładnie to! Sam to chciałem napisać po przeczytaniu (bardzo ciekawego zresztą) artykułu. Definiujemy słowa kluczowe (hasła startowe) dla urządzenia i sprawa załatwiona – proste rozwiązania są najskuteczniejsze (to rozwiązuje problem z chrypą, katarem czy innym powodem zmiany głosu).
Wydaje mi się że można ten problem prosto rozwiązać, ponieważ podczas mówienie generujemy dodatkową energię powiedzmy jakąś falę, energię czy coś w ten deseń czego głos z radia raczej nie generuje. Taki prosty trik i chyba niezbyt trudny do implementacji a być może już jest.