Do niecodziennego incydentu doszło w głównej serwerowni ING w Bukareszcie. W trakcie testów instalacji gaśniczej uszkodzeniu uległy liczne dyski twarde, powodując wielogodzinną awarię większości systemów banku.
Sobotnie popołudnie nie było łatwe dla klientów ING w Rumunii. Awaria, która rozpoczęła się ok. godziny 13, dotknęła większości systemów banku. Nie działały bankomaty ani płatności kartami, nie można było dostać się do strony WWW banku ani do systemu bankowości elektronicznej. Usługi udało się przywrócić dopiero ok. 23.
Udane testy, nieprzewidziane konsekwencje
Jak donosi serwis Motherboard, w weekend w serwerowni banku odbywały się testy systemu gaszenia mieszaniną gazów obojętnych Inergen. Jest to często stosowane w dużych serwerowniach rozwiązanie pozwalające na szybką zmianę składu atmosfery przez istotne zwiększenie ilości np. argonu, przez co spada zawartość tlenu do poziomu gaszącego pożar. Gaz przechowywany jest w dużych butlach pod wysokim ciśnieniem i w razie pożaru wyrzucany przez zawory rozłożone po całej serwerowni. W sobotę w serwerowni ING Przeprowadzono między innymi testowy wyrzut gazu z systemu. Jak wynika z komunikatu banku (i informacji od źródeł Motherboard), wyrzut gazu spowodował ogromne straty – duża liczba dysków twardych przestała działać, doprowadzając do zatrzymania pracy wielu kluczowych systemów banku. Skala awarii była tak duża, że zapasowe centrum przetwarzania danych udało się uruchomić dopiero po ok. 10 godzinach od rozpoczęcia problemu.
Tak długa awaria dużego banku jest dość niecodzienna, jednak najciekawsza w całej historii jest jej przyczyna. Wyrzucany gaz jest nieszkodliwy dla sprzętu komputerowego, nie doszło także do uszkodzeń powodowanych np. przez latające płyty podłogowe. Problemem nie była także temperatura ani ciśnienie gazu w pomieszczeniu. Przyczyną awarii dysków był najprawdopodobniej hałas. Z nieznanych na razie powodów wyrzucenie gazu nastąpiło przy wyższym ciśnieniu niż planowane a rozprężający się gaz wygenerował hałas na poziomie przekraczającym możliwości użytych sprzętów pomiarowych, wyskalowanych do 130 decybeli. Jak jednak hałas mógł uszkodzić dyski?
Prace naukowców IBMa i Siemensa jednoznacznie wskazują, że fala dźwiękowa i powodowane przez nią wibracje mogą spowodować problemy w pracy nowoczesnych dysków twardych. W przypadku starszych dysków o mniejszej gęstości zapisu mikrowibracje nie wpływały istotnie na precyzje ich pracy. Nowsze dyski, gdzie nośniki są upakowane informacjami, mają dużo niższy poziom tolerancji i nawet najmniejsze przesunięcie głowicy w trakcie odczytu lub zapisu może mieć katastrofalne skutki.
Jak widać na powyższym wykresie, hałas o poziomie przekraczającym 130 decybeli praktycznie gwarantuje uszkodzenia dysków twardych używanych w przemysłowych systemach przechowywania danych. Jak wygląda to w praktyce? Zobaczcie ten film sprzed ładnych paru lat:
Przed takimi problemami może uchronić używanie zaworów wyrzutu gazu tłumiących hałas lub stosowanie obudów szaf o zdolnościach tłumiących – jednak najwyraźniej obu rozwiązań zabrakło w serwerowni ING. pamiętajcie, nie krzyczcie na swoje dyski!
Komentarze
Może nie hałas a ciśnienie akustyczne ;).
Albo tam wydarzył się kataklizm, albo ING pochwalił się totalną amatorszczyzną.
Obsługa transakcji kartowych dla banku to absolutnie krytyczna obsługa.
Nowoczesne systemy bankowe projektuje się uwzględniając redundację lokalną jak i regionalna, zarówno po stronie hardware jak i oprogramowania. Optymalnie, usługi dostarczane są z dwóch równorzędnych DC a w przypadku kataklizmu w jednym, jego zadania przejmuje elastycznie drugie. Dziwny wydaje się fakt, czemu przełączenie na zapasowe DC zajęło az tyle czasu, failover nie powinien zająć więcej niż kilka minut.
Ahahah
w Polszy? :DD
> Sobotnie popołudnie nie było łatwe dla klientów ING w Rumunii.
Bukareszt nie lezy w Pl
Czarnobyl tylko na mniejszą skalę.
Nowoczesne dyski ktore sa podatne na hałas… faktycznie nowoczesne..
Ale wiesz, że od 90 db można sobie uszkodzić słuch? A od 120 db jest to bardzo prawdopodobne? A w serwerowni był dźwięk około 140db? A db są w skali logarytnicznej, czyli 140 db ma 10 razy więcej mocy niż 120db?
Nie nazywałbym tego po prostu „hałasem”.
Do współczesnego karabinu nasypiesz trochę piasku i już może się zaciąć. Teraz nasyp piasku do mojego łuku lub procy! Cos za cos, postęp zwykle odbywa się kosztem czegoś.
Za tydzień na stronie głównej ING skupuje dyski z poczatku XXI w. XD
Mnie jednak ciekawi inna rzecz. Czy uszkodzenie było trwałe? W sensie, czy dyski nadają się potem na przemiał, czy po prostu trzeba odbudować dane?
przemiał. Najprawdopodobniej fizyczne uszkodzenie talerzy. Dyski twarde są bardziej podatne na uszkodzenia w trakcie pracy.
W dyskach głowica magnetyczna nie ma fizycznego kontaktu z powierzchnią dysku. Wirujący talerz tworzy mikro poduszkę powietrzną, na której unosi się głowica (inaczej niż w „taśmociągach” typu magnetofon czy streamer gdzie głowica ma fizyczny kontakt z taśmą). Jeśli z jakiegoś powodu głowica dotknie powierzchni to fizycznie uszkadza talerz/nośnik danych. Takim powodem mogą być właśnie wibracje ponad określoną przez producenta normę.
Failover zadziałał połowicznie – fail zadziałał, over nie. A tak na serio to utrata danych jest bezpowrotna. Można ją porównać do uderzania młotkiem w obudowę dysku (trochę przejaskrawione, ale skutek podobny) wstrząsy i fala akustyczna potrafią skutecznie uszkodzić delikatne dyski magnetyczne. Znając życie to zapewne zapasowe DC nie było w pełni redundantne albo nikt nie przeprowadzał testów przełączenia na zapasowe DC. Swoją drogą to już kolejny przypadek w którym system INERGEN okazuje się być sprawcą dużego problemu – serwerownia Netii na ul. Poleczki i Beyond w Poznaniu. Coś troszkę za dużo tych spektakularnych awarii. Jakoś nie słyszałem, żeby serwerownia się spaliła, za to system gaszenia uszkodził przynajmniej dwie o których wiemy publicznie. ING jest trzecie. Słaba reklama dla INERGENu.
System systemowi nie równy. Bez analizy przez specjalistę ppoż, wygłaszane tezy maj a się nijak do najprawdziwszej prawdy…. Wiele firm sprzedaje tzw FM200, i wiele firm sprzedaje tzw INERGEN. Wrzucanie wszystkiego do jednego worka jest nie profesjonalne. Z tego co mi wiadomo, każdy z wymienionych wyżej przypadków wykonany był na różnych urządzeniach i systemach. Oprócz typu dysz, które mogą wytwarzać dźwięki o różnej charakterystyce i wytwarzać mniej lub więcej hałasu i oddziaływać na urządzenia, istotna może być praca wykonana przez projektantów lub instalatorów. A w tym przypadku najdoskonalsze narzędzie w rękach laików może okazać się niebezpieczne. Parafrazując, bezpieczny samochód prowadzony przez idiotę zabił już nie jedną osobę.
Konia z rzędem temu kto otrzyma od producenta dysków maksymalny dopuszczalny poziom hałasu, który jest dla niego bezpieczny.
Mnie zastanawia dlaczego na portalach typu PRACUJ od dobrych kilku lat zawsze widzę oferty pracy w ING dla informatyków. Ktoś? coś?
No ludzie są, a potem odchodzą – w końcu ile lat można być studentem? ;-P
No tak, często spotykam się z mylnym łączeniem ING Services Polska z ING Bank Śląski (to są różne ING :p)
To co gdyby doszło do faktycznego, celowego aktywowania takiego systemu? czy pożar, czy jego gaszenie, na jedno by wyszło. Chyba warto tu zacytować prawo Murphyego
– „Układ zabezpieczający zniszczy układ zabezpieczany.”
Czy te systemy gaszenia gazem w ogóle nadają się do serwerowni w praktyce, a nie tylko w teorii? Co moment są z nimi jakieś problemy (vide np. „wybuch” w netii 30 czerwca 2016).
Nadają się, natomiast nie rozumiem dlaczego chce się gasić to wyrzutami gazu, po co tak drastycznie, szybko itd. Przecież aby to zrobiło 130dB to trzeba się postarać – czyli generalnie źle zaprojektować wyloty (wloty) gazu.
Ale czy da się je zaprojektować i wykonać wystarczająco dobrze, żeby nie nastąpiła taka sytuacja? Bo może jest jakiś popularny błąd, na przykład materiał wykonania dysz lub tłumików jest za słaby, albo jeśli przyczyną nadmiernego ciśnienia są reduktory, to może ich konstrukcja jest niewłaściwa? Może gdyby zrobić zestawienie tych awarii i porównać użyte elementy oraz rozwiązania projektowe, to dałoby się znaleźć jakąś wspólną przyczynę?
Czyli, teoretycznie straszak na komary (odpowiedniej mocy) załatwi DC?
Widzę, że nikt z komentujących nie pracował nigdy w ING w IT :)
Także powiem tyle – failover w kilka minut nie jest możliwy jak masz kilkadziesiąt aplikacji, które cały czas ze sobą rozmawiają. Zanim przełączy się aplikację na drugą stronę, to admini aplikacji muszą sprawdzić, czy dane które się replikują na druga stronę są spójne, a to właśnie trwa najdłużej. W zależności jaki to kraj i ile wydał $$$ na zrobienie dobrego DR’a to ten czas jest różny.
@Danio, można, nie chodzi o przełączenie aplikacji, a przerzucenie się na korzystanie z VM w zapasowym DC. Pod spodem masz redundację na poziomie wirtualizatora. ps. nie administruję systemami tylko aplikacjami/usługami.
Ależ ja doskonale wiem że redundancja i failover są w znacznej większości przypadków zaprojektowane źle, bo aplikacje nie są do tego totalnie przystosowane. Wszystko opiera się na przenoszeniu rekordów w bazach i przenoszeniu stanu obiektów w aplikacji na drugą stronę, a to nie tędy droga. Ale tak jak jest, po prostu znacznie taniej się wytwarza soft i wdraża funkcjonalność.
jeśli zaś chodzi o wyrzut gazu, no cóż. wystarczy gdzieś po drodze zawór spowalniający, a za nim coś w rodzaju tłumika samochodowego, albo raczej od ciężarówki, lepiej się sprawdzi. projekt wylotów też jest ważny aby nic tam nie wpadało w wibrację. chyba tego wszystkiego po prostu zabrakło, a wyjścia z butli pewnie zaraz za zaworami uwalniającymi, było wpuszczone bezpośrednio w rury. na papierze jest ok, w praktyce jak widać.
a jak się tego dodatkowo można ustrzec? Chyba pora na pozamykanie macierzy dyskowych w odrębnych strefach serwerowni. dodatkowo można powymieniać HDD na SSD. oczywiście to wszystko kosztuje.
Redakcjo – „…w razie pożaru wyrzucany przez zawory rozłożone po całej serwerowni…” – przez dysze, nie zwawory.
Pamiętajcie, że systemy gaszenia oparte są na prawach fizyki-sam sprzęt naprawdę rzadko zawodzi, zazwyczaj to bląd ludzki, „oszczędności” lub brak kompetencji wykonawcy systemu doprowadzają do strat, jak te opisane w artykule.
Może redakcja uzupełni kiedyś taki news wywiadem z kimś, kto ma większą wiedzę na temat tych instalacji/systemów.
Zgadzam się z tym co piszesz, że najczęściej przyczyną jest błąd ludzki, ze szczególnym uwzględnieniem błędów „oszczędnościowych”, doprowadzających nieraz do kuriozalnych rozwiązań technicznych, które nie mają prawa zadziałać dobrze. Natomiast nie odrzucałbym całkowicie hipotezy przyczyn ściśle sprzętowych, gdy podobny scenariusz awarii występuje w wielu oddalonych od siebie fizycznie lokalizacjach. Może być sytuacja, że jakiś element sprzętu lub obowiązkowej procedury stanowi słabe ogniwo całego systemu.
Dlatego warto, gdyby redakcja zasięgnęła czasem głosu specjalisty.
W Polsce jest trochę firm zajmujących się tymi systemami i to zarówno dystrybutorów, projektantów, jak i instalatorów/wykonawców tych systemów.
W opisywanym przypadku mamy do czynienia ze zbiegiem czynników, które nie powinny wystąpić. Można teoretyzować i wymieniać błędy projektowe (źle dobrane dysze, brak tłumików, błędy w obliczeniach), błędy wykonawcze (oszczędności wykonawcy), błędy odbiorowe (nie wykazanie błędów podczas odbiorów i późniejszych konserwacji), kwestii failover’u nawet nie poruszam, ale faktyczną przyczynę zna tylko kilka osób i raczej nie będzie im zależało na upublicznianiu informacji na ten temat.
Wiedza na temat systemów gaszenia, tak samo jak i na temat choćby UPS’ów jest potrzebna i to już na etapie analizy ryzyka bo jak widzimy wektor na taką instalacje może położyć sporą część DC.
Systemy gaszenia instalowane są zazwyczaj przed postawieniem pierwszej szafy w serwerowni (oddaniem pomieszczenia do użytku), skutkuje to tym, że obsługa DC „dostaje” system, który zastała nie posiadając żadnej wiedzy na jego temat (uogólniam ale niestety takie sytuacje są bardzo powszechne).
Do tego dochodzą kwestie związane z ubezpieczycielami i różnymi przepisami (jak choćby o infrastrukturze krytycznej).
A z ubezpieczycielami też zdarzają się ciekawe historie w tej materii. Ubezpieczyciel potrafi zatrudnić biegłego/specjalistę, który wykaże błędy takich instalacji, po to by nie wypłacić tych kilku (nastu?) milionów.
Uczmy się, wtedy praca będzie mniej nerwów kosztować.
Rozumiem, że to dotyczy pracujących dysków. A wyłączone też tak można zniszczyć? Jedna mała bombka akustyczna w domu i … danych nie będzie;)
Wyłączony dysk to zaparkowana głowica. Przy zaparkowanej głowicy przeciążenia jakie wytrzyma dysk są dwu- lub trzykrotnie większe.
Nie wiem czemu, ale skojarzyło mi się to z atakiem na Steel Mountain w Mr Robot. :)
Ludzie to jest opisane ING Rumunia, a nie ING PL wiec komentarzy odnośnie pracuj.pl sa słabe. Jak zwykle wypowiadają sie ludzie którzy nie maja pojęcia o niczym…
Nie wiem dlaczego mówimy o „niespodziewanym” efekcie. To jest _typowy_ efekt, dlatego na dyszach wyrzucające gaz montuje się specjalne tłumiki. U nas jest to wiedza raczej powszechna wśród projektujących DC i wśród sprawdzających ich zabezpieczenia (przynajmniej w DC z którymi ja miałem kontakt).
Do podobnego zdarzenia doszło niedawno w serwerowni BZWBK ale na mniejszą skalę. Uszkodzeniu uległo kilka macierzy dyskowych.
nie pierwszy raz czytam, że to dziadostwo powoduje więcej szkód niźli zapobiega
„All your hard drives argon” ;-)
Mistrz :D
Czytam komentarze, już sobie myślę, że same nudy, a tu nagle taka perełka na koniec xD
South Park – ….Aaaand It’s Gone
Taka sama sytuacja spotkała kiedys allegro w serwerowni Beyond o ile mnie pamięć nie myli.
Z tekstu wywnioskowałem między innymi że przy projektowaniu nowych dysków nie obyło się również bez wad których nie miały ich starsze odpowiedniki.
> Z tekstu wywnioskowałem między innymi że przy projektowaniu nowych dysków nie obyło się również bez wad których nie miały ich starsze odpowiedniki.
Mówi się „przeczytałem”, nie „wywnioskowałem”:
„Nowsze dyski, gdzie nośniki są upakowane informacjami, mają dużo niższy poziom tolerancji i nawet najmniejsze przesunięcie głowicy w trakcie odczytu lub zapisu może mieć katastrofalne skutki.”
Przyczyną tych zniszczeń nie są – wbrew temu, co tu niektórzy sugerują, jakieś oszczędności, tylko mieszanka syndromu małego penisa („nasz system usuwa tlen w 0.0001 s” plus niekompetencja osób decyzyjnych) z korpomarketingiem, który wykreował potrzebę na nieistotne lub wręcz fałszywe parametry[*].
Dokładnie te same efekty obserwujemy na codzień oglądając w reklamach brednie o 300 Mb/s przez LTE – a później laik podłączany do internetu rezygnuje z GPON-a (światłowodu), bo mu wszyscy mówią, że „LTE jest najszybsze i innego badziewia nie bierz”.
Ale mamy państwo działające teoretycznie, to każdy może dowolną bzdurę bezkarnie w reklamach powtarzać do znudzenia (tj. do uznania jej za oczywistą prawdę) – byle nie pokazał cycków, bo wtedy się rada etyki zajmie sprawą na bardzo poważnie.
A ogień w DC to nie jest rocket science – to nie jest platforma startowa wahadłowców, żeby ogień gasić za wszelką cenę, wystarczy gasić go na tyle skutecznie, aby ograniczyć straty. Bo jakieś są zawsze, ale od tego jest DR. Po raz kolejny lepsze jest wrogiem dobrego. A w dzisiejszym świecie ludziom brakuje umiaru, żeby projektować systemy po prostu WYSTARCZAJĄCO dobre. A przede wszystkim – stosować materiały samogasnące, niepodtrzymujące ognia. I wtedy wystarczyłby strefowy zrzut gazu (skoro i tak odcina się zasilanie, przy wyłączonym obiegu powietrza dosyć łatwo można „lać” cięższy gaz – choćby zwyczajny CO2 w odpowiednio dużym pomieszczeniu, wszak mówimy o DC).
W zasadzie to jest tylko kwestia czasu, kiedy taki system gaszenia ognia kogoś zabije – a prokurator nie postawi zarzutów za nieadekwatnie agresywne działanie systemu, bo winny okaże się jakiś czujnik za 15 euro. Energetycy po wielu latach dorobili się procedur zabezpieczających mechanicznie przed porażeniem, typu własna kłódka na skrzyni, w której odpina złącze (osobna sprawa, czy to stosują), ludzie od IT nadal naiwnie wierzą w magiczne protokoły i algorytmy. Cóż, po prostu większość ludzi w IT to takie same niemyślące barany, jak spotykane w innych brażnach. Jakość klepanego kodu tylko to potwierdza.
[*] tak dla jasności – szybkie wypełnianie pomieszczenia gazem wynika wyłącznie z tego, że robione wolno (w przypadku części gazów) tworzy toksyczną dla człowieka atmosferę. A wtedy nie różni się zbytnio od starego, taniego CO2. W ten sposób z oczywistego buga zrobiono feature.
BTW Ktoś poleci jakąś książkę (może być po ang) o komputerach przemysłowych?
Hałas instalacji to dodatkowy znak, sygnał dla znajdujących się w pobliżu serwerowni, centrum przetwarzania danych.
Jak słyszysz taki dźwięk, fonię, nie masz wątpliwości, że trzeba …
się ewakuować.
Producent instalacji zakłada, że dyski ulegają uszkodzeniu od samego pożaru (moim zdaniem niesłusznie), co nie powoduje spełnienia wymogu gaszenia niedestrukcyjnego. System zabezpiecza przed rozprzestrzenianiem się pożaru, nie przed utratą danych.
Jak meta spalona, to spalona. Nikt nie podejmie decyzji po pożarze o natychmiastowym uruchomieniu primary site. Opisane awarie mogą być związane z wyeksploatowaniem systemu (możliwe, że zmiana wymogów przeciwpożarowych spowodowała zbieżność czasową implementacji systemu p-poż).
Czekajmy na kolejne awarie. Ciekawe, czy ktoś już wyciągnął wnioski (np. zaplanował DR przed testem p-poża)
Dyski SSD pewnie nie uległy by awarii.
Informują jakie systemy zabezpieczają dyski, ale nie informują jakie dyski są chronione (być może najtańsze „g*wno”). To producent dysków powinien wziąć odpowiedzialność za zniszczenia podczas hałasu, ponieważ pojawienie się fali akustycznej zagrażającej dyskowi może wziąć się z innego powodu (np. klaskanie – podobno to też potrafi uszkodzić dysk, kiedy klaszcze się w jego pobliżu).
W dużej mierze (moim zdaniem) głównym powodem mogą być oszczędności klientów oszczędzających na tłumikach, ilości dysz, wytaniając, a nie oceniając jakości, która za tym idzie. Jeżeli tak konieczne jest tłumienie fali akustycznej, to można to robić na różne sposoby, odpowiednie szafy dysków, czy tłumiki fali akustycznej na dyszach gaśniczych. Czasami warto dopłacić, aby spać spokojnie.
Zapasowe DC ma każdy bank. Jednak „zapas” to często fikcja.
Zwykle systemy profile, v+ są w wersji sprzed lat i nie obsługują takich fanaberii jak zapas.
To samo aplikacje. Zwykle stare ale wciąż działające. Biznes nie pozwala ich wygasić skoro kiedyś za nie zapłacił.
Nasz rodzimy duży dostawca oprogramowania żąda milionów za prace aplikacji w klastrze. Więc kupuje się aplikacje „nie diarowe” i sztucznie się je „diaruje”.
Kopia zawsze jest. A że klient sie zdenerwuje kogo to obchodzi tak na prawde…
Strasznie lelawe te centra danych :D
I na nich ma się opierać przyszłość :D
No cóż, wystarczy samolot lub młot pneumatyczny :P
http://mapaakustyczna.dabrowa-gornicza.pl/GeoSerwer/info/img/skala.jpg
generalnie problem nie leży w instalacjach gaśniczych w końcu one mają gasić i ochronić budynek przed pożarem. Przypadków było tez nie wiele bo statystycznie system gaszenia raczej nie często się uruchamia. To czy dysk zostanie uszkodzony czy nie to tez nie takie oczywiste. Fakte jest że na dyszy (czyli końcówce isntalacji) mojże pojawić się hałas ok. 130 dB – to mniej więcej tyle co start odrzutowca więc naprawde sporo jednak to czy dysk się uszkodzi w dużym stopniu zależy od odległości dyków od dysz a jeszcze bardziej od akustyki pomieszczenia. Mamy taki parametr jak czas pogłosu i on może także wpływać. Co do firm wykonujących gaszenia to trzeba przyznać że jest zaledwie kilka profesjonalnych firm w Polsce które specjalizują się w gaszeniu a reszta przy okazji zamontuje i gaszenie. Dzwonić do producenta, mówisz że masz klienta i chcesz kupić. COś tam cie przeszkolą coś tam powiedzą i dawaj montujemy. Być może teraz jak jest więcej zdarzeń to ludzie zaczną się przyglądać komu zlecają temat gaszenia. Dziś liczy się cena i to bardzo często gubi inwestorów kupujemy tanie a potem okazuje się że zrobili to amatorzy i w dodatku po kosztach. Potem pękają rury, wypadają drzwi bo żle ktoś ciśnienia policzył, ludzie giną bo ktoś źle stęzenie dobrał itd. Gaszenie gazem pofinien wykonać ktoś kto się w tym specjalizuje a nie przy okazji elektryk zamontuje. Ciekawe czy wybudowanie serwerowni też można przyokazji zlecić chłopu który domki jednorodzinne stawia – wkońcu też budowlaniec :)