Kad stvari krenu naopako…

Kao što već verovatno znate, proteklih dana vršeni su radovi na proširenju kapaciteta nove infrastrukture. Putem našeg kanala tehničke podrške, obaveštavali smo korisnike o aktivnostima koje sprovodimo. Pošto smo u potpunosti povratili funkcionalnost svih pogođenih servisa, želimo da detaljnije informišemo sve korisnike o događajima u protekloj nedelji u vezi sa prelaskom na novu infrastrukturu, našim radovima na očuvanju podataka, postavljanju sistema u stanje normalnog funkcionisanja i preventivnom delovanju u cilju sprečavanja ovakvih situacija u budućnosti.
Svesni smo da su mnogi naši korisnici bili pogođeni pomenutim problemima, stoga nam je namera da razjasnimo sve detalje i kako možemo poboljšati našu uslugu u narednom periodu.

Stanje sistema i planovi za prelazak na novu infrastrukturu

Naš osnovni prioritet su uvek bili korisnici, a naša želja da pružimo najbolju moguću uslugu. Od prvog dana, trudili smo se da taj zadatak ispunimo. Tri godine kasnije, došao je momenat kada je bilo potrebno napraviti radikalni zaokret u kompletnom sistemu i načinu funkcionisanja. Bilo je neophodno načiniti veliki tehnološki korak unapred kako bi i dalje mogli da ispunimo naše osnovno obećanje korisnicima.
Sa delimično virtualizovane infrastrukture, koja se jednim delom sastojala od servera sa instaliranom Citrix XenServer platformom i drugim delom od servera koji su služili za cPanel, planirali smo da pređemo na potpuno novi hardver na kojem bi bili instalirani OpenStack servisi.

Zašto baš OpenStack?

Ukratko, za sve koji nisu u potpunosti upoznati sa ovom arhitekturom, OpenStack je skup distribuiranih servisa koji su instalirani na više različitih servera od kojih svaki ima svoju namenu (storage, podizanje i kontrola virtualnih instanci…).
OpenStack predstavlja open source Cloud platformu iza koje stoje Rackspace Hosting i NASA. Cela OpenStack filozofija je bazirana na postojanju veće količine fizičkih servera koji se zovu nodovi (čvorovi). Svaki nod ima svoju funkciju – počev od kontrole drugih nodova i servisa (kontroler), preko podizanja instanci tj. virtualnih mašina (compute) do kontrole nad fizičkim prostorom (block i object storage).
Odluka o korišćenju OpenStack platforme opravdana je činjenicom da se ova Cloud platforma najbrže razvija i obezbeđuje visoku dostupnost i poput mnogih naprednih tehnologija prihvaćena je u većim svetskim kompanijama Deutsche Telekom, CERN, AT&T, Red Hat i mnoge druge.

Faza testiranja

Kao što je to uobičajeno, pre uvođenja novih funkcionalnosti i tehnologija, potrebno je izvršiti testiranje sistema i izvesti zaključke o predloženim izmenama. Nakon 3 meseca testiranja i bezbroj POC-ova (Proof of concept) pokazalo se da je OpenStack platforma kojoj treba dati šansu i koja je dorasla svim izazovima. Na osnovu testiranja, zaključeno je da je novo rešenje u svakom pogledu bolje, bezbednije, fleksibilnije i pruža sve što jedna Cloud platforma treba da ponudi.
Za testiranje su korišćene nove mašine, čija je konfiguracija značajno izmenjena u odnosu na stare, pogotovo po pitanju kapaciteta i tipova diskova, ali i brzine samog linka.

Primarni zadatak

Za početak radova, potrebno je bilo izvršiti migraciju svih postojećih Web hosting naloga i virtualnih mašina korisnika na novu infrastrukturu, pritom vodeći računa o tome da korisnici ne primete bilo kakve smetnje u radu, niti da osete bilo kakve posledice. Veliki izazov u ovom zadatku bila je migracija virtualnih mašina, jer postojeći tip virtualizacije nije bio kompatibilan sa novom infrastrukturom.

Hronologija događaja

Od 28. do 30. marta 2013. godine

Vršili smo migraciju svih korisnika na novu infrastrukturu, koja je prošla uspešno i bez gubitaka podataka. Sve što je bilo potrebno je sačekati DNS propagaciju, zbog promenjenih IP adresa, kako bi korisnici mogli da pristupe svojim sajtovima i email servisima.

31. mart 2013. godine

U toku dana, primećeno je opterećenje na serverima koje je bilo veće od očekivanog, što se kod nekih korisnika manifestovalo povremenom nedostupnošću sajtova. Sagledavši kompletnu situaciju, odlučili smo da poručimo dodatne hardverske resurse od našeg nadprovajdera i ubrzo smo dobili potvrdu porudžbine.

01. april 2013. godine

Deo korisnika je počeo da se žali na smetnje u pružanju usluge, dok se kod drugog dela nisu manifestovali nikakvi problemi. Tokom dana smo dobili informaciju od nadprovajdera da će poručeni hardver biti spreman za korišćenje u roku od 1-3 radna dana. Pošto je ponedeljak bio neradni dan usled praznika (katolički Uskrs), rok koji nam je dat za dostavu porudžbine, počeo je da „teče“ tek od utorka, što znači da smo poručeni hardver mogli dobiti najranije u utorak, a najkasnije u četvrtak.
Shvativši da će cela situacija da se dodatno oduži, počeli smo da razmatramo sve opcije i načine reagovanja u cilju poboljšanja situacije. Odlučili smo da privremeno ugasimo određene servise jednom delu korisnika, kako bismo smanjili opterećenje uz obezbeđivanje normalnog funkcionisanja email usluge. Drugi razlog za ovu odluku bilo je sprečavanje korupcije podataka na diskovima, koja se mogla dogoditi usled visokog opterećenja.

02. april 2013. godine

U međuvremenu situacija se malo stabilizovala i zahvaljujući dodatnoj optimizaciji koju smo sproveli, uspostavio se bolji rad svih sistema i brži odziv sajtova.

03. april 2013. godine

U toku dana je stigla očekivana porudžbina hardvera i nakon čega smo momentalno počeli sa pripremom migracije korisničkih naloga na novi hardver, radi balansiranja opterećenja na svim mašinama. Isplanirano je da se na nove mašine prebaci deo standardnih Web hosting naloga i virtualnih mašina korisnika, kako bi se stanje stabilizovalo. Nakon 17 časova počeli smo sa regulisanjem opterećenja na serverima i uz privremenu obustavu određenih usluga.

U noći između 03. i 04. aprila 2013. godine

Uz postepeno aktiviranje usluge, posebnu pažnju smo obratili na integritet podataka. Nažalost, kod jednog dela korisnika došlo je do korupcije baza podataka, pa smo bili primorani da tim korisnicima vratimo bekap od 31. marta. Iz pomenutog razloga, migracija korisnika i uspostavljanje normalnog funkcionisanja oduzelo je više vremena od planiranog.

04. april 2013. godine

Nakon radova na optimizaciji MySQL, Apache i drugih servisa, uspostavljanja normalnog bekapa, vraćanja svih servisa u rad koji su korisnicima potrebni, počev od 14 časova u potpunosti je uspostavljeno normalno funkcionisanje sistema i sve usluge su bile dostupne.

Šta smo naučili

Ko radi taj i greši. Dobro planiranje nije uvek garancija da će taj plan biti sproveden u delo bez posledica, što se u našem slučaju pokazalo kao činjenica. Ispustivši iz vida neke bitne parametre prilikom planiranja, a pogotovo suštinsku razliku između dveju platformi, naša greška je uzrokovala velike probleme korisnicima.
Na greškama se uči, a šteta je veća ukoliko se iz njih ne izvuče pouka. Poučeni ovim negativnim iskustvom, uveli smo mnogobrojne promene u procesima za koje se pokazalo da nisu bili pravilno definisani – počev od promene procedura za nabavku hardvera i planiranje resursa, preko podrške, ali i samog monitoringa stanja na serverima.
Iako sve ovo neće nadoknaditi nekoliko dana nerviranja i izgubljenog vremena, želimo da se zahvalimo svim našim korisnicima na velikom strpljenju i razumevanju koje su iskazali u toku ove krizne situacije. Izuzetno nam je drago što nam i pored ove greške, ukazujete svoje poverenje. Kako bi se bar malo iskupili, svi korisnici standardnog Web hostinga će u toku ove nedelje dobiti promo kod sa 10% popusta na sve naše usluge koji mogu iskoristiti tokom prve sledeće kupovine. Pored toga, podelićemo im i kredit u iznosu od 500 dinara čime će iznos prvog sledećeg računa biti umanjen za iznos kredita.

 

S poštovanjem,

Mint Services tim

1 komentar

Ostavi komentar