:

Szerző: Gálffy Csaba

2014. szeptember 16. 12:07

Dedikált káoszmérnökök a Netflixnél

A Netflix nem csak a szolgáltatása és az egyedi tartalmak miatt érdekes, a rendszer műszaki háttere is egészen egyedi. A rendszeres, véletlenszerű leállásokat generáló scriptek már régóta ismertek, a fejlesztési metodológiát most új szervezeti szintre emeli a cég.

Magasabb szintre emeli sajátos fejlesztési metodológiáját a Netflix - jelentette be a cég. A hibatűrő rendszerek tervezésében a cég eddig is egyéni utat járt, felhős infrastruktúráját szándékosan előidézett véletlen hibákkal tesztelte. Ez a módszer a jövőben is marad, de ezután külön csapat foglalkozik majd azzal, hogy leállási forgatókönyveket eszeljen ki, majd azt a cég infrastruktúráján ki is próbálja.

A post mortemen túl

A hibatűrő rendszerek építésének egyik legnagyobb kihívása, hogy a "teszt", vagyis a tulajdonképpeni leállás rendszerint nagyon ritka, így a megtervezett rendszer koncepciójának vagy megvalósításának hibája sokszor csak éles helyzetben jön elő - amikor már késő azt javítani. A Netflix hosszú ideje sajátos metodológiát használ a hibatűrő szolgáltatás építésére: újabb és újabb, káoszt generáló scripteket enged szabadon a rendszerben, majd figyeli, hogy egyes hálózati eszközök, virtuális gépek, háttérszolgáltatások leállása milyen hatással van az egész rendszerre. Ha az üzemeltetők valahol problémát észlelnek, akkor a kérdéses részt megerősítik, újabb redundáns réteget építenek be.

"Az általános iparági gyakorlat a kimaradások után a hibáztatás nélküli hibafelmérés" - mondja a Netflix "káoszparancsnoka", Bruce Wong. Ez azt jelenti, hogy a leállás után a mérnökök a logok és egyéb adatok alapján visszakeresik a hibát, arról részletes jelentést írnak, majd igyekeznek közvetlen, illetve általánosabb tanulságokat leszűrni, azok alapján pedig műszaki, módszertani vagy szervezeti változtatásokat eszközölni. "Ezt mi is alkalmazzuk, azonban ezzel párhuzamosan új káosz-eszközöket is építünk, amelyekkel szisztematikusan teszteljük rendszereink hibatűrését."

Az AI és a nagy full-full-stack trend

Az AI farvizén számos új informatikai munkakör születik, vagy már ismert munkák kapnak új nevet és vele extra elvárásokat is.

Az AI és a nagy full-full-stack trend Az AI farvizén számos új informatikai munkakör születik, vagy már ismert munkák kapnak új nevet és vele extra elvárásokat is.

Az új csapat feladata lesz kreatív új leállási forgatókönyveket kitalálni, feltérképezni az infrastruktúra gyenge pontjait, majd eszközöket írni, amelyek ezeket tesztelik. Az új koncepcióban a híressé vált "majomhadsereg" (simian army), a nyílt forráskódú, káoszt okozó algoritmusok egy egész szimulációvá állnak össze, amely az éles rendszertől elkülönítetten fut.

Ennél bonyolultabb, és sokszor kevés figyelmet kapó feladat, hogy a csoport a teljes infrastruktúrát elemzi majd, egységes egészként. Gyakori ugyanis, hogy egy nagy szervezetben egy-egy hibalehetőséget csak lokálisan javítanak a fejlesztő-üzemeltetők, miközben a rendszer más pontjain ugyanaz a gyengeség hosszú ideig tovább létezik, és idővel akár leálláshoz vezet - miközben valaki valahol egyszer már dokumentálta és javította azt.

Szeptember 15-én, hétfőn ONLINE formátumú, a Kafka alapjaiba bevezető képzést indít a HWSW, ezért most összefoglaltuk röviden, hogy miért érdemes részt venni ezen a tanfolyamon.

a címlapról

MS

0

Lezárta a Teams-ügyet az EU

2025. szeptember 12. 12:45

A Bizottság elfogadta a Microsoft által tett engedményeket, nincs retorzió az idestova öt éve húzódó eljárás végén.

bango

7

Tartalomautomatával bővül a OneTV

2025. szeptember 12. 09:27

A One tévés platformjába a Bango DVM-jét integrálják, ami jelentős mértékben megkönnyíti az új tartalomszolgáltatások bevezetését.