HELDENFunk 41: High Availability

Heute haben wir uns vom Chaosradio Express inspirieren lassen und ein gründliches 2-Stunden-Interview zum Thema "High Availability" mit Hartmut Streppel für Euch gemacht. Bitte gebt uns Feedback, ob Ihr sowas öfter hören wollt und welche Themen Ihr in dieser Tiefe abgedeckt haben möchtet.



  • (00:00:00) Intro.
  • (00:02:50) Definition und Geschichte: Was ist Hochverfügbarkeit?
  • (00:06:30) "Zuverlässigkeit", "Verfügbarkeit", "MTBF", "MTTF", "MTTR" und weitere Statistiken. Siehe auch dazu das Papier: "Reliability and Availability".
  • (00:14:45) Zwei Strategien, um die Verfügbarkeit zu verbessern.
  • (00:21:46) 5 oder mehr Neunen.
  • (00:27:03) SPOFs und andere neuralgische Ausfall-Punkte und wie man sich dagegen wehren kann.
  • (00:38:15) "Impact Analysis": Gefahrmodellierung.
  • (00:42:00) Krasses Beispiel: Das SuperNAP-RZ in Las Vegas (Video-Dokumentation 1, Video-Dokumentation 2).
  • (00:46:25) Recovery Time Objective (RTO) und Recovery Point Objective (RPO).
  • (00:48:53) Warum RAID-5 tot ist.
  • (00:52:01) Reklame.
  • (00:52:55) Die 3 "P"s.
  • (00:55:24) Lieber Scripte als händische Änderungen.
  • (00:58:13) People: Systemhelden zu häufig unterschätzt.
  • (01:01:53) Prozesse: Ein notwendiges Übel.
  • (01:06:56) Produkte: HA-Cluster-Software-Geschichte.
  • (01:10:31) HA-Software-Konzepte: Membership und Quorum
  • (01:14:31) Monitoring und Heartbeats
  • (01:15:50) Player im Markt, u.a Solaris Cluster und Open HA Cluster.
  • (01:18:26) Closely coupled und loosely coupled Systeme: Im Kern oder nicht im Kern?
  • (01:21:15) Sun Cluster Geschichte.
  • (01:23:25) Typische Fehlerfälle im Cluster.
  • (01:27:14) Failure Fencing.
  • (01:32:00) STONITH und warum das nicht immer reicht.
  • (01:34:08) Ein typisches Beispiel und der dritte Raum.
  • (01:38:45) Die Cluster-Datenbak und das Amnesia-Problem.
  • (01:43:19) Disaster Recovery, lange Abstände und Replikation.
  • (01:48:30) Ultimative Sicherheit für die New Yorker Börse.
  • (01:51:04) Scale-out als Alternative.
  • (01:55:25) Zuständigkeiten.
  • (01:57:54) Erwartungshaltungen.
  • (01:59:28) Was kostet 1 Stunde Ausfall?
  • (02:00:29) Zusammenfassung.
  • (02:03:25) Sun Cluster kostenlos ausprobieren oder selber bauen.
  • (02:05:43) Outro.

Wir freuen uns über Euer Feedback auf Facebook in der Systemhelden-Gruppe oder traditionell an kontakt@systemhelden.com.

HELDENFunk abonnieren.

Hier findet Ihr weitere HELDENFunk-Folgen: 40, 39, 38, 37, 36, 35, 34, 33, 32, 31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1

Alle HELDENFunks durchgehört? Hier sind weitere empfehlenswerte Podcasts: POFACS ,der POdcast Für Alternative ComputerSysteme; Blick über den Tellerrand: Podosphäre, Blogosphäre, Web X.0 und User/Corporate-Generated Schnickschnack, Normcast; SysOps.tv, Theorie und Praxis des Sysops.