Startseite
Bild

napp-it-zfs


Verfügbarkeit


Das Thema Verfügbarkeit umfasst konzeptionellen Maßnahmen, relativ einfache Hardwareüberlegungen bis zu komplexen active/active Clusterlösungen die Sie nicht von napp-it sondern beispielsweise als Extra von http://www.high-availability.com/zfs-ha-plugin/  erhalten können. Hochverfügbare Storage-Cluster erfordern jedoch neben viel Geld einen hohen eigenen Sachverstand und einen sehr guten externen Support.

In vielen Fällen ist besser und billiger einen Ausfall zu erlauben und lediglich sicherzustellen, dass dieser relativ selten auftritt und innerhalb einer definierten Zeit z.B. 30-60 Minuten selbst und nach Möglichkeit ohne externe Dienstleister behoben werden kann. Versuchen Sie nicht ein Disaster mit allem Mitteln zu vermeiden, versuchen Sie danach zurechtzukommen - vor allem wenn Kosten eine Rolle spielen.

Die wichtigsten organisatorischen Massnahmen vorab

  • KISS - Keep It Simple, Stupid: Sie müssen selbst noch verstehen was passiert und was sie dann tun müssen. Dieses grundlegende Prinzip vermeidet nicht nur Kosten sondern erlaubt den Betrieb ohne das sonst nötige interne und externe Expertenwissen.
  • Qualität: Nehmen Sie hochwertiges Material besonders bei der Stromversorgung, ECC Speicher, Platten und Backplanes. Hier treten die häufigsten Probleme auf. Mainboard, CPU, Storage- und Netzwerkkontroller machen ganz selten Probleme.Versuchen Sie keine neuen "High-end Ansätze".Wenn alle die damit Erfahruing haben LSI HBA Controller im IT Modus und Intel Nics empfehlen, folgen Sie dieser Empfehlung.
  • Redundanz: Halten Sie ein Hot-Reservesystem bereit - entweder ohne Platten oder ein weiteres System (z.B. Backupsystem) mit genügend freien Slots in die Sie die Platten nach einem Defekt des Primärstorage einschieben können. Benutzen Sie Hot-Spare Platten und halten Platten als Coldspare bereit. Achten Sie auf redundante Stromversorgung und sichern einen Strang mit einer USV. Wählen Sie Raid-Level so, dass zwei beliebige Platten ausfallen dürfen (3fach Mirror oder Raid Z2/Z3)
  • Worst Case: Erlauben Sie ein echtes Disaster (Diebstahl, Feuer etc) durch ein räumlich abgesetztes repliziertes Backupsystem das die Funktion des Storage komplett übernehmen kann. Nach Totalverlust des Storage sind Sie in kurzer Zeit wieder online. Sie haben jedoch nicht den allerneuesten Datenstand und sie haben eventuell Probleme mit Dateien die bei der letzten Replikation offen waren.
  • Dokumentation: Dokumentieren Sie Ihre Konfiguration  z.B. Slots und WWN-ID (drucken Sie die napp-it Disk-Overviw aus) und überlegen/ testen vorab Recovery Maßnahmen (bei Plattenausfall, Systemausfall oder worst case Fall)


Die wichtigsten Betriebs-Massnahmen

  • Machen Sie regelmäßig Online Scrubbings. Dabei werden die Prüfsummen aller Dateien überprüft und "Stille Datenfehler" gegebenenfalls repariert. Bei Sata Consumer Platten kann dies wöchentlich geschehen, bei professionellen SAS Platten monatlich.
  • Reagieren Sie schnell auf Fehler. Lassen Sie sich Alert und Statusmails zuschicken. Überprüfen Sie regelmäßig Betriebszustände wie System-Logs, Fault-Service-Logs, Prüfsummenfehler nach Scrubbings, Temperatur, Iostat Meldungen über Wait-Zeiten oder Fehlerhäufigkeit sowie Smart-Daten.
  • Arbeiten Sie vorrausschauend. Wenn einzelne Platten in ihren Betriebsparametern oder Smartdaten signifikant schlechter werden, wechseln Sie diese aus und überprüfen die Platte mit einem Low-Level Testprogramm des Plattenherstellers. Der unangenehmste Fehler sind Platten die nicht komplett ausfallen, sondern nur extrem langsam reagieren und den Bus damit blockieren.  Bei ESXi ist damit beispielsweise ein Storage Time-Out die Folge.
  • Nutzen Sie automatische Snapshots z.B. in der aktuellen Stunde alle 15 Minuten (behalte letzte 4), am aktuellen Tag jede Stunde (behalte letzte 24), in der aktuellen Woche jeden Tag (behalte letzte 7) und im aktuellen Monat immer am Sonntag (behalte letzte 4). Bei Problemen können Sie auf diese Datenstände zugreifen. Aktivieren Sie auf dem Replikations-Backupserver eine eigene Langzeit Snap Historie z.B. behalte Monatssnaps für das letzte Jahr.
napp-it 21.02.2024