Beide Welten verlässlich sichern
Von Uli Ries
Virtualisierung ist im Kommen. Was aber, wenn der Hut brennt? Schließlich stellen virtuelle Umgebungen ganz andere Anforderungen an Backups und Notfallpläne. Dennoch zeigt eine Studie, dass derzeit nicht einmal jeder zweite europäische IT-Verantwortliche seine Disaster-Recovery-Pläne fit macht.
Ein IT-Desaster kann jedes Unternehmen treffen. Nur trifft es kleinere meist besonders hart, wenn Komponenten ausfallen, die geschäftskritische Prozesse tragen. Deshalb hat in der Regel jeder, der wichtige Dienste wie Fileserver oder E-Mail-Server in den eigenen Räumen betreibt, einen Notfallplan – auch wenn er dazu nicht Disaster Recovery (DR) sagt.
Im Katastrophenfall ist nicht genug Zeit, um erst einmal ein strukturiertes Vorgehen zu überlegen. Effizienter ist es, wenn die notwendigen Schritte vorher bereits erdacht und niedergeschrieben sind.
Szenarien im Totalausfall
Der Softwarehersteller Symantec interessiert sich schon seit langem dafür, was Unternehmen in Sachen Disaster Recovey bewegt. Daher gibt er seit vier Jahren eine Studie in Auftrag, die er „Disaster Recovery Report“ nennt. Dabei wurden tausend IT-Manager aus 15 Ländern – darunter Großbritannien, Deutschland, Frankreich und Italien – zum Thema Disaster Recovery befragt.
Andreas Zeitler ist ein alter Hase in Sachen Software und IT. Er war bis 2012 Vice President und Regional Manager für die Region Zentraleuropa bei Symantec. Dass er langjährige Erfahrung in der Branche mitbringt, macht ihn zu dem Mann, der kompetente Vergleiche ziehen kann.
Symantec (Deutschland) GmbH, Wappenhalle, Konrad-Zuse-Platz 2–5, 81829 München, Tel.: 089-94302-0, www.symantec.com
Ein frappierendes Ergebnis: Nur die Hälfte aller Befragten meint, dass ihre IT-Systeme binnen einer Woche nach einem Totalausfall wieder voll einsatzfähig sind. Diese Zahl überrascht auch deshalb, weil viele der Befragten genau wissen, wovon sie reden: Knapp ein Drittel musste schon einmal auf einen Disaster-Recovery-Plan zurückgreifen. Andreas Zeitler, Symantecs Zentraleuropachef, ist sogar der Meinung, dass diese Zahl zu niedrig ist: „Die Dunkelziffer derer, die auf Ihren Notfallplan zurückgreifen musste, ist sicher höher. Trotzdem trauen sich die Befragten nicht zu, ihre Systeme in weniger als einer Woche wieder voll einsatzfähig zu haben.“
Virtualisiertes wird komplexer
Ein Hauptgrund, warum weltweit mehr als die Hälfte aller Befragten ihre DR-Pläne überdenkt, ist laut Disaster Recovery Report der fortschreitende Einsatz von Virtualisierung. Dass in Europa nur 43 % der Pläne auf dem Prüfstand stehen, erklärt sich Andreas Zeitler unter anderem damit, dass „insbesondere in Deutschland Virtualisierung noch nicht so weit verbreitet ist wie im Ausland“. Deutsche IT-Verantwortliche prüften laut Zeitler sehr genau, ob und was sie virtualisieren, und benötigen deshalb mehr Zeit zur Einführung.
Trotz der Zurückhaltung meint Zeitler nicht, dass Virtualisierung nur ein Hype sei, der von Medien und Herstellern am Leben gehalten werde. „Wir sehen tatsächlich mehr und mehr virtuelle Infrastrukturen bei unseren Kunden. Die meisten nutzen die neue Technik, um ihre IT-Landschaft trotz Budgetknappheit weiter auszubauen“, sagt Zeitler.
Die größere Komplexität von virtualisierten IT-Infrastrukturen ist es, die das Überarbeiten der Notfallpläne nötig macht. Von einem Desaster sprechen die Experten, wenn ein Stück Infrastruktur wie Server, Switch, Telefonanlage etc. auf einmal komplett ausfällt. Das Problem ist: Virtualisierung versteckt quasi die zugrunde liegende Hardware und macht so die Fehlersuche schwieriger. In einer virtuellen Umgebung nutzen mehrere virtuelle Maschinen ein und denselben physikalischen Server. Tritt ein Fehler auf, stehen die Verantwortlichen also vor der Frage, ob es an der virtuellen oder der physikalischen Maschine liegt.
Schwarz auf Weiß
Dieser Beitrag erschien zuerst in unserer Magazinreihe. Einen Überblick mit freien Download-Links zu sämtlichen Einzelheften bekommen Sie online im Pressezentrum des MittelstandsWiki.
Viele IT-Verantwortliche greifen zur Virtualisierung, um kostengünstig die Ausfallsicherheit zu erhöhen. Mussten sie bisher für jede kritische Maschine ein passiv mitlaufendes zweites System vorhalten, das beim Ausfall des Originalservers sofort einspringt (Cluster-Konzept), lässt sich diese Sicherheit nun günstiger und bequemer erreichen – eben mit virtuellen Maschinen. So überträgt z.B. VMmotion von VMware dieses Cluster-Konzept in die virtuelle Welt. VMmotion startet im Falle eines Serverausfalls die virtuelle Maschine einfach auf einem anderen, mit VMwares Hypervisor ESX ausgestatteten Server neu.
Nachdem es sich in diesem Fall aber um ein identisches Disk Image handelt, würde ein eventuell im Dateisystem der virtuellen Maschine sitzendes Problem eins zu eins auf den Ersatzserver übertragen. Der Ausfall des ESX-Servers wäre dann zwar abgefangen, die relevanten Anwendungen der virtuellen Maschine stünden dennoch nicht zur Verfügung. Also: Die auch im Hinblick auf höhere Verfügbarkeit der IT viel gepriesene Virtualisierung erweist sich unter Umständen also sogar als Hemmschuh.
Backup? Fehlanzeige
Genau diese Komplexität führt dazu, dass mehr als die Hälfte aller Befragten unter zu knappen Ressourcen leidet, wenn es ums Backup der virtualisierten Server geht. Die Folge: 35 % aller virtualisierten Systeme sind gar nicht in ein Backup eingebunden! Nur 37 % der IT-Verantwortlichen können von sich behaupten, 90 % und mehr ihrer virtualisierten Server zu sichern.
Offenbar herrscht Mangelwirtschaft: Den IT-Administratoren fehlen geeignete Programmen, um virtualisierte Server zu sichern.
Andreas Zeitler nennt einen klaren Grund, warum virtualisierte Serverinfrastrukturen nicht besser gesichert werden: den Mangel an einheitlicher Backup-Software: „Laut unserer Studie greifen weltweit mehr als 35 % der befragten Unternehmen auf mehrere, sich unterscheidende Programme zurück, damit sie ihre physikalischen und die virtualiserten Server sichern können. Es fehlt offenbar an Programmen, die beide Welten verlässlich sichern.“
Die Studie belegt außerdem, dass jeweils ein Drittel aller IT-Verantwortlichen weder automatisierte Recovery-Programme noch ausreichend leistungsstarke Backup-Tools hat. Das führt dazu, dass die Sicherungen sehr umständlich zu bewerkstelligen sind – oder gar nicht.
Zeitler sieht hier die Hersteller von Backup-Software in der Pflicht, ihre Programme an die gestiegenen Anforderungen von virtualisierten Systemen anzupassen: „Es kann nicht angehen, dass Kunden getrennte Tools für virtuelle und physikalische Server nutzen müssen und so am Ende kein verlässliches Backup haben.“ Wenn diese Forderung umgesetzt wird, resultiert daraus ein höherer Grad der Backup-Automatisierung. Dieser wiederum senkt die Komplexität und hat zur Folge dass die in der Studie beklagte Ressourcenknappheit sich im Ernstfall weniger drastisch auswirkt.
Fazit: Den Ernstfall testen
Der Disaster Recovery Report offenbart noch eine weitere Gefahr: Die meisten Disaster-Recovery-Pläne werden nie durch die Simulation eines Ausfalls auf ihre Praxistauglichkeit hin getestet. Weniger als die Hälfte aller Befragten testet die Pläne überhaupt. Ein Drittel davon gibt als Grund die Besorgnis an, dass sich ein solcher Test negativ auf die Kundenbeziehungen auswirken könnte; immerhin 20 % befürchten, dass der eigentliche Geschäftsbetrieb durch den Test gestört werde. Ein weiterer Hauptgrund (40 %) dafür, dass die Tests entfallen: Ressourcenknappheit – in diesem Fall der Mangel an Personal und Zeit.
Wie wichtig solche Tests wären, untermauert eine andere Angabe des Reports: Die Zahl der Systeme, die inzwischen als „kritisch für den Geschäftsbetriebs“ eingestuft wird, wuchs innerhalb eines Jahres um 36 %. Es gibt also immer mehr IT-Komponenten, deren Ausfall das Kerngeschäft der Firma ernsthaft gefährdet. Die bestehenden Disaster-Recovery-Pläne jedoch decken zum Beispiel E-Mail-Systeme nur in 50 % der Fälle mit ab und Firmenfilialen abseits der Zentrale werden nur von 43 % der Befragten mit berücksichtigt.
Und: Wo der Plan doch getestet wird, schlägt er nur in weniger als einem Drittel aller Fälle deshalb fehl, weil die Technik versagt. Dagegen gehen fast 25 % der Testpleiten auf veraltete Pläne zurück: Das Notfallszenario kann gar nicht funktionieren, weil sich die Rahmenbedingungen inzwischen geändert haben. Fehlerquelle Nummer eins ist und bleibt ein alter Bekannter: der Mensch. 33 % aller Überprüfungen scheitern, weil die Beteiligten sich nicht an den Plan halten und schwer wiegende Fehler verursachen.
Uli Ries ist freier Journalist und Autor mit abgeschlossene journalistischer Ausbildung und langjähriger Erfahrung (u.a. bei CHIP, PC Professionell und www.notebookjournal.de). Seine Spezialgebiete sind Mobilität, IT-Sicherheit und Kommunikation – zu diesen Themen tritt er immer wieder auch als Moderator und Fachreferent auf.
Kontakt via Xing