Intelligente Messtechnik verhindert Ausfälle
Von Roberto Sammler, Raritan
Mit Anwendungen wie IP-Telefonie und der immer umfassenderen Virtualisierung steigen die Verfügbarkeitsanforderungen an ein Rechenzentrum. Das gilt auch für kleine und mittelständische RZ, bei denen die Umweltdaten bisher nur rudimentär überwacht wurden.
Anforderungsanalyse nach DIN EN 50600
Über eine Anforderungsanalyse nach DIN EN 50600 können IT-Verantwortliche ermitteln, an welchen Stellen und wie tiefgehend sie in ihren RZ Stromverbrauch und Umweltwerte ermitteln und überwachen sollen. Die Normenreihe für die Auslegung von Rechenzentren basiert auf einer Bedarfs- und Risikoanalyse. Um die hierbei festgelegten Ziele und Bedürfnisse zu erreichen, benötigt der Betreiber „wirksame Informationen für das Management und den Betrieb“. Diese können bei jedem Unternehmen je nach ermittelter Verfügbarkeits- und physikalischer Schutzklasse gemäß DIN EN 50600-1 unterschiedlich detailliert ausfallen. Die Granularitätsniveaus stellen die Einteilung für die „Befähigung zur Energieeffizienz“ dar. Daraus folgt unter anderem, an welchen Stellen die Energieverbrauchswerte zu erfassen sind. Die Normenreihe gibt für die verschiedenen Klassen und Niveaus auch Empfehlungen für die praktische Umsetzung. Für das Datacenter Infrastructure Management (DCIM) sind dabei folgende Teilnormen relevant:
- DIN EN 50600-2-2 (Stromversorgung),
- DIN EN 50600-2-3 (Überwachung der Umgebung),
- DIN EN 50600-2-5 (Sicherungssysteme) und
- DIN EN 50600-99-1 (Empfohlene Praktiken für das Energiemanagement).
RZ-Manager benötigen für ihr DCIM zahlreiche Informationen, um die Sicherheit, Verfügbarkeit und Bezahlbarkeit der Dienste zu gewährleisten. (Bild: Raritan)
Praktische Umsetzung
Ein DCIM kann auf viele verschiedene Arten realisiert werden. Solche Lösungen zeigen auf diversen Konsolen anschaulich, wie das Rechenzentrum aufgebaut ist. Sie veranschaulichen, welche Geräte wo im RZ vorhanden sind – sowohl aus räumlicher Sicht als auch aus Sicht der Verkabelung, der Belegung der Kernkomponenten wie des Stromverteilnetzes oder der Vernetzung aller Systemkomponenten. Darüber hinaus sammelt ein DCIM alle verfügbaren Daten der angeschlossenen Systemkomponenten und korreliert sie. Es zeigt, wie stark welche RZ-Bereiche ausgelastet sind, darunter auch den Stromverbrauch oder die Kühlleistung. Es sammelt Messwerte über Umgebungsparameter wie Temperatur und Luftfeuchte und steuert Zugangssysteme. Mit DCIM lassen sich Lastspitzen, beispielsweise im Stromverbrauch, besser bewerten und mit weiteren Protokolldaten in Relation setzen. Bei den meisten Parametern ist es übrigens sinnvoll, jeweils zwei obere und zwei untere Schwellwerte zu definieren. So wird der Administrator frühzeitig gewarnt und kann rechtzeitig Gegenmaßnahmen ergreifen.
Die programmierbaren iPDUs von Raritan verteilen und messen nicht nur Strom, sondern verfügen zudem über einen RJ12-Sensor-Port. (Bild: Raritan)
Sensoreinbindung
Für die Datensammlung arbeiten die meisten Lösungen mit 1-HE-Steuereinheiten für den Rack-Einbau. Der Anwender kann daran mehrere Sensoren anschließen. Sie verfügen in der Regel über ein Display, das die anliegenden Messwerte anzeigt. Parallel dazu werden die Daten zum Beispiel übers LAN an eine zentrale Managementsoftware gesendet. Es geht aber auch platzsparender: Viele Rechenzentren setzen in ihren Schränken bereits PDUs (Power Distribution Units) zur Stromverteilung und -messung ein. Die programmierbaren iPDUs von Raritan verfügen zudem über einen Sensorport, der unter anderem über die webbasierte Software der PDU angesprochen werden kann. Die iPDUs werden wie sonst auch seitlich am Holm oder ganz oben oder unten im Schrank montiert. Sie benötigen keine zusätzliche Verkabelung, und die Stromversorgung für die angeschlossenen Sensoren wird über die PDU mitgeliefert.
Die Messdaten kommen per SNMP, TCP/IP oder Modbus in das DCIM-System. (Bild: Raritan)
Die 1-HE-Steuereinheiten und die iPDUs geben die Messdaten per SNMP, TCP oder über eine serielle Busschnittstelle wie Modbus an die Managementplattform weiter. Umfang und Aufbau der Lösung richten sich nach dem Bedarf. Es gibt einfache Monitoring-Lösungen, etwa allein zur Auswertung der Verbrauchsdaten oder der Umgebungsdaten, sowie modulare Systeme, die sich zu einer umfassenden DCIM-Software erweitern lassen. Konfiguration und Monitoring erfolgen dabei meist webbasiert und remote übers LAN oder WLAN sowie vor Ort über einen Konsolenanschluss (USB- oder RS232C-Schnittstelle).
Stromverbrauch
Eine Überwachung des Stromverbrauchs ermöglicht einen energiesparenden Betrieb und eine detaillierte Analyse der Verbraucher im Rechenzentrum. So ist schnell ersichtlich, wann welche Komponenten Auslastungsspitzen verursachen.
Über die Anforderungsanalyse ergibt sich für ein Rechenzentrum das Granularitätsniveau für die Messung von Verbrauchskennwerten. Um Aussagen über die PUE (Power Usage Effectiveness) treffen zu können, muss je nach Aufbau des Rechenzentrums der Verbrauch an verschiedenen Stellen gemessen werden. Wichtig ist, dass die verwendete Energie für IT-Geräte getrennt von der Energie gemessen wird, die für andere Aufgaben wie Kühlung genutzt wird. Messungen am Unterverteiler (Niveau 2) können zum Beispiel ausreichen, wenn in den IT-Schränken wirklich nur IT-Geräte sind. Sind aber Schränke mit integriertem Schrankkühlsystem im Einsatz, entspricht das dem Granularitätsniveau 3. Dann sollte dort per PDU an jeder Steckdose im IT-Schrank gemessen werden.
Grundsätzlich gilt: Je detaillierter diese Unterscheidung erfolgt, umso besser kann der Betreiber einschätzen, wo in seinem RZ noch Einsparungspotenziale sind. Mit den ermittelten Verbrauchswerten lässt sich zum Beispiel die Lastverteilung optimieren, die Serverauslastung und generell die PUE verbessern. Darüber hinaus dienen die Strom- und Spannungsmessungen natürlich auch dazu, die Verfügbarkeit zu erhöhen. Um Störfälle frühzeitig zu erkennen, sollten deshalb zum Beispiel zusätzlich Messpunkte am Eingang und an den Schutzschaltern gesetzt werden. Typische Messgrößen sind Spannung, Strom, Leistungsfaktor, Scheinleistung sowie die verbrauchten Kilowattstunden.
Es gibt die verschiedensten Umweltsensoren, im Bild dargestellt sind von links nach rechts Sensoren für Temperatur und Feuchte, Differenzdruckluft und zwei für Leckage. (Bild: Raritan)
Temperatur und Feuchte
Aktive Komponenten haben häufig konkrete Vorgaben zu Temperatur und Luftfeuchte in ihren Datenblättern, die eingehalten werden müssen. Die für die Messung maßgebliche Temperatur ist somit die direkt am Serverrack. Die American Society of Heating, Refrigerating and Air-Conditioning Engineers (ASHRAE) hat eine überschaubare Methode für eine sinnvolle Temperaturmessung im IT-Schrank entwickelt. Der Anwender misst dabei oben, in der Mitte und unten im Schrank. Das würde ausreichen, um die Temperatur genau zu steuern. Dazu können mehrere Sensoren verwendet werden, manche Hersteller bieten auch entsprechend der ASHRAE-Empfehlung einen Messaufnehmer mit drei Messköpfen im notwendigen Abstand an, was die Installation erleichtert.
Die Anforderungen an die relative Luftfeuchte sind im Rechenzentrum ebenfalls hoch und mit engen Toleranzen belegt. Zu trockene Luft kann zu elektrostatischer Aufladung führen, zu feuchte zu Korrosion an den Geräten. Die Luftfeuchte sollte zum einen möglichst an der Zuluft gemessen werden, noch bevor sie durch den Schrank geht. Zum anderen empfiehlt ASHRAE eine kombinierte Messung von Temperatur und Luftfeuchte mit gemeinsamen Messpunkten, die für das Klimamanagement herangezogen werden können.
Abgesehen davon sollten Grenzwertüberschreitungen generell möglichst direkt an den Sensoren gut sichtbar angezeigt werden, damit das Wartungspersonal sie auf einen Blick erkennen kann. Außerdem sollten die Sensoren leicht austauschbar sein. Denn erfahrungsgemäß steigt nach einigen Jahren der Messfehler aufgrund von Langzeitdrift merklich.
Sunbird Software hat für seine DCIM-Monitoring-Software Power IQ patentierte psychrometische Diagramme entwickelt, um Luftfeuchte und Temperatur in den von ASHRAE oder vom Hersteller geforderten Toleranzbereichen zu halten. Verantwortliche können darüber schnell Rückschlüsse auf das Temperatur- bzw. Feuchteverhalten im RZ ziehen. (Bild: Sunbird Software)
Für das Klimamanagement im Schrank hat ASHRAE ein Diagramm als praktisches Hilfsmittel veröffentlicht. Dieses ASHRAE-Diagramm bildet die erfassten Messpunkte mit ihrer Temperatur auf der X-Achse und ihrer relativen Feuchte auf der Y-Achse ab. Solange sich diese Messpunkte innerhalb eines bestimmten Bereiches befinden, ist alles in Ordnung (grüne Messpunkte); sobald sich ein Wert aufgrund einer Temperatur- oder Feuchteschwankung außerhalb des erlaubten Bereiches befindet, wird der Messpunkt rot. Dann sind Maßnahmen zu ergreifen, um den Wert wieder in den grünen Bereich zu bringen. Mit dem ASHRAE-Diagramm kann ein RZ-Verantwortlicher schnell Rückschlüsse auf das Temperatur- bzw. Feuchteverhalten ziehen. Befinden sich zum Beispiel alle Messpunkte im erlaubten Bereich, aber nahe am linken Rand, so heißt das, dass es gefahrlos möglich ist, die Kühltemperatur anzuheben. Eine Erhöhung führt direkt zu Energieeinsparungen. Die Grenzwerte für den erlaubten Bereich geben ASHRAE oder zum Beispiel Serverhersteller vor.
Wasser, Luft und Vibration
Undichte Wasserzuführungen sorgen zum einen für eine ungenügende Kühlung, führen aber vor allem zu Beschädigungen an Bauelementen oder zu Kurzschlüssen. Ähnliches gilt für eine Ansammlung von Kondenswasser. Aus diesem Grund sollten unter den Zuleitungen und am Schrankboden Leckagesensoren angebracht werden. Diese schlagen Alarm, sobald sie Flüssigkeit detektieren.
Vor allem in Schränken mit viel aktiver Technik (Serverschränke, Switching-Fabrics etc.) ist ein Kühlkonzept mit gelenktem Luftstrom sinnvoll, um potenzielle Hitzenester ausreichend zu kühlen. Bei einem Komponententausch oder beim Ausfall eines Lüfters kann sich der Luftstrom jedoch verändern. Um sicherzugehen, dass die CPUs weiter ausreichend kühlende Luft erhalten, sollte die Zuluft an den kritischen Stellen sowie im Doppelboden überwacht werden. Darüber hinaus kann es sinnvoll sein, den Differenzluftdruck zwischen Warm- und Kaltgang bzw. oberhalb und unterhalb des Doppelbodens zu ermitteln. Mithilfe der Messdaten von Differenzluftdruck, Lufteintritts- und Austrittstemperatur kann zum Beispiel die Leistung von Lüfter und Kompressor einer Kühlanlage geregelt werden.
Server reagieren empfindlich auf Erschütterungen. Vibrationen treten nicht nur in erdbebengefährdeten Regionen auf, sondern auch in der Nähe von Baustellen, viel befahrenen Bahntrassen oder großen Maschinen. Hier müssen die empfindlichen Geräte entsprechend geschützt werden. Mit einem Vibrationssensor kann man zum Beispiel messen, ob ein Einzelereignis verantwortlich ist für eine erhöhte Fehlerrate beim Festplattenzugriff. Bei Maschinen mit rotierenden Teilen kann der Anwender mit dem Vibrationssensor auch eine Trendverfolgung durchführen.
Schwarz auf Weiß
Dieser Beitrag erschien zuerst in unserer Magazinreihe „Rechenzentren und Infrastruktur“. Einen Überblick mit freien Download-Links zu sämtlichen Einzelheften bekommen Sie online im Pressezentrum des MittelstandsWiki.
Asset Management und Zugangskontrolle
Es gibt verschiedene Möglichkeiten, Geräte, Komponenten und Racks in die Inventarisierung des Rechenzentrums aufzunehmen. Raritan etwa arbeitet mit sogenannten Asset Management Tags, in denen jeweils eine ID-Nummer für das angeschlossene Gerät abgespeichert ist. Die Tags werden fest mit diesem Gerät verbunden und führen zu einem Asset Management Strip (AMS), der neben der 19-Zoll-Ebene senkrecht im Schrank eingebaut ist. Dieser bietet für jede HE einen Anschlusspunkt sowie LEDs, die über den Zustand der angeschlossenen Geräte informieren. Bladeserver-AMSs bieten das Gleiche für Bladeserver oder andere Komponenten, die in einen Einbaurahmen integriert werden. Der AMS ist direkt mit der iPDU bzw. der 1-HE-Steuereinheit EMX verbunden und übermittelt per SNMP, welcher Tag mit welchem Anschlusspunkt verbunden ist. Darüber ist es einfach zu ermitteln, in welchem Rack und an welcher Stelle im Rack sich ein bestimmter Server befindet. Das sind Basisinformationen für ein DCIM-System.
Darüber hinaus lassen sich auch Zugangskontrollen in solche Systeme integrieren. Diese werden entweder an Rack- oder Einhausungstüren angebracht oder an der Grenze zwischen zwei Schutzklassen. Sie bestehen in der Regel aus einem Verriegelungssystem, Sensoren, die über Türzustand und Verriegelungszustand informieren, sowie einem Authentifizierungsmechanismus mit verschlüsselter Kommunikation.
Differenzstrommessung
Differenzstrommessungen dienen dem Brandschutz und indirekt auch dem Personenschutz, da das System bei einer Grenzwertüberschreitung einen Alarm ausgeben kann. Diese Messungen sind nach DIN VDE 0100 zwingend erforderlich. So schreibt die DGUV V3 die regelmäßige Prüfung von elektrischen Anlagen und Betriebsmitteln nach bestimmten Kriterien vor. Dazu müssen die Anlagen abgeschaltet werden, was im RZ aber meist schwer realisierbar ist. Eine permanente Differenzstromüberwachung kombiniert mit weiteren Prozessen wird unter Umständen von der Berufsgenossenschaft akzeptiert, sodass man Prüfzyklen verlängern kann oder sogar komplett von der turnusmäßigen Prüfung befreit wird.
Für den Personenschutz entscheidend ist, welcher Strom durch den Körper fließt. Daher dürfen Personen nicht mit Bauteilen in Berührung kommen, die unter Spannung stehen und einen Stromfluss von 30 mA oder mehr durch den Körper hervorrufen. Für den Brandschutz sind maximal 300 mA zulässig. Server beispielsweise haben bauartbedingt einen Fehlerstrom. Deshalb sollten nach einer Analyse individuelle Schwellwerte festgelegt werden.
Je feiner die Messpunkte verteilt sind, umso genauer kann der Administrator bei Grenzwertverletzungen die Ursache lokalisieren. Aus diesem Grund bieten moderne PDUs heute eine permanente Überwachung der Differenzstromwerte mit einstellbaren Schwellwerten und einer softwaregesteuerten Funktionskontrolle an. Werden die Daten mit einer DCIM-Lösung verarbeitet, lassen sich aus den Messdaten Trends ermitteln und Handlungsketten bei Überschreiten eines Schwellwerts definieren.
Auswertung und Alarmierung
Verschiedene Ereignisse erfordern unterschiedliche Benachrichtigungsarten. Bei Feuer oder Überflutung sind ein möglichst lauter, gut sichtbarer Alarm und eine Benachrichtigung über alle Kanäle notwendig. Oft sind damit gleich automatische Abläufe wie der Ruf der Feuerwehr sowie das Öffnen der Fluchttüren gekoppelt. Werden Grenzwerte oder gar nur Schwellwerte bei Messungen erreicht, muss der dafür zuständige Sachbearbeiter informiert werden, um das Problem kompetent zu analysieren. Grundsätzlich sollte man immer parallel mehrere Benachrichtigungswege konfigurieren, etwa optisch über LEDs und akustisch über einen Alarm am Sensor. Häufig werden auch rollenbasiert E-Mails oder SMS versendet.
Roberto Sammler ist Sales Engineer DACH bei Raritan Deutschland in Zwickau, einem Unternehmen des Legrand-Konzerns, Limoges. Raritan ist ein weltweit führender Anbieter von Power-Management-Lösungen, DCIM-Software und KVM-Technik.
Raritan Deutschland GmbH, Kaistr. 18, 40221 Düsseldorf, Tel.: 0375 2713494799, sales.germany@raritan.com, www.raritan.com/eu/de/
Viele DCIM-Systeme arbeiten heute mit Standardschnittstellen wie SNMP, TCP/IP und seriellen Bussystemen zur Integration von Sensoren und Aktoren. Die PDU-basierte Lösung von Raritan bietet eine einfache Möglichkeit, Sensoren und Aktoren im RZ zu integrieren. Sie müssen einfach nur an den entsprechenden Sensorports angeschlossen werden. Der Anwender hat viele Möglichkeiten, die iPDUs remote zu konfigurieren und zu administrieren. Die Lösung unterstützt IPv4 und IPv6. Der Zugriff ist passwortgeschützt, außerdem kann der Administrator Rollen definieren und sie bestimmten Anwendern zuordnen. Auch eine RADIUS-basierende Authentifizierung ist konfigurierbar.
Zudem lässt sich die Lösung nahtlos in die modulare DCIM-Lösung von Sunbird Software oder in ein anderes DCIM-System mit SNMP, TCP/IP oder Modbus-Schnittstelle einbinden. Die Daten können auf einer gemeinsamen Oberfläche ausgewertet und sowohl von der IT-Abteilung als auch vom Gebäudemanagement genutzt werden.