Ausfall Server (zu eurer Info)

Bam Bam

Active Member
24. April 2002
1.281
0
36
47
Kriegstetten
www.mini-power.ch
Sehr geehrte Kundin, sehr geehrter Kunde


Vom 25. bis 27. Dezember 2005 und vom 31.Dezember bis 4. Januar 2006 am Morgen hatten wir mit Hardware-Problemen bei unserer neuen Storage-Lösung zu kämpfen. Ihr Account auf Server 17 war von Samstagabend, 31.12.2005 23:30 Uhr bis Montagabend, 2.1.2006 19:00 Uhr davon betroffen.

Erschwerend kam dazu, dass über die Festtage ausnahmsweise kein Telefonsupport geleistet wurde. Doch selbst wenn sämtliche Telefonleitungen vom Hostpoint-Support besetzt gewesen wären, hätten wir die Kapazität nicht gehabt, um bei allen betroffen Kunden erste Hilfe zu leisten. Auch von Support-Anfragen per E-Mail wurden wir regelrecht überflutet. Wir versuchten, so gut
wie zum jeweiligen Zeitpunkt möglich, mittels Statusmeldungen auf unserer Webseite über den aktuellen Stand zu informieren und die E-Mails zu beantworten, während wir unsere Kräfte prioritär für die eigentliche Problemlösung eingesetzt haben.

Mit dieser E-Mail möchten wir Sie nun nachträglich über die Gründe der Ausfälle informieren, und auch aufzeigen was vorgefallen ist.

Wir migrieren unsere Kunden seit zwei Monaten schrittweise auf ein neues Storage-System. Diese Migration erfolgt im gleichen Zuge mit der Umstellung unserer Kunden auf die angekündigte neue Mail-Lösung, hat aber nur indirekt damit zu tun. Auf einem der Dateisysteme der Storage-Lösung hatten sich vor Weihnachten aus Gründen, die immer noch abgeklärt werden, Fehler
eingeschlichen. Diese führten am 26. Dezember zum ersten Ausfall, der alle Kunden auf diesem Dateisystem betraf. Aufgrund der Art der Fehler war es unmöglich, diese im laufenden Betrieb zu beheben. Auch unsere Dateisystem-Spiegel wiesen dieselben Fehler auf. Wir wählten die sichere Variante und haben das Filesystem zusammen mit unseren Hardware-Lieferanten geprüft und
wiederhergestellt. Zu diesem Zeitpunkt gingen wir davon aus, dass den Fehlern ein Absturz des Systems zwei Wochen zuvor zugrunde liegen musste, dessen Ursache bereits vor Weihnachten durch den Hersteller behoben wurde.

Das stellte sich als Irrtum heraus. Erneut tauchten Fehler auf. Wir versuchten das System möglichst lange online zu halten, während wir zusammen mit den Entwicklern der Storage-Lösung nach der wahren Ursache suchten. Das Ganze entwickelte sich dann sprichwörtlich zu einer Suche nach der Nadel im Heuhaufen. Am späten Sylvester-Abend schien es dann nicht mehr möglich, das
Filesystem online zu halten. Zusätzlich tauchten noch Fehler auf einem zweiten, bis anhin sauberen Dateisystem auf. Wir sahen uns daher gezwungen, noch in der der Neujahrs-Nacht wieder offline zu gehen, um beide Dateisysteme zu prüfen. Nun waren natürlich noch mehr Kunden von diesem Ausfall betroffen. Unsere Partner und wir haben, wie schon zuvor, rund um die Uhr versucht, dem Problem auf den Grund zu gehen. Unser Ziel war es, alle möglichen Fehlerursachen auszuschliessen, bevor wir die Dateisysteme wieder online nehmen. Ansonsten hätten wir erneute Fehler riskiert, was die Downtime - auch nachträglich gesehen - nur verlängert hätte. Gleichzeitig mussten wir beide defekte Dateisysteme reparieren, was sich natürlich noch aufwendiger
gestaltete, als das erste Mal bei nur einem.

Dieser Prozess zog sich zum Bedauern aller Parteien fast ewig in die Länge. Das eine Dateisystem konnten wir bereits am Montagabend wieder in Betrieb nehmen, das zweite erst am Mittwochmorgen. Die Dateisysteme sind jetzt wieder fehlerfrei. Zum jetztigen Zeitpunkt sind alle wahrscheinlichen, potenziellen Fehlerursachen eliminiert worden, insbesondere möglicherweise
fehlerhafte Hardware. Die tatsächliche Ursache ist aber immer noch Gegenstand von Abklärungen, die Zeit in Anspruch nehmen werden. Man kann sagen, dass das System jetzt mit hoher Wahrscheindlichkeit wieder stabil läuft und dass das so bleibt. Im Moment sehen wir keinerlei Anzeichen für weitere Fehler. Allgemeine Entwarnung können wir zu diesem Zeitpunkt noch nicht geben.

Die besagten Hardware-Parner in diesem Fall sind die Sun Microsystems Data Management Group (ehem. StorageTek) und der Amerikanische Hersteller von High-End Storage-Lösungen Onstor. In unserer Pressemitteilung hat Sun Microsystems zu diesem Ausfall ebenfalls Stellung genommen:

”Wir bedauern sehr, dass Hostpoint-Kunden diesen Betriebsunterbruch erfahren mussten”, sagte Manuel Gutierrez, Chef der Data Management Group von Sun Microsystems. ”Zusammen mit den Fachleuten von Onstor in Kalifornien und Hostpoint haben wir alle Kräfte darauf konzentriert, um den Fehler so schnell wie möglich zu beheben. Inzwischen läuft das System wieder stabil, aber wir werden aus Sicherheitsgründen den Betrieb noch einige Zeit sorgfältig analysieren.”

Wir sind uns bewusst, dass Ausfälle in diesem Ausmass für unsere Kunden viel mehr als ärgerlich sind und möchten uns in diesem Sinne für alles Geschehene in aller Form entschuldigen. Solche Vorfälle entprechen natürlich in keiner Weise dem, was wir unseren Kunden bieten möchten. Diese neue Storage-Lösung war für uns eine beachtliche Investition, die unseren Kunden anstelle von Ausfällen viele neue Vorteile bringen sollte und auch noch wird.

Selbstverständlich möchten wir uns bei Ihnen nicht nur mit Worten entschuldigen, sondern auch in einer anderen Form erkenntlich zeigen. Wir werden diesbezüglich wieder auf Sie zukommen.

Wir hoffen, Sie trotz allem weiterhin zu unseren zufriedenen Kunden zählen zu dürfen und wünschen Ihnen ein frohes neues Jahr.


Freundliche Grüsse

Markus Gebert
CTO
 
Zuletzt bearbeitet: