Back to overview
Downtime

MQTT (Connect)-Dienst nicht verfügbar

Oct 23 at 11:05am CEST
Affected services
Connect - Dienst (Cluster 1)
Connect - Dienst (Cluster 2)

Resolved
Oct 24 at 08:47am CEST

Nach längerer Untersuchung war eine Verkettung von folgenden Problemen die Ursache für den Ausfall:
- Unser Cluster besteht aktuell aus 3 Nodes
- Einer davon, sollte ein RAM-Update erhalten
- Hierfür wurde der Node heruntergefahren
- Durch den Switch des Traffics auf Node 1 und 2, wurde deren Last zu groß
- Ein schneller Neustart des Node 3, führte aufgrund eines lange andauernden Sync-Prozesses für eine weitere Überlastung
- Infolgedessen, war das gesamte Cluster so überlasstet, dass Dienste nicht mehr reagiert hatten
- Wir haben uns dann dazu entschlossen, die Firewall zuzumachen, sodass keine eingehenden Verbindungen mehr möglich waren
- Anschließend wurden bei allen drei Nodes CPU, RAM und File-Limits verdoppelt und die Nodes nach und nach wieder hochgefahren
- Nach einigen Start-Schwierigkeiten wegen Timeouts, konnten wir die vergrößerten Nodes langsam wieder starten und die Firewall wieder öffnen

Updated
Oct 24 at 08:06am CEST

Alle Dienste wieder funktionsfähig

Updated
Oct 23 at 02:32pm CEST

Die Probleme wurden behoben und alle Dienste wieder hochgefahren. Noch beobachten wir die Auswirkungen der Neustarts, um auf etwaige Fehler reagieren zu können.

Created
Oct 23 at 11:05am CEST

Aufgrund einer Störung im MQTT-Cluster, sind aktuell folgende Dienste nicht verfügbar:
- FE2 zu FE2 (Connect)
- IOsatellite
- AMweb (Connect)
- aMobile PRO (Alarm, Status, Tracking)