MQTT (Connect)-Dienst nicht verfügbar
Resolved
Oct 24 at 08:47am CEST
Nach längerer Untersuchung war eine Verkettung von folgenden Problemen die Ursache für den Ausfall:
- Unser Cluster besteht aktuell aus 3 Nodes
- Einer davon, sollte ein RAM-Update erhalten
- Hierfür wurde der Node heruntergefahren
- Durch den Switch des Traffics auf Node 1 und 2, wurde deren Last zu groß
- Ein schneller Neustart des Node 3, führte aufgrund eines lange andauernden Sync-Prozesses für eine weitere Überlastung
- Infolgedessen, war das gesamte Cluster so überlasstet, dass Dienste nicht mehr reagiert hatten
- Wir haben uns dann dazu entschlossen, die Firewall zuzumachen, sodass keine eingehenden Verbindungen mehr möglich waren
- Anschließend wurden bei allen drei Nodes CPU, RAM und File-Limits verdoppelt und die Nodes nach und nach wieder hochgefahren
- Nach einigen Start-Schwierigkeiten wegen Timeouts, konnten wir die vergrößerten Nodes langsam wieder starten und die Firewall wieder öffnen
Affected services
Updated
Oct 24 at 08:06am CEST
Alle Dienste wieder funktionsfähig
Affected services
Updated
Oct 23 at 02:32pm CEST
Die Probleme wurden behoben und alle Dienste wieder hochgefahren. Noch beobachten wir die Auswirkungen der Neustarts, um auf etwaige Fehler reagieren zu können.
Affected services
Created
Oct 23 at 11:05am CEST
Aufgrund einer Störung im MQTT-Cluster, sind aktuell folgende Dienste nicht verfügbar:
- FE2 zu FE2 (Connect)
- IOsatellite
- AMweb (Connect)
- aMobile PRO (Alarm, Status, Tracking)
Affected services