Back to overview
Downtime

Ausfall Alamos Connect Dienst

Feb 24 at 03:20pm CET
Affected services
Connect - Dienst (Cluster 1)
Connect - Dienst (Cluster 2)
Connect - Dienst (Cluster 3)

Resolved
Feb 28 at 11:39am CET

Die Analyse des Ausfalls ist nun abgeschlossen. Am Montag hat ein äußerst ungewöhnlicher Traffic-Spike einen der drei Nodes überlastet, was zu einer Kettenreaktion geführt hat. Der Fallback Knoten war hiervon nicht betroffen, wodurch kritische Dienste wie FE2 zu FE2 weiterhin reibungslos funktionierten. Auch der aMobile PRO hat für Alarmierungen eine Redundanzanbindung, weswegen dieser ebenfalls im Bereich der Alarmierung nicht betroffen war.
Am Donnerstag fanden nun die ersten Gespräche mit externen Beratern statt, die nun den Fehler auf seitens RabbitMQ analysieren und uns so weit unterstützen, dass diese Art des Ausfalls zukünftig nicht mehr auftreten kann.

Updated
Feb 24 at 07:22pm CET

Alle Dienste sind wieder verfügbar.
Wir werden nun im Anschluss die Ursache und die Auswirkungen analysieren um daraus Schlüsse für die Zukunft zu ziehen.
Dank unseres Fallback Systems war der Betrieb FE2 zu FE2 glücklicherweise zu jederzeit sicher gestellt. Auch die aMobile PROs konnten dank HTTP Fallback mit Alarmen versorgt werden.
Lediglich für den IOsatellite und den AMweb gab es im Connect-Modus keinen Fallback. AMwebs mit direkter Verbindung waren hingegen nicht betroffen.

Updated
Feb 24 at 06:43pm CET

Die Dienste sind nun wieder verfügbar. Wir überwachen weiterhin das Verhalten und werden Sie über etwaige Entwicklungen auf dem Laufenden halten.

Updated
Feb 24 at 06:26pm CET

Wir arbeiten weiterhin an der Behebung des Problems. Nach erster Analyse ist der Connect-Fallback nicht betroffen, Verbindungen zwischen FE2 und FE2 werden über diesen abgewickelt und funktionieren einwandfrei. FE2 zu FE2 via HTTPS sind ebenfalls nicht betroffen und arbeiten unabhängig von diesem Ausfall.

aMobile PRO nutzt ebenfalls eine Rückfallebene für Alarme, die unabhängig vom Connect-Dienst arbeitet. Statusmeldungen sind jedoch weiterhin von der Störung betroffen.

Created
Feb 24 at 03:20pm CET

Aktuell ist unser Connect Dienst (MQTT) ausgefallen, was die Datenkommunikation zwischen den folgenden Produkten beeinträchtigt:
! Bitte starten Sie FE2 zunächst NICHT neu !
- FE2 zu FE2
- aMobile PRO
- AMweb im Cloudbetrieb
- Drittanbieterschnittstelle
- IOsatellite, IOespa