News

Neu: Internet Insights: Application Outages

Von Conley Read
| | 14 Minuten Lesezeit

Zusammenfassung

Wir stellen vor: Internet Insights: Application Outages − für unmittelbare, globale Einblicke in die Verfügbarkeit von SaaS-Applikationen


Das Internet ist eine zunehmend komplexe Umgebung, die sich kontinuierlich verändert und eine wichtige Rolle bei den täglichen Arbeitsabläufen spielt. Unternehmen müssen sich mit Internet- und Applikationsausfällen auseinandersetzen und deren Auswirkungen auf das Erlebnis von Kunden und Mitarbeiter:innen kennen. Vor zwei Jahren haben wir Internet Insights™ Network Outages eingeführt − die erste kollektive Sicht auf den Zustand des Internets. Die Lösung hilft Kunden dabei, die Fehlerbehebungszeit für komplexe Provider-Probleme von Stunden auf Minuten zu reduzieren, die Auswirkungen des Zustands des globalen Netzwerks auf die Verfügbarkeit von Services zu managen, und sicherzustellen, dass die Belegschaft produktiv arbeiten kann.

Wir freuen uns, Ihnen heute die neueste Produkterweiterung für Internet Insights vorzustellen: Application Outages. Mit dieser Lösung erhalten IT-Betriebsteams einen unmittelbaren Einblick in die Verfügbarkeit von SaaS-Applikationen im globalen Maßstab. Die Einrichtung einzelner Tests entfällt. Da keine Implementierung oder Instrumente erforderlich sind, erhalten IT-Teams Echtzeit- und historische Einblicke in die Verfügbarkeit von mehr als 75 der wichtigsten SaaS-Applikationen, welche die Mitarbeiter:innen für ihre tägliche Arbeit benötigen. 

Jetzt, da die Korrelation von benutzerspezifischen Problemen und umfassenden Applikationsproblemen möglich ist, können Kunden ihre Belegschaft proaktiv warnen, wenn eine Applikation nicht verfügbar ist. Gleichzeitig können sie das Problem an den SaaS-Provider eskalieren − häufig bevor diese das Problem öffentlich bestätigen. Durch bessere Einblicke hinsichtlich der Verfügbarkeit von Applikationsprovidern können Kunden fundierte Anbieterentscheidungen treffen und die Provider besser managen.


Sehen Sie sich diese Demo an, um zu erfahren, wie Internet Insights: Application Outages Echtzeiteinblicke in Ausfälle bereitstellt, die sich auf wichtige Applikationen Ihrer Belegschaft auswirken


Wie häufig treten Ausfälle bei Providern auf, die diese Art von globalen, stets verfügbaren Einblicken für IT-Teams erforderlich machen? Häufiger als Sie denken. 2019 entdeckte Internet Insights durchschnittlich 20 Netzwerkausfälle pro Tag (in einem Zeitraum von 30 Tagen). 2020 waren es im Durchschnitt 30 Ausfälle pro Tag. Aktuell erkennt Internet Insights durchschnittlich mehr als 50 Ausfälle täglich. Obwohl es die Ausfälle nicht immer in die Schlagzeilen schaffen, geht den Betriebsteams weiterhin wertvolle Zeit für die Fehlerbehebung verloren. Außerdem können die Ausfälle die Umsätze der Unternehmen schmälern.

Figure-1-Daily-Internet-Outages-Internet-Insights.png
Abbildung 1: Globale Internetausfälle pro Tag, die von ThousandEyes Internet Insights erkannt werden.

Unterstützt durch kollektive Intelligenz: globale Einblicke und echte Daten

Woher stammen diese Daten? Die Antwort: kollektive Intelligenz. Damit Unternehmen entsprechende Maßnahmen während eines Ausfalls treffen können, müssen die Daten, die von Internet Insights bereitgestellt werden, zuverlässig und aussagekräftig sein. Um die Zuverlässigkeit zu gewährleisten, basieren die Einblicke auf echten Netzwerkdaten. Die Einblicke sind aussagekräftig, da sie aus einem immensen kollektiven Datensatz stammen. Internet Insights nutzt die kollektive Intelligenz Zehntausender ThousandEyes Cloud Agent- und Enterprise Agent-Tests. Dabei werden Milliarden von täglichen Pfadmessungen digitaler Services analysiert, die sich über Zehntausende von Beobachtungspunkten in Städten weltweit erstrecken.

Warum ist kollektive Intelligenz aus echten Telemetriedaten wichtig? Das Internet ist sehr weitläufig, daher kann es von einem einzelnen Unternehmen nicht überwacht werden. Und auf Crowdsourcing basierende Ausfall-Websites, die auf nicht verifizierten Benutzerangaben basieren, sind unzuverlässig und verzerren möglicherweise die Realität eines Ausfalls. Beispielsweise hat Verizon im August 2021 in einem Newsweek-Artikel auf die Probleme im Zusammenhang mit Crowdsourcing-Daten hingewiesen, die irrtümlicherweise auf einen großflächigen Ausfall hindeuteten. Verizon betonte, dass Crowdsourcing Daten zu „umfangreichen Fehlinformationen“ führen können, die für Service-Provider wertlos sind und neue Probleme bei der Reaktion auf Ausfälle schaffen.

IT-Betriebsteams können jetzt die Erkennung von Netzwerk- und Applikationsausfällen mithilfe des kollektiven Datensatzes von Internet Insights nutzen, um die wichtigsten Fragen in der Anfangsphase eines Ausfalls zu klären, und so die MTTI (Mean Time To Identify) erheblich verkürzen.

  • Handelt es sich um ein unternehmensinternes Problem oder liegt ein Internet- oder Provider-Ausfall vor?
  • Handelt es sich um einen Applikations- und/oder Netzwerkausfall?
  • Welche Gemeinsamkeiten gibt es, die auf die Ursache hinweisen? Beispiel:
    • Zeit: Welche Ereignisse treten parallel auf?
    • Applikations-Provider: Welche Applikationen und wie viele?
    • Netzwerk-Provider: Welche Netzwerke und wie viele?
    • Standorte: Wo sind die Auswirkungen zu beobachten? Am Agent, in den Netzwerken (Pfad) oder auf den Zielen (Server)?
    • Domains: Welche bestimmten Eigenschaften?

In der hybriden Arbeitswelt erfordern neue Herausforderungen neue Lösungen

Nicht nur die Betriebsteams profitieren von Internet Insights. Hybride Arbeit wird in Unternehmen immer mehr zum Standard, wodurch die User immer stärker verteilt sind. Wichtige Applikationen, die produktives Arbeiten ermöglichen, werden oft in der Cloud gehostet oder innerhalb des Netzwerks eines SaaS-Providers. Die zunehmende Komplexität eines solchen Ecosystems hat zur Folge, dass die Identifizierung von Problemen immer komplexer wird. Internet Insights bietet für mehrere Unternehmensbereiche wesentliche Vorteile:

  • Der Servicedesk eines Unternehmens, der zunehmend für Services verantwortlich ist, die außerhalb seiner Kontrolle liegen, kann die MTTR (Mean Time To Resolution) von Helpdesk-Tickets reduzieren, die von der hybriden Belegschaft aufgrund von Netzwerk- oder Applikationsproblemen erstellt werden.
  • Führungskräfte tappen nicht mehr im Dunklen, denn sie verfügen über klare externe Einblicke in die Verfügbarkeit von Applikationen und zwar aus Sicht der Kunden bzw. Belegschaft. Sie erhalten zudem umfassende Einblicke, die eine strategische Governance und Berichterstellung ermöglichen. Auf Fehlinformationen zu Ausfällen, die aus Crowdsourcing-Quellen stammen, können sie souverän reagieren.
  • Es reicht nicht mehr aus, dass Service-Provider und Betriebsteams die allgemeine Verfügbarkeit von Services aufrechterhalten, denn Kunden erwarten, dass die Services überall verfügbar sind. Die Teams können das gesamte Applikationserlebnis beobachten, regionale Probleme und fehlerhafte Rechenzentren isolieren, unnötige Reaktionen auf SEV1-Vorfälle vermeiden (siehe Fallstudie: „Geldtransfers mit Internet Insights“) und Plattformprobleme identifizieren (DNS, SSL usw.).
  • IT-Teams können die Reaktion auf Provider-Ausfälle managen, die MTTI (Mean Time To Innocence) reduzieren und Eskalationen beschleunigen (siehe Fallstudie: „Internet Insights sorgt bei einem globalen Zahlungsabwickler für reibungslose Transaktionen“). Ein weiterer Vorteil ist, dass sie Outage Snapshot Sharelinks nutzen können, um den Nachweis zu erbringen, dass kein Problem vorliegt, und mit der verantwortlichen Stelle zusammenarbeiten, um die MTTR (Mean Time To Repair) zu beeinflussen. Mit historischen Ausfalldaten, die ein Jahr zurückreichen, können sie SLAs von Anbietern durchsetzen, die Auswahl von SaaS-Providern optimieren und die Effizienz der Netzwerkplanung erhöhen.
  • Applikationsteams und Entwickler:innen, die für SaaS-Integrationen verantwortlich sind, können mithilfe der Affected Tests-Funktion in Internet Insights die Auswirkungen eines Ausfalls auf die Testziele feststellen. Damit können sie sich einen umfassenden Überblick über die Auswirkungen von externen Abhängigkeiten auf die Applikations-Performance und die User Experience verschaffen.

Vergangene Ausfälle unterstreichen den Mehrwert von Layer-übergreifender Sichtbarkeit von Applikationsausfällen

Mit Application Outages, einer Erweiterung von Network Outages in Internet Insights, liefern wir dieselbe Layer-übergreifende Visualisierung, die Sie bereits von Testansichten in ThousandEyes kennen und schätzen gelernt haben. Mit dieser Funktion können Sie schnell und einfach feststellen, ob ein Netzwerk- und/oder Applikationsausfall vorliegt.

Warum ist die Layer-übergreifende Sichtbarkeit wichtig? Sehen wir uns einen aktuellen Ausfall an, um zu verstehen, wie die Sichtbarkeit, die Internet Insights: Application Outages bietet, helfen kann. Im Sommer 2021 gab es einige der bisher größten und schwerwiegendsten Ausfälle. Erst vor Kurzem, am 4. Oktober, war Facebook mehr als sieben Stunden nicht erreichbar, als eine Änderung in der Konfiguration einen kritischen Teil des Backbone-Netzwerks lahmlegte, was zu weiteren Problemen einschließlich einer DNS-Serviceunterbrechung führte. Am 22. Juli fiel das DNS bei Akamai aus − mit Auswirkungen auf PlayStation Network, Delta, Costco und UPS, um nur einige betroffene Unternehmen zu nennen. Schon vorher, am 16. Juli, kam es zu einem Zwischenfall bei Akamai, als Prolexic Routed, der Service zur DDoS-Abwehr, den Zugriff auf Kunden-Websites verhinderte. 

Vielleicht erinnern Sie sich noch an den Ausfall bei Fastly am 8. Juni, als ein latenter Softwarefehler von einem Fastly Kunden ausgelöst wurde, als dieser seine CDN-Konfiguration aktualisierte. Fastly zufolge führte diese Änderung dazu, dass die Kundenapplikationen von Fastly nicht auf den Ursprungsservern bereitgestellt wurden. Wichtige Kunden wie Amazon, Reddit, Spotify, eBay, Twitch und Pinterest waren laut Medienberichten betroffen. Sehen wir uns genauer an, wie Internet Insights: Application Outages diesen Ausfall erkannte und warum Layer-übergreifende Sichtbarkeit so wichtig ist.

Figure-2-Internet-Insights-Application-Outages-Timeline-Topology-Fastly.gif
Abbildung 2: Internet Insights: Application Outages − Zeitleiste und Topologieansicht der geografischen Auswirkungen des Ausfalls bei Fastly vom 8. Juni 2021.

Zu Beginn des Ausfalls war die Applikationsschicht von „503 service unavailable“-Fehlern betroffen. In der Netzwerkschicht schien alles normal zu laufen. Beim Klicken durch die Zeitleiste von Application Outages konnten wir beobachten, dass sich die Auswirkungen des Ausfalls auf PayPal, Vimeo und Target ausweiteten. All diese Unternehmen waren betroffen. Anhand der Zielgruppierungen in Internet Insights stellten wir fest, dass das Problem nicht auf geografische Standorte, einzelne Applikationen oder Provider beschränkt war. Und dann gab es noch ein kritisches Detail und zwar eine Gemeinsamkeit bei den Ausfällen bei Applikations-Providern: AS 54113, das Netzwerk von Fastly. Innerhalb von Minuten erhielten wir in Application Outages ein klares Bild des sich weiterentwickelnden Ausfalls und dessen Ursachen.

Figure-3-Internet-Insights-Cross-Layer-Visualization-Fastly.png
Abbildung 3: Die Zeitleistenansicht in Internet Insights und die Layer-übergreifende Visualisierung der Auswirkungen des Ausfalls bei Fastly am 8. Juni 2021.

Application Outages liefert sowohl Applikations- als auch Netzwerkservice-Providern wertvolle Einblicke. Im Rückblick lässt sich sagen, dass sich Fastly mit Internet Insights wahrscheinlich innerhalb von wenigen Minuten einen klaren Überblick über die externe Verfügbarkeit ihrer Services hätte verschaffen können. Applikations-Provider, die sich auf den Service von Fastly verlassen, hätten von dem Wissen profitiert, dass andere Provider in dem besagten Zeitraum ebenfalls betroffen waren. So hätten sie schneller die entsprechenden Schlüsse ziehen und ein Applikationsproblem ausschließen können. Insbesondere wären Provider in der Lage gewesen, zu bestätigen, dass die Servicewiederherstellung das Kundenerlebnis widerspiegelte − durch Überprüfung der Wiederherstellungs-Zeitleisten mit echten Netzwerkdaten aus der kollektiven Intelligenz von ThousandEyes. So hätten sie souveräner auf den Ausfall reagieren können.


In diesem Webinar erfahren Sie, wie Sie mit Internet Insights die Digital Experience im Internet überwachen können


Einführung der geschäftskritischen SaaS-Ausfallerkennung in großem Maßstab

Mit der Verfügbarkeit von Application Outages stellen wir eine neue Schicht von Applikationsfunktionen in Internet Insights bereit. Das ist jedoch längst noch nicht alles. Heute stellen wir die Karte der Internetausfälle vor, eine Erweiterung des Datensatzes von Application Outages. Damit führen wir die Echtzeiterkennung von Applikationsausfällen im großen Stil ein. Mit der Karte, die alle fünf Minuten aktualisiert wird, können Sie schnell feststellen, ob ein aktueller Ausfall bei einem Netzwerk- oder Applikations-Provider, dessen Services Sie nutzen, für das vorliegende Problem verantwortlich ist.

Figure-4-Outage-Map-Application-Outages.png
Abbildung 4: Applikationsausfälle sind jetzt Teil der neuen Karte der Internetausfälle von ThousandEyes.

Wir bei ThousandEyes lösen unser Versprechen ein, eine Lösung für das Internet zu entwickeln, die vergleichbar mit Google Maps ist. Jedoch ist das nur eine von vielen Funktionen, welche die kollektive Intelligenz auf der ThousandEyes-Plattform bietet. ThousandEyes Internet Insights ist eine wichtige Komponente, die umfassende Fragen zu Verfügbarkeit, Performance, globalem Routing und Planungsanforderungen beantwortet.

Internet Insights: Application Outages ist jetzt verfügbar. Tatsächlich wird die Lösung bereits von Kunden genutzt, um die wichtigsten Lücken bei der Sichtbarkeit zu schließen. Teilen Sie uns mit, wie Sie Internet Insights nutzen möchten. Wir helfen Ihnen gerne.


Vereinbaren Sie eine Demo für Internet Insights™, um zu erfahren, wie Sie die Digital Experience im Internet überwachen können


Upgrade your browser to view our website properly.

Please download the latest version of Chrome, Firefox or Microsoft Edge.

More detail