ThousandEyes a publié la troisième édition du Cloud Performance Report, qui examine et compare les données sur les performances et les architectures réseau des trois principaux fournisseurs de cloud public : Amazon Web Services (AWS), Microsoft Azure et Google Cloud. Le rapport analyse et compare ces fournisseurs à l'aide de données chiffrées. Il s'appuie sur des métriques et des mappages réseau collectés pendant une période de trois ans, et fournit une vue globale sur les performances et les comportements des principaux fournisseurs de cloud public.
Depuis la précédente édition de ce rapport en 2019, la consommation de services cloud a augmenté de façon exponentielle. Aujourd'hui, les workloads cloud prennent en charge un très grand nombre de services digitaux. Le moindre problème de performance a donc des répercussions sur la disponibilité d'un plus grand nombre de services et de systèmes dépendants qu'auparavant. Pour comprendre les raisons et l'origine de ces problèmes, les équipes responsables des opérations IT (ITOps) ont besoin de visibilité, alors même que les applications sont de plus en plus distribuées, axées sur des API et dépendantes du cloud. Le Cloud Performance Report a donc pour objet d'aider les entreprises à obtenir une visibilité sur leurs déploiements et dépendances cloud, et non de recommander un fournisseur plutôt qu'un autre.
En d'autres termes, connaître les spécificités du fonctionnement et des éventuelles anomalies du réseau de chaque fournisseur cloud permet aux équipes IT de prendre des décisions plus abouties.
Le Cloud Performance Report présente la manière dont chaque fournisseur gère son réseau ainsi que les différents niveaux de performance auxquels il faut s'attendre. Ce faisant, il répond à plusieurs questions stratégiques :
- Quels points de visibilité permettent de connaître le niveau de performance et de qualité de mes services cloud ?
- Comment planifier en toute confiance le déploiement de piles d'applications résilientes basées dans le cloud ?
- Comment optimiser au mieux mes applications compte tenu de la connectivité et des comportements spécifiques du réseau de mon fournisseur ?
- Quelles questions poser à mon fournisseur cloud pour assurer les performances dont j'ai besoin et pouvoir augmenter ma consommation selon mes besoins ?
L'état actuel des services cloud
Les réseaux cloud publics sont devenus des composants essentiels de l'infrastructure des entreprises, qui utilisent de nombreux services cloud au quotidien. L'adoption massive des services SaaS complique le travail des équipes ITOps chargées de résoudre les problèmes. Face à cet entremêlement complexe d'interdépendances, il est difficile pour les équipes IT de définir des stratégies fiables d'évaluation, de supervision et d'optimisation des applications déployées. L'utilisation des services cloud étant majoritairement centralisée, les conséquences d'une panne du cloud sont nombreuses. Or, les équipes ITOps ou SRE peinent généralement à en identifier l'origine. Sans compter que les entreprises utilisent plusieurs clouds publics, voire une combinaison de clouds publics et privés, qui compliquent encore plus les enquêtes techniques.
Les responsables de l'architecture IT ont besoin d'être rassurés sur la fiabilité de leur fournisseur cloud. Bien sûr, les problèmes de performance ponctuels n'épargnent personne, mais toute la question est d'en comprendre l'origine. Pour déployer les services cloud modulables et distribués modernes, vous devez disposer d'une visibilité à tous les niveaux. Les responsables de l'architecture doivent pouvoir répondre aux questions suivantes :
- Quelle est la connectivité réseau fournie par le fournisseur cloud et quelle performance me permet-elle d'obtenir ?
- Quel est le niveau de peering entre mon fournisseur et les autres fournisseurs de cloud et de services de transit ?
- Quelle est la performance de mon fournisseur entre les régions cloud qu'il couvre et entre les zones de disponibilité de ses services ?
Conclusions du rapport
Voici quelques points importants qui sont détaillés dans le Cloud Performance Report.
Conclusion 1 : Les décisions des fournisseurs cloud concernant leur architecture ont des répercussions sur les performances et les opérations de leurs clients. Les architectures des trois principaux fournisseurs cloud diffèrent dans leur manière de mettre en avant les endpoints de service, de masquer les chemins réseau sous-jacents et d'exploiter les infrastructures partagées, et ces différences ont des conséquences pour leurs clients.
Conclusion 2 : Si les performances réseau sont généralement bonnes dans les régions cloud des marchés matures, les problèmes ne sont pas rares dans d'autres régions du monde, comme l'Asie. Depuis 2019, les trois fournisseurs ont largement optimisé les performances de leurs réseaux. Nous avons toutefois constaté des variations de latence importantes.
Conclusion 3 : Tous les fournisseurs cloud rencontrent des problèmes de performance dus au trafic provenant des utilisateurs de Chine continentale. La traversée du Great Firewall de Chine a en effet des répercussions, avec perte de paquets et diminution de la latence. Hong Kong, qui semblait jusqu'ici épargnée par le Great Firewall, connaît une forte augmentation des pertes de paquets depuis 2021.
Conclusion 4 : La performance entre les zones de disponibilité est très bonne pour les trois fournisseurs. La latence est en effet inférieure au seuil des 2 millisecondes dans la plupart des régions. À noter que certains fournisseurs sont plus régulièrement en dessous du seuil de latence que les autres.
Conclusion 5 : Le trafic circulant entre les principaux fournisseurs cloud est généralement acheminé directement, sans passer par Internet. Cela témoigne de la qualité des connexions entre ces fournisseurs, mais aussi du fait que les performances entre clouds rivalisent parfois avec les performances intracloud au sein de régions similaires.
Pour en savoir plus, lisez le Cloud Performance Report.
Créer une architecture conçue pour la performance cloud
Si les performances du cloud ont pris une telle importance, c'est parce que les applications modernes en dépendent. De même, les piles d'applications modulables doivent disposer d'une faible latence. Le cloud se retrouve au centre d'un réseau d'applications distribuées prenant en charge les services digitaux, avec leurs interdépendances, leurs microservices et leurs API SaaS. De leur côté, les responsables de l'architecture IT s'efforcent de concevoir des services à haute disponibilité, résilients et à faibles coûts en vue de déployer des piles d'applications multi-instances à équilibrage de charge, des modèles de réplications de données géo redondants et des architectures multi régions.
Les performances du réseau cloud ne sont donc pas mesurées en se basant sur une seule métrique, mais en observant plusieurs points de données collectés à l'échelle de l'infrastructure. La connectivité entre régions, par exemple, peut considérablement varier en fonction de la métrique réseau, du fournisseur et de la zone géographique. Pour planifier les déploiements de nouvelles applications, il est essentiel de connaître les performances des interconnexions pertinentes.
Le jeu de données utilisé dans le rapport inclut des métriques sur la perte, la latence, la gigue, la MTU, ainsi que des données sur la topologie du chemin aller et retour. Il fournit quatre catégories de mesures : pour l'utilisateur final, entre régions, entre zones de disponibilité et pour le multi cloud. Les différents cas d'usage qui affectent les clients et les opérateurs d'applications cloud sont ainsi couverts.
Utilisateur final
Comme l'Internet public joue beaucoup sur les performances des applications cloud, ces mesures fournissent deux types d'informations. D'abord, elles indiquent aux clients disposant de services de plateforme et IaaS gérés dans le cloud comment les différents emplacements des fournisseurs cloud sont connectés au réseau Internet étendu. Ensuite, elles leur donnent des indications sur les performances de bout en bout des chemins réseau de ces différents emplacements.
La visibilité permet aux responsables de l'architecture qui déploient de nouveaux services de répondre à d'importantes questions : « Combien de temps le trafic reste-t-il sur l'Internet public avant d'entrer sur le réseau du fournisseur cloud ? », « Les chemins Internet plus longs affectent-ils les performances globales ? ». Même si les fournisseurs cloud améliorent constamment leurs réseaux et leur peering, il existe des écarts de performance entre les régions. Connaître ces informations permet de prendre de meilleures décisions en matière de planification et de déploiement des applications.
Mesures multi zones
Le trafic entre les zones de disponibilité a été mesuré pour les trois fournisseurs cloud. Une architecture cloud multi zone est généralement utilisée pour assurer la résilience des applications. Les responsables de l'architecture déploient des piles d'applications hautement redondantes et équilibrées en charge, réparties dans différentes zones de disponibilité physiques. Lorsqu'une défaillance survient dans une zone de disponibilité, l'application reste disponible. Une conception standard de type « actif-actif » peut par exemple inclure plusieurs instances de la même pile d'applications réparties dans différentes zones de disponibilité. Les données sont synchronisées en temps réel entre ces instances. Dans ce scénario, chaque milliseconde compte, car la latence s'accumule au cours de la session de l'application.
Les fournisseurs s'efforcent généralement de ramener les délais de réponse à moins de 2 millisecondes entre les zones, mais des variations sont possibles. Grâce à ses données, ThousandEyes a pu évaluer le nombre et la nature de ces variations et des anomalies pour chaque fournisseur cloud analysé. Nous avons constaté des variations non seulement au niveau de la latence, mais également pour d'autres critères comme la fréquence et la durée.
Mesures multi régions
Les architectures d'applications multi régions sont principalement utilisées en cas de problèmes de latence. En d'autres termes, plus le déploiement des applications et des contenus se rapproche de l'utilisateur, plus l'expérience de ce dernier est satisfaisante. Il est possible de réduire la latence des applications en rapprochant les services back-end des services front-end, et en synchronisant les données entre les régions.
Les entreprises ont d'autres motivations que les cas d'usages techniques pour utiliser la connectivité multi région. Elles peuvent par exemple avoir besoin de déployer des pods d'applications de type « actif/veille » répartis dans différentes zones géographiques, ou de stocker des données client dans une zone géographique et pas dans une autre.
Dans ces scénarios, la performance du réseau du fournisseur cloud est cruciale. D'après notre analyse, la performance réseau est fiable dans les régions cloud des marchés les plus matures, mais elle l'est bien moins dans les autres régions (notamment en Asie et en Océanie). L'analyse de ce jeu de données révèle que les fournisseurs cloud ont optimisé leurs réseaux dans différentes régions au cours de la période de trois ans et que les fluctuations de latence sont fréquentes.
Mesures multi cloud
Les applications modernes reposent souvent sur plusieurs clouds publics ou privés, soit par choix, soit en raison des dépendances aux services tiers des réseaux des différents fournisseurs cloud. Les applications qui utilisent des frameworks modulaires sont axées sur les API, ce qui standardise les communications entre API dans le flux de ces applications. Si l'API d'un fournisseur cloud communique avec l'API d'un autre fournisseur cloud, vous devez connaître le niveau de fiabilité et de performance de la connectivité réseau.
Les équipes qui planifient des déploiements à l'aide de services cloud ont besoin de savoir si l'interconnectivité est meilleure entre deux fournisseurs cloud plutôt que deux autres à des emplacements spécifiques ou si les latences entre régions de différents fournisseurs répondent à leurs besoins. Nos données révèlent que le trafic circulant entre deux fournisseurs cloud est généralement transmis directement, sans passer par l'Internet public, témoignant de l'efficacité du peering entre les principaux fournisseurs cloud. Cette interconnectivité est bénéfique pour les performances du trafic multi cloud.
Principaux enseignements
Notre analyse des données cloud collectées révèle trois informations clés. Les responsables I&O doivent en tenir compte lorsqu'ils prévoient et gèrent des déploiements et des dépendances cloud.
Les problèmes de performance au niveau des services cloud sont courants. Les fournisseurs cloud s'efforcent constamment de développer leur présence et leurs fonctionnalités à l'échelle mondiale. La maintenance de routine fait partie de leur quotidien, et aucun n'échappe aux difficultés. Les interruptions de grande ampleur ne passent pas inaperçues, mais les problèmes de performance et de disponibilité de moindre échelle, plus fréquents, sont difficiles à repérer et à identifier alors qu'ils ont des répercussions majeures sur l'expérience utilisateur. Chaque équipe doit donc prévoir une façon de gérer les problèmes, petits ou grands, dans sa stratégie de gestion du cloud.
Les fournisseurs cloud gèrent leurs réseaux en fonction de leurs priorités et de leurs préférences. La manière dont ils conçoivent et font évoluer leurs réseaux ne correspond pas nécessairement aux besoins de chaque client. Leurs méthodes d'optimisation et de hiérarchisation du trafic sur les réseaux partagés diffèrent également. Les responsables IT doivent connaître ces préférences et ces hiérarchisations, et réfléchir aux conséquences potentielles sur leur environnement.
La stabilité n'existe pas dans le cloud. Les réseaux cloud évoluent constamment, car les fournisseurs cherchent en permanence à développer et à étendre leur infrastructure en ajoutant de nouveaux emplacements, de nouveaux services et de nouvelles connectivités. La performance d'un fournisseur dans une région une année donnée ne sera pas la même l'année suivante. Votre stratégie opérationnelle doit tenir compte du dynamisme et de l'évolution constante de ces réseaux. Vous devez disposer d'une visibilité permanente sur les performances, plutôt que de n'avoir accès qu'à des aperçus ponctuels qui ne reflètent pas la situation en temps réel.