Análisis de caídas

Las caídas de Internet con mayor impacto de 2022 y cómo prepararse para las que vendrán en 2023

Por Internet Research Team
| | 12 minutos de lectura

Esta publicación también está disponible para: United States (English), Germany (Deutsch), France (Français), Italy (Italiano) & Japan (日本語).

Resumen

Comenzamos el año echando un vistazo a las caídas de Internet que más afectaron a las operaciones empresariales en 2022, ya fuera por vuelos cancelados, fallos de conectividad o problemas de comunicación. Además, le contaremos qué pueden hacer sus equipos de TI para estar más preparados de cara a afrontar estas situaciones en 2023.


Todos los días se producen caídas o cortes de Internet, grandes o pequeños, en todo el mundo. En 2022 se dieron caídas tan molestas como siempre, que fueron responsables de malas experiencias de usuario y que paralizaron las operaciones empresariales en diversas ocasiones. El año pasado, ThousandEyes registró miles de incidentes por cortes de Internet a través de nuestros datos independientes sobre la red, que nos permiten ver claramente lo que pasa en Internet y en la nube. En ThousandEyes proporcionamos esta información a nuestros clientes para que puedan organizarse de forma proactiva y mitigar el tiempo de inactividad en la medida de lo posible. A partir de ese trabajo, hemos creado esta cronología que resume algunos de los incidentes que hemos observado y lo que hemos aprendido de ellos. Nuestro objetivo es ayudarle a mantenerse conectado y operativo en 2023.


British Airways, 25 de febrero de 2022

¿Qué ocurrió?: la caída de los servicios online de British Airways provocó cientos de miles de cancelaciones de vuelos e caídas en las operaciones de la aerolínea, incluído su centro de Londres-Heathrow, el aeropuerto internacional con más tráfico del mundo. Nuestra monitorización muestra que este incidente se produjo porque los servidores de aplicaciones dejaron de responder, no debido a un problema de red.

Impacto geográfico: mundial → Lea el análisis de la caída

Aprendizaje: diseñar backends que eviten puntos únicos de fallo puede reducir la probabilidad de que se produzca una cadena de acontecimientos como la que experimentó British Airways, que dejó en tierra a su flota entera.

Twitter, 28 de marzo de 2022

¿Qué ocurrió?: Twitter quedó inaccesible después de que un proveedor ruso de Internet y comunicaciones por satélite hiciera black hole con el tráfico al anunciar uno de los prefijos de Twitter. Los errores de configuración de BGP son frecuentes. Sin embargo, también pueden utilizarse para bloquear tráfico de forma selectiva, así que no siempre es fácil saber si se trata de una situación accidental o intencionada. 

Impacto geográfico: mundial → Lea el análisis de la caída

Aprendizaje: aunque su empresa tenga implementada una RPKI para defenderse de las amenazas BGP, es posible que su empresa de telecomunicaciones no la tenga. Esto es algo que debe tener en cuenta a la hora de elegir a su proveedor de servicios de Internet (ISP)

Atlassian, 5 de abril de 2022

¿Qué ocurrió?: Jira, Confluence y OpsGenie son tres productos de Atlassian en los que confían muchos equipos de desarrolladores. Debido a un error de script de mantenimiento, estos servicios experimentaron una caída de varios días que afectó a unos 400 clientes de Atlassian. A pesar de que el subconjunto de clientes afectados fue relativamente pequeño, las actualizaciones genéricas presentadas en la página de estado de Atlassian provocaron confusión en aquellos que no estaban experimentando la incidencia.

Impacto geográfico: mundial → Lea el análisis de la caída

Aprendizaje: no se pueden utilizar únicamente  las páginas de estado para comunicar acerca de los cortes de suministro, ya que esto puede generar gran preocupación en los clientes, que pueden llegar a estar horas o incluso días sin una respuesta sobre la gravedad de  una caída y de cuándo se solucionará.

Rogers Communications, 8 de julio de 2022

¿Qué ocurrió?: Rogers Communications retiró sus prefijos debido a un problema de enrutamiento interno, lo que le dejó inaccesible por Internet durante casi 24 horas. Esta caída afectó a millones de usuarios y a muchos servicios fundamentales de todo Canadá.

Impacto geográfico: Norteamérica → Lea el análisis de la caída

Aprendizaje: ningún proveedor es inmune a las caídas de suministro, por grande que sea. Así pues, cuando se trate de servicios fundamentales, como hospitales y bancos, tenga preparado un proveedor de red como back-up que pueda disminuir la duración y el alcance de la caída.

Internet-outages-disrupted-2022-prepare-2023-figure-1.png
Figura 1. Pérdida de paquetes observada en las ubicaciones que se conectan a un cliente de Rogers

Amazon Web Services, 8 de julio de 2022

¿Qué ocurrió?: esta caída de AWS fue causada por un fallo de alimentación en la zona de disponibilidad y afectó a aplicaciones como Webex, Okta y Splunk. Sin embargo, no todos los usuarios o servicios se vieron afectados por igual, ya que los componentes de Webex ubicados en los centros de datos de Cisco siguieron operativos.

Impacto geográfico: mundial → Lea el análisis de la caída

Aprendizaje: asegúrese de contar con una arquitectura de zona de disponibilidad redundante, ya que suelen estar activas/activas y eliminan la necesidad de ejecutar un plan de back-up.

Internet-outages-disrupted-2022-prepare-2023-figure-2.png
Figura 2. Interfaces afectadas en la red AWS

Google, 9 de agosto de 2022

¿Qué ocurrió?: Google Search y Google Maps dejaron de estar disponibles para los usuarios de todo el mundo; quienes intentaban acceder a los servicios recibían mensajes de error. Ningún usuario podía cargar los sites ni ejecutar funciones, estuviera en Estados Unidos, Australia, Japón o Sudáfrica. Las aplicaciones que dependen del funcionamiento del software de Google también dejaron de funcionar durante este corte tan poco frecuente.

Impacto geográfico: mundial → Explore esta caída en ThousandEyes | Lea el análisis de la caída

Aprendizaje: es importante no monitorizar únicamente los frontends de la aplicación, sino también las dependencias fundamentales para el rendimiento que impulsan la aplicación.

Internet-outages-disrupted-2022-prepare-2023-figure-3.png
Figura 3. Una caída de suministro impide el acceso a las propiedades de los dominios de Google en varios países

Zoom, 15 de septiembre de 2022

¿Qué ocurrió?: la breve caída afectó a usuarios de todo el mundo, que no pudieron conectarse ni participar en reuniones de Zoom. Las citas médicas online o las entrevistas de trabajo programadas fueron solo dos de los ámbitos en que los usuarios se vieron afectados por este problema de la aplicación.

Impacto geográfico: mundial → Lea el análisis de la caída

Aprendizaje: puede que sea la propia aplicación la que esté causando problemas y no la red. Saber cuál es la causa puede evitar confusiones y acusaciones durante el análisis del origen del problema.

Zscaler, 25 de octubre de 2022

¿Qué ocurrió?: los clientes que utilizan el acceso a Internet de Zscaler (ZIA) experimentaron fallos de conectividad o alta latencia al llegar a los proxies de Zscaler. Puesto que las implementaciones de Secure Service Edge (SSE) suelen representar el tráfico web y las herramientas empresariales y SaaS fundamentales, Salesforce, ServiceNow y Microsoft 365 podrían haber quedado inaccesibles para algunos clientes por este incidente.

Impacto geográfico: mundial → Lea el análisis de la caída

Aprendizaje: SSE es otra pieza del rompecabezas de Internet a tener en cuenta cuando las cosas van mal. Disponer de datos independientes de la red en situaciones complejas como esta puede permitir una atribución y una remediación más rápidas.

Internet-outages-disrupted-2022-prepare-2023-figure-4.png
Figura 4. El tráfico al proxy Zscaler se dispara al 100 % de pérdida de paquetes

WhatsApp, 25 de octubre de 2022

¿Qué ocurrió?: la caída de dos horas dejó a los usuarios de WhatsApp sin poder enviar ni recibir mensajes y estuvo relacionada con fallos de servicio de la aplicación backend más que con un fallo de la red. El incidente, que se produjo en hora punta en la India, donde la aplicación tiene cientos de millones de usuarios, dejó a la gente sin poder comunicarse por asuntos personales o de trabajo.

Impacto geográfico: mundial → Lea el análisis de la caída

Aprendizaje: un negocio de SaaS próspero se basa en la mejora continua, por lo que es necesario un bucle de feedback inmediato que permita rectificar rápidamente los errores. Disponer de datos que ayuden a descartar la responsabilidad de la red cuando se produce un error en el sistema de producción puede acelerar la resolución de problemas técnicos.

Amazon Web Services, 5 de diciembre de 2022

¿Qué ocurrió?: ThousandEyes observó una pérdida de paquetes significativa entre dos ubicaciones internacionales y la región us-east-2 de AWS durante más de una hora. El incidente afectó a usuarios finales que se conectaban a través de sus proveedores de servicios de Internet a los servicios del proveedor de infraestructura en la nube de esa región.

Impacto geográfico: mundial → Explore esta caída en ThousandEyes | Lea el análisis de la caída

Aprendizaje: con la nube pública, es importante no monitorizar únicamente las aplicaciones en sí, sino también los componentes de la infraestructura en la nube, incluidas las regiones individuales de la nube y las zonas de disponibilidad de la nube, así como cualquier servicio de software dependiente de la nube.

Los periodos de inactividad son inevitables y las caídas de suministro son una realidad en todos los proveedores de servicios de Internet y en todos los proveedores de la nube. No obstante, si se esfuerza por crear una infraestructura resistente, podrá proteger sus aplicaciones de los efectos negativos y mejorar la experiencia de sus usuarios.


No se pierda nuestro webinar "Las principales caídas de suministro de 2022: análisis y conclusiones", para escuchar reflexiones de expertos acerca de las principales caídas del año pasado y acerca de cómo puede prevenirlas o estar preparado para enfrentarse a ellas este año.


Upgrade your browser to view our website properly.

Please download the latest version of Chrome, Firefox or Microsoft Edge.

More detail