Apagón de AWS: lecciones para una industria telco que necesita resiliencia y multicloud

La caída de los servicios de AWS volvieron a mostrar la necesidad de contar con infraestructuras resilientes. También de encarar nuevas formas de trabajo

¿Qué enseñanzas dejó para la industria de las telecomunicaciones el apagón de AWS? Que es necesario contar con soporte multicloud en primer lugar. Que cuando se habla de infraestructuras resilientes hay que tomarse en serio la expresión más allá de los eslóganes marketineros, y que la colaboración del ecosistema a nivel global tendrá que formar parte del manual de buenas prácticas de cualquier empresa que se precie.

El lunes 20 de octubre AWS sufrió un fallo que comenzó en la región US-EAST-1, de Virginia, Estados Unidos. Quedaron fuera de servicio unas 2.000 empresas y plataformas digitales, desde Fortnite hasta Snapchat, Prime Video y Duolingo. También tuvieron problemas operadoras de telecomunicaciones como Verizon, Vodafone, Orange, Telefónica, entre otras.

Block out – Crédito: Unsplash/Dastan Eraliev

El problema se produjo en la infraestructura propia de AWS. “Determinamos que el evento fue el resultado de problemas de resolución de DNS para los puntos finales del servicio DynamoDB regional y mitigamos el problema a las 2:24 a. m. PDT”, dijo la compañía en su web tres días más tarde.

Una falla en el sistema de nombres y dominios de Internet (DNS, por sus siglas en inglés) no suele ser algo habitual aunque puede ocurrir. Llama la atención que esto le haya sucedido a la principal proveedora de servicios en la nube del mundo. Junto con Google y Microsoft concentran el 70 por ciento de estas prestaciones a nivel global.

“Esta falla en el DNS en realidad ocasionó una falla en cascada de otros servicios que son los que terminan causando el panorama de fallas generalizadas de diferentes sitios y plataformas”, explicó a TeleSemana.com, Carlos Martínez, gerente del área técnica de LACNIC que ante la consulta sobre si esto será recurrente a medida que se extienda la digitalización señaló que será “inevitable”.

Lo inevitable de la disrupción

“Creo que las fallas son inevitables en cualquier sistema complejo. En la medida que más y más plataformas se mueven a unos pocos proveedores de servicios en la nube, aumenta la probabilidad de que una falla en una nube afecte a muchísimas plataformas”, subrayó Martínez. Advirtió, no obstante, que “la mayor digitalización no aumenta la probabilidad de las fallas, pero sí aumenta la disrupción en la sociedad cuando estas fallas ocurren”. En otras palabras, sufriremos estos incidentes del mismo modo en que sufrimos cuando nos quedamos sin luz.

Si esto es así, qué buenas prácticas pueden incorporar las empresas -incluidas las de telecomunicaciones- para prevenir o, al menos, minimizar estos impactos. El experto técnico de LACNIC aseguró que “todos quienes alojamos servicios en la nube debemos hacer un análisis de riesgo y ajustar nuestra ingeniería para no depender de una nube sola, ya sea usando las diferentes “regiones” de los cloud providers o incluso pensando estrategias multicloud”.  Y añadió que “ensayar estos planes es clave también, hay que probar estas estrategias para validarlas”.

Imagen creada con ChatGPT

Las palabras de Martínez son contundentes. Y llevan a repasar las recomendaciones que las mismas proveedoras de servicios cloud vienen realizando desde hace años. Que la estrategia multicloud es la más conveniente para brindar continuidad del negocio. Pero no es la única. La redundancia debe ser también geográfico de tal modo que sea posible repartir cargas entre distintas regiones de nube y proveedores para minimizar ese riesgo.

La resiliencia de la infraestructura digital es otro punto a atender puesto que es un factor determinante para la continuidad operativa. En este sentido, resulta fundamental contar con arquitecturas de respaldo y procedimientos failover -que también buscan llevar los procesos automáticos o manuales de un sistema principal a uno secundario- que ya no pueden ser vistos como una opción sino como una implementación básica.

Buenas prácticas

La caída de AWS demostró que la nube no es infalible, y que como infraestructura digital crítica, también exige estar sometida a estándares ¿y regulaciones? para garantizar su funcionamiento constante. Sin entrar en profundidad en este tema, la eventual recurrencia de contingencias de este tipo obligará a los actores a tomar otro tipo de medidas para responder a las exigencias de sus clientes.

Cooperación – Unsplash

La estrategia multinube, concepto inaugurado en la industria por IBM y sobre el que viene poniendo el foco con insistencia continua Oracle, también se propone como un requisito que no puede ser alternativo. Esta última compañía no ha dudado en sellar alianzas con AWS, Microsoft Azure y Google Cloud para llevarle garantía y tranquilidad a sus usuarios. Estrategia que recientemente también selló con Open AI, como para dar cuenta de cómo va ampliando esa cooperación. Llevado al terreno de las telecomunicaciones, los costos que supone contar con una estrategia multicloud pueden redundar en mayores beneficios si esos clientes tienen la garantía de que no soportarán cortes o demoras en sus procesos.

Avanzar en una decisión de este tipo también exige su compromiso. Que sea más costosa no lo es sólo en términos monetarios sino, básicamente, en términos técnicos: exige trabajar en la integración, la gestión y el monitoreo simultáneo como paso para garantizar la interoperabilidad. Y en paralelo, capacitar a los equipos a cargo de esta tarea que, además de incorporar nuevos conocimientos técnicos también tendrán que incorporar nuevas formas de trabajar. En otras palabras, encarar otra cultura de trabajo.

Esto exigirá nuevas practicas dentro de las empresas pero también hacia afuera. Tal como sucede en el mundo de la ciberseguridad -y una falla, de cualquier tipo es también una falla de seguridad-, el ecosistema demandará cada vez más prácticas colaborativas. Un proceso de cambio que ya no puede esperar más en un escenario que, en el terreno de las telecomunicaciones, avanza hacia la hiperconectividad total.

Tu opinión es importante ¿Qué te ha parecido este contenido?

2 0
Andrea Catalano es la Editora en Jefe de TeleSemana.com. Andrea es periodista y licenciada en Comunicación Social por la Universidad Nacional de Cuyo. Desde hace más de 20 años sigue al sector de las tecnologías de la información y las comunicaciones y su impacto en la economía y la sociedad. A lo largo de su carrera se ha desempeñado en prensa escrita, on line, radio y televisión.