Caída de Amazon Web Services: cuál fue el error que generó el colapso mundial de internet

Una falla en la infraestructura de Amazon Web Services (AWS) provocó este lunes problemas globales en servicios digitales y plataformas de pago, desde Mercado Pago y aplicaciones bancarias hasta servicios online como Netflix, Microsoft 365, YouTube, Facebook y Snapchat.

La compañía dio una explicación oficial: hubo un error técnico dentro de su sistema de nombres de dominio (DNS), que afectó a una base de datos muy importante de la compañía, DynamoDB, y derivó en fallas en cadena.

AWS informó que el problema comenzó durante la madrugada del lunes en su región de Virginia del Norte (us-east-1), una de las más grandes y críticas de su red global de centros de datos. Según el comunicado oficial, se detectaron errores en la resolución DNS de los endpoints de la API de DynamoDB, un servicio de base de datos en la nube que usa todo el mundo online vinculado a la nube de Amazon.

Este fallo fue absolutamente crítico: impidió que las aplicaciones pudieran conectarse a esa base, generando fallas que se propagaron a otros sistemas.

Qué es DynamoDB, los DNS y por qué fue tan grande la caída

Las consecuencias de la falla se sintieron en todo el planeta. (Foto: EFE)Las consecuencias de la falla se sintieron en todo el planeta. (Foto: EFE)

DynamoDB es una base de datos NoSQL que almacena y consulta información en forma masiva y muy rápida. Es utilizada por miles de empresas para manejar desde sesiones de usuarios hasta catálogos de productos o colas de trabajo.

Su acceso se realiza a través de una API (interfaz de programación de aplicaciones), una especie de “puerta de entrada” que permite que distintos programas se comuniquen entre sí de forma automatizada.

El DNS (Domain Name System) es el sistema que traduce nombres legibles (como clarin.com) a direcciones IP, que son las que realmente usan las computadoras para conectarse entre sí (por ejemplo, 104.18.7.141). Si el DNS falla, el nombre deja de “resolverse” y los programas no pueden “encontrar” a dónde enviar sus solicitudes, aunque el servicio esté activo.

Por eso, cuando AWS perdió momentáneamente la capacidad de resolver los nombres de las APIs de DynamoDB, muchas aplicaciones dejaron de funcionar. Una API (sigla de Application Programming Interface) es un conjunto de reglas que permite que dos programas se comuniquen entre sí.

En lugar de que un usuario interactúe directamente con una aplicación, una API actúa como un “puente” que permite que distintos sistemas intercambien datos o funciones de forma automática. Por ejemplo, cuando una app de pagos se conecta con un banco o con un servicio en la nube para validar una transacción, lo hace a través de una API.

Entonces, la base seguía disponible, pero los servicios que dependen de ella no sabían cómo alcanzarla. Esa desconexión provocó errores en cascada en otros sistemas de AWS, entre ellos EC2, la plataforma que permite lanzar servidores virtuales.

Precisamente por eso fallaban aplicaciones como Mercado Pago: cuando un usuario quiere mandarle dinero a otro, usa una API, esta especie de puente, para “hablar” entre una dirección y otra. Al estar caída la base de datos, no había referencia para que una transacción fuese exitosa.

Qué significa para usuarios y empresas

Foto: APFoto: AP

El impacto se sintió en todo el mundo: servicios como Netflix, Microsoft 365, YouTube, Snapchat o Fortnite registraron interrupciones, y en Argentina muchos usuarios reportaron problemas para pagar con billeteras virtuales o acceder a apps cotidianas. No fue que esas plataformas “se cayeron” por sí mismas, sino que parte de su infraestructura en la nube se volvió momentáneamente inaccesible.

En un escenario típico, un sistema de pagos o una aplicación de video depende de varios microservicios que se comunican entre sí: autenticación, verificación, bases de datos, almacenamiento.

Si alguno de esos puntos usa DynamoDB o cualquier otro servicio alojado en la región afectada, y el DNS no logra resolverlo, toda la cadena se interrumpe. En casos como Mercado Pago, esto puede traducirse en operaciones que no se completan o saldos que no se actualizan a tiempo.

AWS aclaró que el problema de DNS fue mitigado dos horas después del inicio del incidente, aunque algunos clientes siguieron reportando errores al lanzar nuevas instancias EC2. La empresa aseguró que trabajaba para restaurar completamente el servicio y estabilizar la región.

El episodio deja una lección evidente: gran parte de la infraestructura digital mundial depende de un puñado de proveedores de nube. Cuando uno de ellos (como AWS) sufre una falla técnica, los efectos se sienten en cadena en miles de servicios que usamos todos los días.

La nube es confiable, pero no infalible, motivo por el cual siempre se recomienda que, más allá de la comodidad y elasticidad que brinda el cloud computing, las grandes empresas deberían tener una redundancia local, dentro de sus sistemas.

Fuente: www.clarin.com

Artículos Relacionados

Volver al botón superior