Respondiendo a la reciente interrupción de AWS: cómo Open LMS garantizó la resiliencia del servicio

Entre el 19 y el 20 de octubre de 2025, AWS experimentó una interrupción significativa en uno de sus mayores data centers en Estados Unidos. El incidente afectó varios de los servicios centrales de Amazon en la nube, incluidos sistemas de bases de datos, de cómputo y de balanceo de carga, de los cuales dependen numerosas organizaciones para gestionar sus flujos de trabajo y operaciones diarias.

Dado que Open LMS utiliza la infraestructura de AWS, este evento afectó temporalmente algunas partes de nuestro entorno alojado. Queremos compartir lo que ocurrió, cómo impactó a nuestros clientes y cómo nuestros equipos trabajaron de manera coordinada para restablecer la estabilidad lo más rápido posible.

Qué ocurrió:

La interrupción comenzó en la noche del 19 de octubre, cuando AWS enfrentó una falla en el sistema interno de gestión de DNS de DynamoDB; en esencia, un problema relacionado con cómo DynamoDB actualiza y administra sus propios registros internos de servicio. Una condición de carrera de software poco común provocó que esos registros se eliminaran por error, lo que impidió que otros servicios de AWS se conectaran a DynamoDB.

Ese único problema desencadenó una reacción en cadena en otros servicios de AWS:

  • DynamoDB: La falla de DNS dejó inaccesible a DynamoDB durante varias horas, afectando tanto a clientes como a servicios internos de AWS.
  • EC2: Como EC2 depende de DynamoDB para ciertos procesos internos, el lanzamiento de nuevas instancias falló o se vio fuertemente limitado. Aunque los servidores existentes continuaron funcionando con normalidad, los intentos de añadir nuevos nodos web se retrasaron, generando momentos de bajo rendimiento e interrupciones intermitentes.
  • NLB (Network Load Balancer): El retraso en el lanzamiento de instancias EC2 afectó los health checks del NLB, provocando que algunos destinos internos entraran y salieran del servicio. Esto generó un aumento en los errores de conexión y tiempos de respuesta más lentos para algunos clientes.

LEER MÁS | “El enfoque riguroso de Open LMS en la gestión de plugins garantiza seguridad, cumplimiento y colaboración

Los equipos de Infrastructure y DevOps de Open LMS identificaron rápidamente que se trataba de un problema de AWS y activaron inmediatamente los protocolos internos de respuesta.

Impacto en Open LMS

Durante el incidente, muchos clientes de Open LMS experimentaron gateway timeouts, menor rendimiento en sus sitios y/o pérdida temporal de acceso. Una vez AWS resolvió la falla de DNS en DynamoDB, la disponibilidad de los sitios comenzó a mejorar, aunque el rendimiento continuó fluctuando mientras AWS avanzaba en la recuperación de EC2 y NLB.

Los equipos de Infrastructure y DevOps de Open LMS identificaron rápidamente que el origen del problema estaba en AWS y activaron de inmediato nuestros protocolos internos de respuesta. Monitoreamos de cerca el estado de los sitios, ajustamos la capacidad de escalamiento según fue necesario y trabajamos junto a nuestros equipos de Customer Success y Support para mantener informados y acompañados a los clientes durante todo el evento.

Incluso ante una interrupción global compleja, nuestro enfoque se mantuvo claro: restablecer el servicio a nuestros clientes lo antes posible.

LECTURA RELACIONADA | “Evita filtraciones de datos y sanciones: 3 claves para equilibrar la privacidad de estudiantes y empleados en el aprendizaje digital

Este incidente en la nube reafirmó que los sistemas de Open LMS, y más importante aún, nuestro equipo humano, están preparados para enfrentar interrupciones inesperadas.

Resiliencia en acción

El diseño redundante y tolerante a fallos de la arquitectura de Open LMS permitió que nuestros servicios se recuperaran más de una hora antes de que AWS informara la recuperación total de la región afectada. Para las 2:00 p. m. ET, casi todos los sitios alojados por Open LMS estaban nuevamente estables y totalmente operativos, mientras que otros sistemas LMS seguían fuera de servicio. Gracias a la infraestructura global de Open LMS, solo los sitios de Norteamérica se vieron afectados por la interrupción. Los clientes en regiones como APAC y EMEA continuaron operando con normalidad.

Una base resiliente

La plataforma Open LMS está construida sobre una arquitectura cloud-native, diseñada para brindar flexibilidad y tolerancia a fallos. Cada componente del servicio —incluidos servidores de aplicación, balanceadores de carga y sistemas de datos— se monitoriza de forma continua y se distribuye entre múltiples zonas de disponibilidad. Los health checks automatizados, las reglas de escalamiento y los sistemas de gestión de tráfico permiten que nuestra plataforma se adapte rápidamente ante problemas en servicios externos.

Este enfoque por capas hacia la resiliencia permite que Open LMS mantenga la estabilidad y restaure el rendimiento con rapidez, incluso durante incidentes de gran escala en la nube.

Si bien las interrupciones de proveedores externos están fuera de nuestro control, nuestra preparación y respuesta no lo están. Este evento reafirmó que los sistemas de Open LMS —y, más importante aún, nuestro equipo humano— están preparados para enfrentar interrupciones inesperadas.

Nuestro compromiso contigo

En Open LMS sabemos que nuestra plataforma desempeña un papel fundamental para educadores, estudiantes y organizaciones de todo el mundo. Cada minuto en línea importa. Durante esta interrupción, nuestros equipos de Infrastructure, DevOps, Support y Customer Success trabajaron de manera coordinada para comunicarse con total transparencia y resolver los inconvenientes con rapidez. Esta experiencia reforzó una verdad simple: la resiliencia no solo depende de la tecnología; también depende de las personas que la hacen posible.

Open LMS mantiene un firme compromiso de ofrecer una plataforma de aprendizaje confiable y de clase mundial que apoye la formación en cualquier momento y en cualquier lugar, justo cuando más lo necesitas. Realiza un recorrido por nuestro LMS hoy mismo o solicita una demostración para conocer cómo podemos apoyarte.
Darmeisha Bell
acerca del autor
Darmeisha BellTechnical Project Manager, Open LMS

Darmeisha Bell es la Technical Project Manager del equipo de Cloud Services en Open LMS. Aporta más de 15 años de experiencia en roles técnicos, incluyendo gestión de proyectos y administración senior de sistemas. En su función, Darmeisha se asegura de que los proyectos se alineen con los requisitos de ingeniería y TI para brindar el mejor soporte posible a las necesidades de los clientes. Además de sus responsabilidades de gestión de proyectos, también realiza tareas prácticas de ingeniería de sistemas, facilita las actualizaciones gestionadas de los sitios, lidera el proceso anual de auditoría de seguridad y contribuye al mantenimiento de las certificaciones de seguridad de la organización.

Descubre nuestras soluciones