Un paseo por los archivos de InformationWeek

La nube está creciendo, pero las interrupciones de la nube no son nada nuevo. Y nosotros tampoco. InformationWeek se fundó por primera vez en 1985 y nuestros archivos en línea se remontan a 1998. Estos son solo algunos puntos bajos de los peores momentos de la nube, extraídos de nuestros archivos.

17 de abril de 2007 / En Web 2.0 Keynote, Jeff Bezos promociona los servicios bajo demanda de Amazon, por Thomas Claburn — “Cuando el fundador de la conferencia, Tim O’Reilly, le preguntó si Amazon estaba ganando dinero con esto, Bezos respondió: ‘Ciertamente tenemos la intención de ganar dinero con esto’, antes de finalmente admitir que AWS no era rentable hoy”.

(A modo de recordatorio, amigos, aquí en 2022, AWS ahora vale un billón de dólares).

12 de agosto de 2008 / Lo siento, Internet está roto hoy, por Dave Methvin y Disculpas de Google por la interrupción de Gmailpor Thomas Claburn — Después de una serie de interrupciones torpes en los foros de Microsoft MSDN, Gmail, Amazon S3, GoToMeeting y SiteMeter, Methvin se lamenta: “Cuando usa un servicio de terceros, se convierte en una caja negra que es difícil de verificar , o incluso saber si algo ha cambiado o cuándo. Bienvenido a tu futura pesadilla”.

17 de octubre de 2008 / La interrupción de Google Gmail saca a la luz a los detractores de la computación en la nube, por Thomas Claburn — Debido a que la interrupción parece haber durado más de 24 horas para algunos, los clientes afectados de Gmail parecen recibir créditos de servicio, según los términos del SLA de Gmail. Como dijo un cliente: “Este no es un problema temporal si dura tanto tiempo. Es frustrante no poder acelerar estos problemas”.

11 de junio de 2010 / Las cinco mayores debilidades de la nube, por John Soat — “Los problemas recientes con Twitter (“Fail Whale”) y la vergüenza de Steve Jobs por la interrupción de la red en la presentación del nuevo iPhone no transmiten exactamente sentimientos cálidos y confusos sobre Internet y el rendimiento de la red en general. Un SLA no puede garantizar el desempeño; solo puede castigar el mal desempeño”.

[In 2022, a cloud SLA can accomplish basically nothing at all. As Richard Pallardy and Carrie Pallardy wrote this week, “Industry standard service level agreements are remarkably restrictive, with most companies assuming little if any liability.”]

21 de abril de 2011 / La interrupción de Amazon EC2 obstaculiza los sitios webpor Thomas Claburn / 22 de abril de 2011 / Cloud recibe un golpe, Amazon debe arreglar EC2, por Charles Babcock / 29 de abril de 2011 / Post-Mortem: cuando la nube de Amazon se volvió contra sí misma, por Charles Babcock — La interrupción de Amazon en el “fin de semana de Pascua” que afectó a Yard, Foursquare, Hootsuite, Heroku, Quora y Reddit, entre otros. Babcock escribe: “Al incorporar alta disponibilidad en el software de la nube, hemos escapado de los confines de las fallas de hardware que detuvieron los sistemas en ejecución. En la nube, el hardware puede fallar y todo lo demás sigue funcionando. Por otro lado, nosotros Hemos descubierto que hemos entrado en una atmósfera superior de operaciones y en un plano más grande en el que pueden ocurrir fallas potenciales.

“La nueva arquitectura funciona muy bien cuando solo falla un disco o servidor, un evento predecible cuando se ejecutan decenas de miles de dispositivos. Pero la solución en sí no funciona si cree que cientos de servidores o miles de discos han fallado a la vez, llevar datos valiosos con ellos. Ese es un evento inesperado en la arquitectura de la nube porque se supone que no debe suceder. Tampoco sucedió la semana pasada. Pero el software de nube que gobierna pensamiento lo había hecho, y desencadenó un esfuerzo de recuperación masivo. Ese esfuerzo, a su vez, congeló EBS y el Servicio de base de datos relacional en su lugar. Las instancias del servidor continuaron ejecutándose en EE. UU. Este-1, pero no pudieron acceder a nada, no se pudieron iniciar más servidores y la nube dejó de funcionar en una de sus zonas de disponibilidad a efectos prácticos durante más de 12 horas”.

9 de agosto de 2011 / Corte de Amazon Cloud: ¿Qué se puede aprender? por Charles Babcock — Un relámpago en Dublín, Irlanda, desconectó los servicios en la nube europeos de Amazon el domingo y se esperaba que algunos clientes estuvieran inactivos por hasta dos días. (Los relámpagos aparecerán en otros apagones en el futuro).

2 de julio de 2012 / El apagón de Amazon afecta a Netflix, Heroku, Pinterest, Instagram, por Charles Babcock — El centro de datos de Amazon Web Services en la región Este-1 de EE. UU. pierde energía debido a violentas tormentas eléctricas, lo que deja sin servicio a muchos clientes del sitio web.

26 de julio de 2012 / Google Talk, Twitter, Cortes de Microsoft: Bad Cloud Day, por Paul McDougall / 26 de julio de 2012 / Microsoft investiga la interrupción de Azure en Europa, por Charles Babcock / 1 de marzo de 2012 / La explicación de Microsoft Azure no calma, por Charles Babcock — Google informó que su servicio Google Talk IM y video chat estaba inactivo en partes de los Estados Unidos y en todo el mundo el mismo día que Twitter también estaba fuera de línea en algunas áreas, y el servicio en la nube Azure de Microsoft estaba fuera de servicio en toda Europa. La autopsia del líder de Microsoft sobre la interrupción de la nube de Azure cita un factor de error humano, pero deja otras preguntas sin respuesta. ¿Te recuerda esto cómo jugó Amazon su anterior incidente de rayo?

23 de octubre de 2012 / Interrupción de Amazon: varias zonas, una estrategia inteligente, por Charles Babcock — El tráfico en el complejo de centros de datos más utilizado de Amazon Web Services, US East-1 en el norte de Virginia, se vio afectado por una interrupción en una de sus zonas de disponibilidad. El control de daños se puso en marcha de inmediato, pero los efectos de la interrupción se sintieron durante todo el día, dijo Adam D’Amico, director de operaciones técnicas de Okta. Los clientes inteligentes, como Netflix, que han realizado una gran inversión en el uso de EC2 de Amazon, a veces pueden evitar las interrupciones del servicio mediante el uso de varias zonas. Pero como informó NBC News, algunos servicios regionales de Netflix se vieron afectados por la interrupción del lunes.

El director de operaciones técnicas de Okta le dijo a Babcock que usan las cinco zonas para protegerse contra las interrupciones. “Si hay una sexta zona mañana, puedes apostar que estaremos en ella dentro de unos días”.

4 de enero de 2013 / Corte de Amazon del 24 de diciembre: una mirada más cercana, por Charles Babcock — Amazon Web Services cita una vez más el error humano propagado por los sistemas automatizados por la pérdida del balanceo de carga en la instalación clave de Nochebuena.

15 de noviembre de 2013 / Microsoft atribuye la ralentización de Azure a un error de softwarepor Charles Babcock — El gerente general de Microsoft Azure, Mike Neil, explica la desaceleración del 29 y 30 de octubre y la razón detrás de la falla generalizada.

23 de mayo de 2014 / Rackspace aborda la interrupción del almacenamiento en la nube, por Charles Babcock — La escasez de capacidad de disco de estado sólido interrumpe las operaciones de algunos clientes de almacenamiento Cloud Block en los centros de datos de Chicago y Dallas de Rackspace. El servicio de informes de estado de Rackspace dijo que el problema “se debió a un crecimiento de clientes mayor al esperado”.

20 de julio de 2014 / Microsoft explica la interrupción de Exchange, por Michael Endler — Algunos clientes no pudieron comunicarse con Lync durante varias horas el lunes, y algunos usuarios de Exchange estuvieron nueve horas el martes sin acceso al correo electrónico.

15 de agosto de 2014 / Practice Fusion EHR atrapado en Internet Brownout, por Alison Diana — Varias prácticas médicas y clínicas pequeñas enviaron a sus hogares a pacientes y personal después de que el sitio del proveedor de registros de salud electrónicos basados ​​en la nube, Practice Fusion, fuera parte de una interrupción global de dos días.

26 de septiembre de 2014 / Amazon reinicia los servidores en la nube, error de Xen culpado, por Charles Babcock — Amazon les dice a los clientes que tiene que parchear y reiniciar el 10 % de sus servidores en la nube EC2

22 de diciembre de 2014 / La interrupción de Microsoft Azure se atribuye a un código incorrecto, por Charles Babcock — El análisis de Microsoft de la interrupción de Azure el 18 de noviembre indica que la decisión de los ingenieros de implementar ampliamente código mal configurado desencadenó una importante interrupción en la nube.

28 de enero de 2015 / Cuando Facebook está caído, miles de personas se ralentizan, por Charles Babcock — Cuando Facebook dejó de funcionar esta semana, miles de sitios web vinculados a la red social también se ralentizaron, según Dynatrace. Al menos 7500 sitios web que dependen de una respuesta de JavaScript de un servidor de Facebook vieron sus operaciones ralentizadas o estancadas por la falta de respuesta de Facebook.

20 de agosto de 2015 / Google pierde datos: ¿Quién dice que los rayos nunca caen dos veces? por Charles Babcock — Google experimentó altas tasas de error de lectura/escritura y una pequeña pérdida de datos en su centro de datos de Google Compute Engine en Ghislain, Bélgica, del 13 al 17 de agosto después de una tormenta que provocó cuatro rayos en el centro de datos o cerca de él.

22 de septiembre de 2015 / La interrupción de Amazon produce una espiral de interrupción de la nube, por Charles Babcock — La falla de Amazon DynamoDB la madrugada del domingo desencadenó ralentizaciones en cascada e interrupciones del servicio que ilustran la naturaleza altamente conectada de la computación en la nube. Varias empresas web, incluidas AirBnB, IMDB, Pocket, Netflix, Tinder y Buffer, se vieron afectadas por la ralentización del servicio y, en algunos casos, por la interrupción del servicio. El incidente comenzó a las 3 a. m. (hora del Pacífico) del domingo, o a las 6 a. m. en el lugar donde tuvo el mayor impacto: el complejo de centros de datos con mayor tráfico de Amazon en Ashburn, Virginia, también conocido como US-East-1.

12 de mayo de 2016 / Interrupción de Salesforce: ¿Pueden los clientes confiar en la nube?, por Jessica Davis — La interrupción del servicio de Salesforce comenzó el martes con la instancia NA14 de la compañía y afectó a los clientes de la costa oeste de EE. UU. Y aunque el servicio se restableció el miércoles después de casi un día completo de inactividad, la instancia ha seguido experimentando una degradación del servicio, según el sitio de estado en línea de Salesforce.

7 de marzo de 2017 / ¿Está el crecimiento de Amazon un poco fuera de control? por Charles Babcock — Después de una interrupción de S3 de cinco horas en EE. UU. Este-1 el 28 de febrero, las operaciones de AWS explican que esta vez fue más difícil reiniciar su sistema de índice S3 que la última vez que intentaron reiniciarlo.

Escribe Babcock: “Dado el hecho de que la interrupción comenzó con un error de entrada de datos, muchos informes sobre el incidente han descrito el evento como explicable como un error humano. El error humano involucrado fue tan predecible y común que esta es una descripción inadecuada de lo que está pasando”. salió mal. Solo se necesitó un pequeño error humano para que los sistemas operativos de AWS comenzaran a funcionar contra sí mismos. Es la naturaleza automatizada desbocada de la falla lo que es inquietante. Los sistemas automatizados que operan de una manera inevitablemente contraproducente son la marca de una arquitectura inmadura .”

Avance rápido hasta hoy

Como Sal Salamone detalló claramente esta semana, en su artículo sobre las lecciones aprendidas de las últimas interrupciones importantes: Cloudflare, Fastly, Akamai, Facebook, AWS, Azure, Google e IBM han tenido calamidades similares a esta en 2021-22. Errores humanos, fallas de software, sobrecargas de energía, respuestas automáticas que tienen consecuencias inesperadas, todo lo cual causa estragos.

¿Qué escribiremos dentro de 15 años sobre las interrupciones de la nube?

Quizás más de lo mismo. Pero es posible que no puedas leerlo si hay un rayo en Virginia.

Qué leer a continuación:

Lecciones aprendidas de cortes importantes recientes

¿Se pueden recuperar las pérdidas sufridas durante un apagón?

Informe especial: ¿Cuán frágil es la nube en realidad?

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.