Es muy poco probable que no te hayas enterado de la caida de Gmail el día de ayer, que duró cerca de dos horas. La caida de Gmail causó un frenesí en google y un super-saturamiento en Twitter y le complicó la vida a muchos trabajadores de la web.
Google oficialmente a publicado su disculpa y una explicación de lo que sucedió. Entonces… ¿qué fue lo que pasó? Bueno, según el comunicado, ellos se equivocaron, en grande. En un repotenciamiento rutinario de servidores ellos “ligeramente subestimaron la carga”… y las cosas comenzaron a verse mal a las 12:30 pm PST, llegando a durar 100 minutos.
Aquí está parte de la versión de Google de esta historia:
“Ésto es lo que sucedió: Esta mañana (Hora del Pacífico) desconectamos una pequeña parte de los servidores de Gmail para realizar mejoras rutinarias. Esto no es un problema en sí – lo hacemos todo el tiempo, y la interfaz web de Gmail corre en muchas locaciones y tan sólo envía el tráfico a otra locación cuando una no está en línea.
Sin embargo, como ahora sabemos, habíamos ligeramente subestimado la carga que algunos de los cambios recientes (irónicamente, algunos diseñados para mejorar la disponibilidad del servicio) pusieron en los routers de peticiones – los servidores que dirigen las peticiones web al servidor de Gmail apropiado para la respuesta. A las 12:30 pm Pacífico, aproximadamente, unos cuantos de los routers de peticiones se sobrecargaron y por consiguiente le dijeron al resto del sistema “dejen de enviarnos tráfico, estamos muy lentos”. Ésto transfirió la carga a los routers de peticiones restantes, causando que algunos más se sobre-cargasen, y en unos cuantos minutos casi todos los routers de peticiones estaban sobre-cargados. Como resultado, los usuarios no podían acceder a Gmail, a través de la interfaz de web, ya que sus peticiones no podía ser enrutadas al servidor de Gmail. El acceso IMAP/POP y el proceso de correos seguía trabajando normalmente, ya que estas peticiones no usan los mismos routers.
El equipo de ingeniería de Gmail fue alertado de las fallas en segundos (nos tomamos el monitoreo muy seriamente). Después d que establecer el problema central era la capacidad disponible insuficiente, el equipo conectó MUCHOS routers de peticiones aticionales en línea (la capacidad flexible es una de las ventajas de la arquitectura de Google), distribuyó el tráfico entre los routers de peticiones, y la interfaz web de Gmail volvió a estar disponible en línea.
Éste fue un gran error de Google. Pero también es bueno ver que se están disculpando publicamente por la caida y certificando que harán todo lo que puedan para prevenir que ésto ocurra nuevamente. Esperemos que así sea.
Lo leí en: Mashable
Discussion
No comments yet.