Cuando la red de computación en la nube de Amazon sufrió una caída, el 7 de diciembre, afectó a un amplio abanico de empresas que dependen de sus servidores, incluidas Disney, Netflix y Ticketmaster. ¿Cuál fue la empresa que acogió con agrado las disrupciones causadas por el peor apagón de Amazon Web Services en más de un año? Google.
A pesar de su dominio en los servicios al consumidor, el gigante de las búsquedas Alphabet Inc. ha estado muy por detrás de Amazon y Microsoft en la industria de la computación en la nube. Las empresas de la nube compiten en varios frentes (velocidad, funciones, confiabilidad), pero una parte clave del plan del director de Google Cloud, Thomas Kurian, para ganar terreno, es convencer a los clientes de que la infraestructura en nube de Google es más confiable que la de la competencia.
Puede que no haya forma de validar esa afirmación. Los analistas de la industria dicen que medir el tiempo de inactividad relativo de los servicios de la competencia es casi imposible debido a la escala de las redes, la diversidad de servicios que ofrecen y la compleja combinación de factores que producen las fallas. Corey Quinn, principal economista para la nube de Duckbill Group, una firma que trabaja con empresas para reducir sus facturas de Amazon Web Services (AWS), señala que Amazon y Google Cloud están “muy parejas con respecto a la confiabilidad”, mientras que Azure de Microsoft va a la zaga debido a importantes interrupciones en 2020. Empero, Google enfrenta sus propios desafíos técnicos. Cuando la empresa comenzó a construir su sistema global de centros de datos, el objetivo era proporcionar sus propios productos tecnológicos orientados al consumidor. Su diseño se adaptaba bien a la tarea de mantener funcionando el motor de búsqueda, el correo electrónico y el streaming de video de Google en todo el orbe. Pero usar las mismas granjas de servidores como la columna vertebral de una red de computación en la nube presenta una nueva serie de complicaciones técnicas, y Kurian se ha concentrado especialmente en resolver esa situación.
La computación en la nube se encuentra en un segmento de la industria tecnológica donde todos anticipan un crecimiento desbocado. El mercado de la nube crecerá alrededor de un 30 por ciento anual hasta 2025, año en que alcanzará los 400 mil millones de dólares, según la firma de análisis IDC. En 2020, Amazon concentraba el 41 por ciento del mercado de la nube pública, Microsoft tenía el 20 por ciento y Google el 6 por ciento, según la consultora Gartner.
Eso no significa que a Google le esté yendo mal. Los analistas esperan que su división de la nube genere 26 mil millones de dólares en ingresos este año, aproximadamente cuatro veces y media lo que ganó en 2018, un año antes de que Kurian asumiera como CEO. La operación no es rentable, pero Kurian ha reducido las pérdidas y ha dicho que su enfoque sigue siendo el crecimiento en lugar de las ganancias. Google informó el primero de febrero que Google Cloud generó 5 mil 540 millones de dólares en ventas en el cuarto trimestre, superando las estimaciones de los analistas. La nómina de Google Cloud ha crecido a 40 mil trabajadores desde los 25 mil que tenía cuando Kurian asumió el cargo; su lista de clientes multinacionales incluye a Goldman Sachs, HSBC y Twitter.
Kurian, exejecutivo de Oracle Corp., reemplazó a Diane Greene, una brillante ingeniera que cofundó VMware Inc. antes de unirse a Google para convertir su división de la nube en un negocio serio. Cuando ella se fue, la nube de Google ocupaba un distante tercer lugar. Bajo Kurian, la compañía amplió sus servicios al cliente. Su fuerza de ventas creció rápidamente y comenzó a enfatizar las asociaciones estratégicas que tenían el potencial de mantener interesados a los grandes clientes. Pero también se centró en la confiabilidad después de una letanía de quejas de los consumidores en sus primeros meses.
Un gran desafío es la centralización extrema de la red de centros de datos de Google. La empresa diseñó su infraestructura para que las máquinas en partes remotas del mundo dependieran en gran medida de las más cercanas a casa. Este diseño facilitó que Google brindara la misma gama de servicios a miles de millones de personas alrededor del mundo. También le permitió mantener los datos frescos y actualizar rápidamente el software.
Sin embargo, ese enfoque tiene inconvenientes, que llegaron a un punto crítico en junio de 2019 en un incidente que los empleados ahora llaman el Apocalipsis Maya. Los trabajadores del centro de datos de Google estaban realizando reparaciones físicas en algunas máquinas en Oregon; durante el proceso, un error en un programa de software llamado Maya, que cambia automáticamente las responsabilidades entre los servidores, apagó otro sistema, el Borg Masters, que actúa en la práctica como un control para toda la red. Esto desencadenó un efecto dominó que colapsó los servicios en América del Norte y del Sur. Cuando los servidores fallaron, la capacidad de la red de Google se redujo y se congestionó más, lo que provocó ralentizaciones para los espectadores de YouTube y retrasó los esfuerzos para restaurar el sistema.
Después del Apocalipsis Maya, Kurian les dijo a los empleados que la empresa necesitaba “resetear la confiabilidad”. Inicialmente, congeló todas las actualizaciones de software durante un mes, anticipando que tomaría ese tiempo resolver los problemas de confiabilidad. Pero la compañía ha pasado gran parte de los últimos tres años en ese proyecto, según tres personas familiarizadas con la situación.
Hasta cierto punto, el objetivo ha sido recrear un aspecto específico de la infraestructura en nube de Amazon. “AWS ha hecho algo que la mayoría de los proveedores no hacen: tiene una fuerte separación regional”, explica Quinn de Duckbill. “Un apagón en una región casi nunca afecta a otras regiones. Google, en cambio, tiene su cacareada red global, donde como resultado se ven cosas como apagones globales. Cuando Google Cloud se cae, tiende a caer mucho peor y en más regiones que AWS”.
Google Cloud emprendió una serie de medidas para aislar sus servidores entre sí cuando surgía la necesidad. Las semillas de esa iniciativa, Project Drawbridge, se plantaron después del Apocalipsis Maya, aunque el proyecto no comenzó oficialmente hasta la primavera de 2021. La idea era dar a los clientes la opción de cortar temporalmente las conexiones entre regiones para separar los datos y evitar que los problemas se propaguen. Esto fue particularmente importante para los bancos y otras industrias reguladas que operan en múltiples jurisdicciones, según Google. Dentro de Drawbridge, Google también introdujo el Project Moat, un programa que permite a los clientes alojar versiones independientes de sus aplicaciones y servicios en varias zonas del mundo, para que puedan conectarse a la versión regional más cercana de un servicio si la versión principal no funciona.
”La confiabilidad del volumen de trabajo de nuestros clientes es nuestra principal prioridad, así es como nuestro equipo demuestra empatía con el cliente”, escribió en un correo electrónico Ben Treynor Sloss, vicepresidente de Google que supervisa al personal técnico. Agregó que los clientes tenían diferentes preferencias con respecto a la regionalización, por lo que el enfoque de Google es ofrecer una opción.
Los esfuerzos de la compañía aún son una labor en curso, como lo ilustra un incidente del 16 de noviembre, cuando un problema de configuración de red afectó varios productos de computación en la nube de Google, lo que causó la caída de los sitios web y las aplicaciones de Home Depot, Snapchat y Spotify. Además de tratar de resolver los problemas de ingeniería, Kurian y Sloss también han intentado que los ingenieros de Google entiendan lo que está en juego, de modo que le han pedido al personal técnico que participe en las reuniones con clientes o que lea las descripciones que los clientes han escrito sobre sus experiencias con los apagones para compren-der cómo se ven afectados cuando los servicios de Google se caen.
Algunos clientes han expresado una profunda frustración y enojo, admiten que han perdido la fe en Google o que podrían considerar a otros proveedores de nube, dicen los empleados. Es difícil evaluar qué tan serias son estas amenazas; cambiar de provee-dor de nube es cosa seria, y los proveedores rivales también han sufrido sus propias caídas periódicas. Siendo tan difícil evaluar la confiabilidad relativa de las redes, los clientes no pueden estar seguros de que sufrirán menos disrupciones con otros proveedores. Incluso si Kurian logra convertir a Google en la nube más confiable, convertir eso en una ventaja comercial puede ser tanto un desafío de marketing como uno tecnológico.
Consulta aquí nuestra edición más reciente: