Bloomberg Businessweek

Youyang Gu: superestrella de la ciencia de datos del COVID

En la batalla por la predicción más exacta sobre las muertes por coronavirus, un joven que vive con sus padres en Santa Clara se enfrentó a instituciones globales con recursos multimillonarios.

La primavera de 2020 puso en boga los modelos estadísticos. Cuando en marzo y abril el público intentaba entender la gravedad del coronavirus, se citaban una y otra vez dos sistemas de predicción: uno desarrollado por el Imperial College de Londres y el otro por el Instituto de Métricas y Evaluación de la Salud (IHME), con sede en Seattle.

Pero los modelos arrojaron predicciones tremendamente divergentes. El Imperial advirtió que Estados Unidos podría ver hasta 2 millones de muertes por COVID-19 para el verano, mientras que la previsión del IHME era mucho más conservadora, con alrededor de 60 mil muertes para agosto. Al final ninguno de los dos acertó, a principios de agosto Estados Unidos había registrado 160 mil decesos.

La enorme discrepancia en las cifras proyectadas esa primavera llamó la atención de un científico de datos de 26 años llamado Youyang Gu. El joven tenía una especialidad en ingeniería eléctrica e informática y una más en matemáticas del Instituto Tecnológico de Massachusetts, pero no tenía formación académica en campos relacionados con la pandemia como la medicina o la epidemiología. No obstante, pensó que su experiencia en el manejo de modelos de datos podría resultar útil durante la crisis sanitaria.

A mediados de abril, mientras vivía con sus padres en Santa Clara, California, Gu pasó una semana desarrollando su propio predictor de mortalidad por COVID y un sitio web para mostrar la información. En poco tiempo, su modelo comenzó a producir resultados más exactos que los elaborados por instituciones con cientos de millones de dólares en financiación y décadas de experiencia.

"Su modelo era el único que parecía sensato", dice Jeremy Howard, un reputado experto en datos e investigador científico de la Universidad de San Francisco. "Una y otra vez se demostró que los otros modelos no tenían sentido y, sin embargo, no hubo autoanálisis por parte de las personas que publicaron las previsiones ni de los periodistas que informaron sobre ellas. La vida de las personas dependía de estas cosas, y Youyang fue la única persona que realmente estudiaba los datos y lo hacía de forma adecuada".

El modelo predictivo que construyó Gu fue, en cierto modo, simple. Primero había considerado examinar la relación entre las pruebas de COVID, las hospitalizaciones y otros factores, pero descubrió que el gobierno federal y los gobiernos de los estados reportaban esos datos de manera inconsistente. Las cifras más fiables parecían ser los conteos diarios de muertes. "Otros modelos utilizaron más fuentes de datos, pero decidí confiar en las muertes pasadas para predecir las muertes futuras", explica Gu. "Tener eso como el único dato de entrada ayudó a filtrar la señal del ruido estadístico".

El giro novedoso y sofisticado del modelo de Gu provino de su uso de algoritmos de aprendizaje automático para refinar sus cifras. Tras egresar del MIT, Gu pasó un par de años trabajando en la industria financiera escribiendo algoritmos para sistemas de trading de alta frecuencia en los que sus proyecciones tenían que ser precisas si quería conservar su trabajo. En el análisis del COVID, Gu siguió comparando sus predicciones con los números reales de muertes reportadas y ajustaba constantemente su software de aprendizaje automático para que entregara predicciones cada vez más precisas. Aunque la labor requería las mismas horas que un trabajo exigente a tiempo completo, Gu ofreció su tiempo como voluntario y vivió de sus ahorros.

Quería que sus datos se consideraran libres de conflictos de intereses o sesgos políticos.

Aunque no es perfecto, el modelo de Gu mostró una alta capacidad predictiva desde el principio. A fines de abril predijo que Estados Unidos llegaría a 80 mil muertes para el 9 de mayo, la cifra real de muertos fue de 79 mil 926. En cambio, en el mismo mes de abril el IHME predijo que Estados Unidos no superaría las 80 mil muertes para todo el año 2020. Gu también predijo 90 mil muertes para el 18 de mayo y 100 mil muertes para el 27 de mayo, y una vez más sus cifras fueron certeras. Mientras el IHME estimó que el virus remitiría como resultado del distanciamiento social y otras políticas, Gu predijo que habría una segunda gran ola de contagios y muertes a medida que muchos estados iniciaran el desconfinamiento.

El IHME enfrentó algunas críticas durante marzo y abril, cuando sus números no coincidían con lo que estaba sucediendo. Con todo, el prestigioso centro de la Universidad de Washington con más de 500 millones de dólares en fondos de la Fundación Bill y Melinda Gates era mencionado casi a diario en las sesiones de los miembros de la administración del presidente Donald Trump. El 19 de abril, el mismo día en que Gu advirtió sobre una segunda ola, Donald Trump citó la proyección del IHME de 60 mil muertes como un indicador de que la lucha contra el virus pronto terminaría.

El equipo del IHME también promocionó activamente sus cifras. "Veías al IHME en todos estos programas de noticias diciéndole a la gente que las muertes descenderían a cero en julio", dice Gu. "Cualquiera con sentido común podía ver que estaríamos entre mil y mil 500 muertes diarias por un tiempo. Pensé que era muy insincero de su parte hacer eso".

Christopher Murray, director del IHME, dice que una vez que la organización entendió mejor el virus después de abril, sus proyecciones mejoraron radicalmente.

Pero esa primavera, semana tras semana, más personas comenzaron a prestar atención al trabajo de Gu. Compartió su modelo con reporteros en Twitter y envió correos electrónicos a epidemiólogos, pidiéndoles que verificaran sus números. Hacia fines de abril, el destacado biólogo de la Universidad de Washington Carl Bergstrom tuiteó sobre el modelo de Gu, y poco después los Centros para el Control y la Prevención de Enfermedades de Estados Unidos (CDC) incluyeron la información estadística de Gu en su sitio web de proyecciones para el Covid. A medida que avanzaba la pandemia, Gu, un inmigrante chino que creció en Illinois y California, participó en reuniones regulares con los CDC y equipos de epidemiólogos y expertos en modelos, mientras todos intentaban mejorar sus predicciones.

El tráfico al sitio web de Gu se disparó, millones de personas lo visitaban diariamente para ver qué estaba sucediendo en sus estados y en el país en general.

La mayoría de las veces, sus cifras proyectadas terminaban siendo muy próximas a las cifras reales de muertes contabilizadas unas semanas más tarde.

Derivado del gran interés en estas proyecciones, comenzaron a aparecer más modelos durante la primavera y el verano de 2020. Nicholas Reich, profesor del departamento de bioestadística y epidemiología de la Universidad de Massachusetts en Amherst, recopiló los cerca de 50 modelos existentes y midió su exactitud durante muchos meses en el sitio COVID-19 Forecast Hub . "El modelo de Youyang estuvo constantemente entre los mejores", dice Reich.

En noviembre, Gu decidió no continuar con sus predicciones de mortalidad. Reich había estado combinando las diversas proyecciones y encontró que las predicciones más precisas provenían de este "conjunto de modelos" o datos combinados.

"Youyang dio un paso atrás con un notable sentido de humildad", dice Reich. "Vio que a los otros modelos les estaba yendo bien y que su trabajo aquí estaba hecho". Un mes antes de detener el proyecto, Gu había predicho que Estados Unidos llegaría a las 231 mil muertes para el 1 de noviembre. Cuando llegó el 1 de noviembre, el país acumulaba 230 mil 995 muertes.

El director del IHME tiene otra explicación sobre la retirada de Gu. En su opinión, el modelo de Gu no habría captado la naturaleza estacional del coronavirus y habría subestimado el aumento invernal de casos y muertes. "Para él la epidemia desaparecería en el invierno, mientras que nosotros planteamos el factor de la estacionalidad ya en mayo", dice Murray.

Los métodos de aprendizaje automático utilizados por Gu funcionan bien en predicciones de corto alcance, dice Murray, pero "no son muy buenos para comprender lo que está sucediendo" en el panorama general. Los algoritmos, basados en el pasado, no pueden tener en cuenta las variantes del virus y qué tan bien pueden funcionar las vacunas contra ellas, según Murray.

Por su parte, el IHME predijo correctamente el pico inicial del virus, y luego se equivocó a la hora de predecir una fuerte disminución de las muertes hasta que ajustó su modelo para reflejar mejor la realidad. "Nos equivocamos el primero de abril, pero desde entonces somos el único grupo que lo ha hecho bien de manera consistente".

Para Reich, quien compila la lista de los principales modelos, las predicciones del IHME eran pasables más avanzada la pandemia.

"Pero al principio, el modelo de IHME no cumplía lo que prometía", afirma. "En últimas fechas ha sido un modelo razonable. No diría que es uno de los mejores, pero es razonable".

Gu no quiso responder a los comentarios de Murray sobre su modelo. Replicó con la cortesía taimada de un científico de datos: "Estoy muy agradecido con el Dr. Chris Murray y su equipo por el trabajo que hicieron", dice. "Sin ellos, no estaría en la posición que estoy hoy".

Como moraleja en esta historia de datos, Reich pide que la gente no se precipite a confiar demasiado en los primeros modelos individuales la próxima vez que llegue una pandemia. También cuestiona la exactitud de las proyecciones más allá de las seis a ocho semanas. Idealmente, los CDC y otros reaccionarán más rápido para combinar modelos y distribuir los datos combinados en el futuro. "Espero que invirtamos tiempo, energía y dinero en configurar un sistema que esté más preparado para responder con una gama más amplia de modelos desde el principio", dice Reich.

Después de tomarse un pequeño descanso, Gu, que ahora tiene 27 años y vive en un apartamento de Nueva York, regresó al modelado de datos. Esta vez está proyectando cifras relacionadas con la cantidad de personas en Estados Unidos que han contraído COVID-19, la rapidez con la que se aplican las vacunas y cuándo el país podría alcanzar la inmunidad colectiva. Sus predicciones sugieren que para junio alrededor del 61 por ciento de la población debería tener alguna forma de inmunidad, ya sea de la vacuna o de una infección pasada.

Antes de la pandemia Gu esperaba iniciar una empresa, quizás dedicada al análisis deportivo. Ahora considera seguir con el tema de la salud pública. Quiere hallar un trabajo en el que pueda tener gran impacto pero evitando la política, los prejuicios y los sesgos. "Hay muchas deficiencias en el campo que las personas con mi experiencia podrían mejorar", dice. "Pero todavía no sé muy bien cómo encajaría yo".

Este texto es parte del especial de la revista Bloomberg Businessweek México de 'Donde a todos vacunas sin preguntas a un vuelo a distancia'. Consulta aquí la edición fast de este número.

También lee: