华裔小哥创建新冠预测模型,准确性远超知名大学和美国官方机构
共 2077字,需浏览 5分钟
·
2021-02-22 13:23
技术编辑:宗恩丨发自 思否编辑部
2020 年随着新冠疫情的爆发,人们越来越关注预测新冠死亡人数的模型。其中有两个模型最为引人注目,一个是由伦敦帝国理工学院建立,另一个是由位于美国西雅图的卫生计量与评估研究所(IHME)建立。
但这两个模型预测的结果却大相径庭,伦敦帝国理工学院表示直到夏天来临,美国因新冠病毒死亡的人数可能升至 200 万,而 IHME 预测更为保守,预测到去年 8 月份死亡人数可能为 6 万。但事实证明,他们的猜测都与事实相距甚远,数据显示美国在去年 8 月初死亡人数约为 16 万人。
华裔小哥自建模型
预测数字的巨大差异引起了一位当时26岁的华裔数据科学家顾友阳(Youyang Gu 音译)的注意。
这个年轻人在麻省理工学院主修电子工程与计算机科学和数学专业,他还获得了麻省理工学院的硕士学位,并在麻省理工学院计算机科学与人工智能实验室的自然语言处理小组中完成了自己的论文。从麻省理工学院毕业后,顾友阳进入金融行业工作,为高频交易系统编写算法,他工作的最要的任务就是提高模型预测的准确性。
他认为自己处理数据模型的背景能在帮助预测新冠疫情中起到做用,但他完全没有学过医学或流行病学等领域的知识,所以当他在 2020 年 4 月开始该项目时,第一步就是去谷歌搜索“流行病学”,来学习相关知识。在新冠预测模型创建中,顾友阳发挥了在金融行业的工作经验,他不断地将他的预测与最终报告的死亡总数进行比较,并不断地调整他的机器学习算法,使之能带来越来越精确的预测。
一周后顾友阳建立的新冠疫情预测模型和一个显示信息的网站发布了。三周后美国疾病预防控制中心将模型列为为六个主要预测模型之一。随着疫情的发展,顾友阳被邀请定期参加 CDC 和专业建模人员及流行病学家团队的会议,顾友阳网站的流量也经历爆炸性增长,每天有数百万人查看他们所在州和美国整体的情况。接下来的时间里他的模型准确性一次又一次的超越那些拥有数亿美元资金和数十年经验的机构所制作的模型。
顾友阳的模型从一开始就表现良好。4 月底,他预测到 5 月 9 日,美国将有 8 万人死亡。实际死亡人数为 79926 人。在 5 月 18 日预测 9 万死亡,5 月 27 日预测 10 万死亡,又一次对上了数字。去年 11 月,顾友阳决定结束预测,因为他看到其他模型已经做的越来越好,他认为自己工作已经完成了。在停止项目前一个月,顾友阳曾预测,11 月 1 日美国将录得 23.1 万人死亡,当 11 月 1 日到来时,美国报告的死亡人数为 230995 人。
反嘲讽机构的「酸」
去年 3 月到 4 月,IHME 面临众多批评,因为它的预测与实际情况严重不符。尽管如此,这个位于华盛顿大学并由比尔和梅林达盖茨基金会提供超过 5 亿美元资金支持的著名中心,在前美国总统特朗普和美国政府成员的简报中几乎每天都被引用。
对于顾友阳的退出,IHME 的 Murray 有自己的看法。他说:顾友阳的模型不会发现冠状病毒的季节性,会错过冬季病例和死亡人数的激增。他让疫情在冬季消失,而我们早在 5 月就已经发现了季节性。顾友阳使用的机器学习方法在短期预测方面效果很好,但在大局上并不擅长了解正在发生的事情。
Murray 还称这些算法基于过去,无法解释病毒变种以及疫苗对它们可能无效的情况。就其本身而言,IHME 正确地调用了病毒的早期峰值,然后在预测死亡人数急剧下降时出现了错误,直到它调整其模型以更好地反映现实。
顾友阳拒绝回应 Murray 关于他的模型的言论,并反手来了一个嘲讽:「我非常感谢 Chris Murray 博士和他的团队所做的工作,没有他们,我就不会有今天的位置。」
现在顾友阳回到了模型创建中,这次他正在创建美国有多少人感染新冠与疫苗推出的速度以及何时可能实现群体免疫有关的数据。在疫情发生前,顾友阳正在谋划创业,当时他选择的方向是体育分析领域,而现在他考虑做公共卫生。他表示希望能做一份可以产生巨大影响的工作,同时避免政治、偏见以及有时大型机构所带来的包袱。
他也给了年轻人一些建议:年龄只是数字,你不需要数十年的经验就能进行批判性思考和适应在这个信息非常容易获得的数字时代,不要让缺乏专业领域的知识阻止你追求有趣的事物,当下的所有系统完善吗?当然不是,我希望我能激发其他人像我一样去追求他们所相信的项目,不要害怕不被认可。
顾友阳的个人博客:https://youyanggu.com/
顾友阳的GitHub:https://github.com/youyanggu