李纪为
人物简历
李纪为是90后,本科毕业于北京大学,随后进入生物医学工程系攻读研究生,之后“半路出家”研究AI,曾在自然语言处理组Prof.Eduard Hovy课题组从事情感分析、语义分析等研究工作,博士就读于斯坦福大学计算机学院语言处理组Prof. DanJurafsky课题组从事段落分析、机器翻译、人工对话生成等研究工作。
主要成就
从生物学转向全新的人工智能领域几乎意味着一切要从头开始,要获得斯坦福大学计算机学科博士学位,平均年限为5-6年。李纪为创下了一个记录:3年拿到该学科博士学位,成为该校该专业历史上用时最短的人。
这期间,他先后在ACL、EMNLP、ICLR等国际顶级会议发表20余篇论文,是自然语言处理、深度学习领域文章被引用量最高的博士生之一。此外,在剑桥大学学者Marek Rei发布的自然语言处理 2012-2016 年顶级会议作者统计中,李纪为以14 篇顶级会议论文第一作者的数据排名第一。,李纪为已在ACL,EMNLP,ICLR,WWW等国际顶级会议、顶级期刊上,以第一作者身份发表30篇论文。是顶级会议论文第一作者数量排名第一的学者。
2017年12月,李纪为选择回国创业,与两名大学同学共同创立了AI 创业公司香侬科技,专注于利用NLP技术提取、分析信息。在斯坦福华人留学生圈子里,极少有人选择博士毕业后直接回国,他的决定在当时不啻为“异类”。他坦言这是身为中国人的“家国情怀”,而更深的驱动力则来自国内开放的大环境以及近年来人工智能领域的飞速发展。公司已经从最初的两个人发展到如今的团队,而其中80%以上都是毕业于麻省理工、斯坦福等名校的海归。
提出Glyce模型,打破13项近乎所有中文自然语言理解(NLP)的世界纪录,这是中国团队在计算机理解中文方面取得的一项重要进步。中文是象形文字,字形本身蕴含丰富的语义信息。然而当今中文自然语言处理的方法一般借鉴于西方,主要机制多针对罗马字母,并不是适合中文象形文字。Glyce模型运用不同历史时期的中文象形,从周商时期的金文、汉代的隶书、魏晋时期的篆书、南北朝时期的魏碑,以及繁体、简体中文,还本溯源,将漫长历史中丰富的中文演变,抽象成机器可以理解的符号,让机器更好地理解中文语言。 此外,还提出基于中文上下文语义的汉字(OCR)模型、可替代中文分词的字级别中文等。
李纪为博士是最早一批将深度学习(特别是强化深度学习)应用到自然语言处理中的对话系统的探索者之一。提出的基于神经网络的互信息对话模型,显著地提高了生成式对话系统质量。基于李纪为博士的工作,对话系统中的多轮对话、个性化回答等挑战得到了一定程度的解决。此外,李纪为博士提出的强化学习、对抗学习对话模型,以及人物个性化对话系统工作,都在学术界、工业界得到了广泛的应用。包括微软、谷歌等公司都曾基于其工作发展新的应用。
李纪为提出的用强化学习训练对话神经网络的方法,展示了强化深度学习可以帮助提高对话系统的对话轮数,以及对话中的词语多样性。另外,深度强化学习还可以让两个BOT相互对话以产生大量的训练数据,这可在实际应用中帮助解决一部分数据缺失的问题。
李纪为博士发表的论文包括,“A Diversity-Promoting Objective Function for Neural Conversation Models”,该工作探讨了在对话生成任务中的主流模型Seq2Seq减少这种废话生成的可能性,显著地提高了生成式对话系统质量。以及“Deep Reinforcement Learning for Dialogue Generation”,则更深入探讨了对话系统的上述问题。
李纪为是斯坦福大学计算机专业用时最短的博士学位获得者。
李纪为先后在北京大学、康奈尔大学研习生物学,研究AI实属“半路出家”。
李纪为2017年12月,成立AI金融公司香侬科技。
主要荣誉
2020年,入选 MIT Technology Review 全球“35岁以下科技创新35人”。
2019年,入选麻省理工“35岁以下科技创新35人”。
2019年,入选财富“40位40岁以下商界精英榜”。
2019年,入选亿欧“中国海归科技创业者100人榜”。
2019年,受聘担任研究员。
2019年,当选“中国青年科技创业者30人”。
2018年,入选中国“30位30岁以下精英榜”。
智源人工智能研究院青年科学家。
斯坦福大学计算机学院历史上用时最短的博士学位获得者。
顶级会议论文第一作者数量排名第一。
自然语言处理、深度学习领域文章被引用量最高的博士生之一。
2020年12月11日,拟表彰为第九批“北京市优秀青年人才”。
2022年4月28日,入选AI华人青年学者榜单。
2022年,入选《2022福布斯中国·青年海归菁英·影响力29人》。
发表作品
A Diversity-Promoting Objective Function for Neural Conversation Models.NAACL 2016.
Adversarial Learning for Neural Dialogue Generation.EMNLP 2017.
A Hierarchical Neural Autoencoder for Paragraphs and Documents.ACL 2015.
A Model of Coherence Based on Distributed Sentence Representation.EMNLP 2014.
A Novel Feature-based Bayesian Model for Query Focused Multi-document Summarization.TACL 2013.
A Persona-Based Neural Conversation Model.ACL 2016.
A Unified MRC Framework for Named Entity Recognition.ACL 2020.
Coreference Resolution as Query-based Span Prediction .ACL 2020.
Deep Reinforcement Learning for Dialogue Generation.EMNLP 2016.
Description Based Text Classification with Reinforcement Learning.ICML 2020.
Dice Loss for Data-imbalanced NLP Tasks.ACL 2020.
Dialogue Learning With Human-In-The-Loop.ICLR 2017.
Do Multi-Sense Embeddings Improve Natural Language Understanding?EMNLP 2015.
Entity-Relation Extraction as Multi-Turn Question Answering.ACL 2019.
Evolutionary Hierarchical Dirichlet Process for Timeline Summarization.ACL 2013.
Glyce: Glyph-vectors for Chinese Character Representation.NIPS 2019.
Is Word Segmentation Necessary for Deep Learning of Chinese Representations?ACL 2019.
Identifying Manipulated Offerings on Review Portals.EMNLP 2013.
Learning through Dialogue Interactions by Asking Questions.ICLR 2017.
Major Life Event Extraction from Twitter based on Congratulations/Condolences Speech Acts.EMNLP 2014.
Neural Net Models for Open-Domain Discourse Coherence.EMNLP 2017.
Recursive Deep Models for Discourse Parsing.EMNLP 2014.
SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive Connection. NIPS 2020.
Sentiment Analysis on the People’s Daily.EMNLP 2014.
TopicSpam: a Topic-Model-Based Approach for Spam Detection.ACL 2013.
Towards a General Rule for Identifying Deceptive Opinion Spam.ACL 2014.
Timeline Generation: Tracking individuals on Twitter.WWW 2014.
Update Summarization Using a Multi-level Hierarchical Dirichlet Process Model.COLING 2012.
Visualizing and Understanding Neural Models in NLP.NAACL 2016.
What a Nasty day: Exploring Mood-Weather Relationship from Twitter.CIKM 2014.
When Are Tree Structures Necessary for Deep Learning of Representations?EMNLP 2015.
Weakly Supervised User Profile Extraction from Twitter.ACL 2014.