【收藏!】一文看尽2020年度最出圈AI论文合集

机器学习算法与Python实战

共 9295字,需浏览 19分钟

 ·

2021-01-15 02:47

↑↑↑点击上方蓝字,回复资料,10个G的惊喜

本文为你总结2020年AI领域有很多精彩的重要成果。来源:  新智元


2020年,想必各国的人民都被新冠病毒支配得瑟瑟发抖...

不过,这并不影响科研工作者的工作态度和产出质量。

疫情之下,通过各种方式,全球的研究者继续积极合作,发表了许许多多有影响力的成果——特别是在人工智能领域。


同时,AI偏见和AI伦理也开始逐渐引起大家的普遍重视。

在今年新的研究成果中,那些汇集着科研工作者心血的精华部分,势必会对未来几年人工智能的发展,有着不小的影响。

这篇文章就为您介绍了从2020年初到现在为止,在AI和数据科学领域,最有趣,最具突破性的论文成果:

1、YOLOv4:目标检测的最佳速度和精度






论文原文:

A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, Yolov4: Optimal speed and accuracy of object detection, 2020. arXiv:2004.10934 [cs.CV].



2020年4月,Alexey Bochkovsky等人在论文“YOLOv4:目标检测的最优速度和精度”中正式引入了Yolo4。论文中算法的主要目标,是制作一个具有高质量、高精度的超高速目标探测器。


代码地址:

https://github.com/AlexeyAB/darknet


2、DeepFace rawing:依据草图的人脸图像深度生成


论文原文:

S.-Y. Chen, W. Su, L. Gao, S. Xia, and H. Fu, “DeepFaceDrawing: Deep generation of face images from sketches,” ACM Transactions on Graphics (Proceedings of ACM SIGGRAPH2020), vol. 39, no. 4, 72:1–72:16, 2020.

 
根据这种新的图像到图像转换技术,我们可以从粗糙的或甚至不完整的草图出发,来生成高质量的面部图像。不仅如此,我们甚至还可以调整眼睛、嘴巴和鼻子对最终图像的影响。

代码地址:

https://github.com/IGLICT/DeepFaceDrawing-Jittor


3、PULSE:通过生成模型的潜空间探索进行自我监督照片上采样


论文原文:

S. Menon, A. Damian, S. Hu, N. Ravi, and C. Rudin, Pulse: Self-supervised photo upsampling via latent space exploration of generative models, 2020. arXiv:2003.03808 [cs.CV].


该算法可以将模糊的图像转换成高分辨率的图像——它可以把一个超低分辨率的16x16图像,转换成1080p高清晰度的人脸。

代码地址:

https://github.com/adamian98/pulse



4、编程语言的无监督翻译



论文原文:

M.-A. Lachaux, B. Roziere, L. Chanussot, and G. Lample, Unsupervised translation of programming languages, 2020. arXiv:2006.03511 [cs.CL].



这种新模型,可以将代码从一种编程语言转换为另一种编程语言,而不需要任何监督。它可以接受Python函数并将其转换为c++函数,反之亦然,而不需要任何先前的示例。它理解每种语言的语法,因此可以推广到任何编程语言。


代码地址:

https://github.com/facebookresearch/TransCoder?utm_source=catalyzex.com



5、PIFuHD:多层次像素对齐隐式功能,用于高分辨率的3D人体重建


论文原文:

S. Saito, T. Simon, J. Saragih, and H. Joo, Pifuhd: Multi-level pixel-aligned implicit function for high-resolution 3d human digitization, 2020. arXiv:2004.00452 [cs.CV].



这个技术,可以根据2D图像来重建3D高分辨率的人。你只需要提供一个单一的形象,就可以产生一个3D化身,哪怕从背后,也看起来像你。


代码地址:

https://github.com/facebookresearch/pifuhd



6、迪士尼的百万像素级换脸技术





论文原文:

J. Naruniec, L. Helminger, C. Schroers, and R. Weber, “High-resolution neural face-swapping for visual effects,” Computer Graphics Forum, vol. 39, pp. 173–184, Jul. 2020.doi:10.1111/cgf.14062.



迪士尼在欧洲图形学会透视研讨会(EGSR)上发表研究,展示了首个百万像素逼真换脸技术。他们提出了一种在图像和视频中实现全自动换脸的算法。据研究者称,这是首个渲染百万像素逼真结果的方法,且输出结果具备时序一致性。


论文链接:

https://studios.disneyresearch.com/2020/06/29/high-resolution-neural-face-swapping-for-visual-effects/



7、互换自动编码器的深度图像处理



论文原文:

T. Park, J.-Y. Zhu, O. Wang, J. Lu, E. Shechtman, A. A. Efros, and R. Zhang,Swappingautoencoder for deep image manipulation, 2020. arXiv:2007.00653 [cs.CV].


 
这种新技术,通过完全的无监督训练,可以改变任何图片的纹理,同时还能保持真实性。结果看起来甚至比GAN还要好,并且速度要快得多。它甚至可以用来制作deepfakes。


代码地址:

https://github.com/rosinality/swapping-autoencoder-pytorch?utm_source=catalyzex.com



8、GPT-3:实现小样本学习的语言模型


论文原文:

T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P.Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S.Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei,“Language models are few-shot learners,” 2020. arXiv:2005.14165 [cs.CL].



目前最先进的NLP系统,都在努力推广到不同的任务上去,而它们需要在数千个样本的数据集上进行微调,相比而言,人类只需要看到几个例子,就可以执行新的语言任务。这就是GPT-3背后的目标——改进语言模型的任务无关特性。


代码地址:

https://github.com/openai/gpt-3



9、联合时空变换的视频绘制



论文原文:

Y. Zeng, J. Fu, and H. Chao, Learning joint spatial-temporal transformations for video in-painting, 2020. arXiv:2007.10247 [cs.CV].



这种AI技术,可以填补删除移动物体后的缺失像素,并且可以重建整个视频。这种方法,比之前的方法都要更准确,更清晰。


代码地址:

https://github.com/researchmm/STTN?utm_source=catalyzex.com



10、像素级别的生成预处理






论文原文:

M. Chen, A. Radford, R. Child, J. Wu, H. Jun, D. Luan, and I. Sutskever, “Generative pretraining from pixels,” in Proceedings of the 37th International Conference on Machine Learning, H. D. III and A. Singh, Eds., ser. Proceedings of Machine Learning Research, vol. 119, Virtual: PMLR, 13–18 Jul 2020, pp. 1691–1703. [Online]. 



一个好的AI,比如在Gmail中使用的AI,可以生成连贯的文本并补全短语。类似的,使用相同的原则,这个模型可以补全一个图像。此外,所有这些都是在无监督的训练中完成的,根本不需要任何标签!


代码地址:

https://github.com/openai/image-gpt



11、使用白盒卡通表示,来学习卡通化的过程






论文原文:

Xinrui Wang and Jinze Yu, “Learning to Cartoonize Using White-box Cartoon Representations.”, IEEE Conference on Computer Vision and Pattern Recognition, June 2020.



只要输入你想要的的卡通风格,这个AI技术可以将任何图片或视频卡通化。


代码地址:

https://github.com/SystemErrorWang/White-box-Cartoonization



12、FreezeG冻结甄别器:一个简单的基准来微调GAN



论文原文:

S. Mo, M. Cho, and J. Shin, Freeze the discriminator: A simple baseline for fine-tuning gans,2020. arXiv:2002.10964 [cs.CV].



这个人脸生成模型,能够将正常的人脸照片转换成独特的风格,如Lee malnyeon,辛普森一家,艺术的风格,你甚至还可以试试狗! 这种新技术最好的地方,是它超级简单,而且显著优于以前使用GAN的技术。



代码地址:

https://github.com/sangwoomo/freezeD?utm_source=catalyzex.com



13、从单一图像对人的神经重新渲染





论文地址:

K. Sarkar, D. Mehta, W. Xu, V. Golyanik, and C. Theobalt, “Neural re-rendering of humans from a single image,” in European Conference on Computer Vision (ECCV), 2020.



该算法将人体的姿态和形状表示为一个参数网格,可以由单个图像重建,并易于恢复。根据其他输入图片,给定一个人的图像,此技术能够创建这个人具有不同姿势,身穿不同衣服的合成图像。


项目主页:

http://gvv.mpi-inf.mpg.de/projects/NHRR/



14、I2L-MeshNet:实现从单个RGB图像出发,来进行精确三维人体姿态和网格估计的mage-to-Lixel 预测网络



论文原文:

G. Moon and K. M. Lee, “I2l-meshnet: Image-to-lixel prediction network for accurate 3d human pose and mesh estimation from a single rgb image,” in European Conference on ComputerVision (ECCV), 2020



该论文研究者提出了一种从单一RGB图像,来进行三维人体姿态和网格估计的新技术,他们将其称之为I2L-MeshNet。其中I2L表示图像到lixel,类似于体素(体积+像素),研究者将lixel、一条线和像素定义为一维空间中的量化细胞。

I2L-MeshNet: Image-to-Lixel Prediction Network for Accurate 3D Human Pose and Mesh Estimation from a Single RGB Image [14]


代码地址:

https://github.com/mks0601/I2L-MeshNet_RELEASE



15、超级导航图:连续环境中的视觉语言导航




论文原文:
J. Krantz, E. Wijmans, A. Majumdar, D. Batra, and S. Lee, “Beyond the nav-graph: Vision-and-language navigation in continuous environments,” 2020. arXiv:2004.02857 [cs.CV].
 
语言导航是一个被广泛研究且非常复杂的领域。事实上,对于一个人来说,穿过一间房子去取你放在床边床头柜上的咖啡似乎很简单。但对于机器来说,情况就完全不同了。agent是一种自主的人工智能驱动系统,使用深度学习来执行任务。


代码地址:

https://github.com/jacobkrantz/VLN-CE



16、RAFT:光流的循环全对场变换





论文原文:
Z. Teed and J. Deng, Raft: Recurrent all-pairs field transforms for optical flow, 2020. arXiv:2003.12039 [cs.CV].
 
此篇论文来自于普林斯顿大学的团队,并获得ECCV 2020最佳论文奖。研究者开发了一种新的端到端可训练的光流模型。他们的方法超越了最先进的架构在多个数据集上的准确性,而且效率更高。


代码地址:

https://github.com/princeton-vl/RAFT



17、众包采样全光功能



论文原文:

Z. Li, W. Xian, A. Davis, and N. Snavely, “Crowdsampling the plenoptic function,” inProc.European Conference on Computer Vision (ECCV), 2020.


 
利用游客在网上公开的照片,他们能够重建一个场景的多个视点,并保留真实的阴影和光线。对于photorealistic场景渲染来说,这是一个巨大的进步,象征着最先进的技术。他们的结果是惊人的。


代码地址:

https://github.com/zhengqili/Crowdsampling-the-Plenoptic-Function



18、通过深度潜在空间翻译来恢复老照片






论文原文:

Z. Wan, B. Zhang, D. Chen, P. Zhang, D. Chen, J. Liao, and F. Wen, Old photo restoration via deep latent space translation, 2020. arXiv:2009.07047 [cs.CV].



想象一下,仅仅靠那些旧的、折叠的、甚至撕破的照片,你就不留任何人工痕迹地可以拥有祖母18岁时的高清照——这就是所谓的旧照片恢复。


代码地址:

https://github.com/microsoft/Bringing-Old-Photos-Back-to-Life?utm_source=catalyzex.com



19、支持可审核自治的神经回路策略






论文原文:

Lechner, M., Hasani, R., Amini, A. et al. Neural circuit policies enabling auditable autonomy. Nat Mach Intell2, 642–652 (2020). 


 
奥地利理工学院(IST Austria)和麻省理工学院(MIT)的研究人员利用一种新的人工智能系统,是基于蠕虫等微小动物的大脑,他们成功训练了一辆自动驾驶汽车。与Inceptions、Resnets或VGG等流行的深度神经网络所需的数百万神经元相比,他们只需要少数神经元,就能控制自动驾驶汽车。
 


论文地址:

https://doi.org/10.1038/s42256-020-00237-3



20、了解不同岁数的你



论文原文:

R. Or-El, S. Sengupta, O. Fried, E. Shechtman, and I. Kemelmacher-Shlizerman, “Lifespanage transformation synthesis,” in Proceedings of the European Conference on Computer Vision(ECCV), 2020.



想看看你40岁的时候长什么样?现在可以了!Adobe研究院的一组研究人员开发了一种新技术,仅根据一张真人照片,就可以合成此人在任何年龄的照片。
 


代码地址:

https://github.com/royorel/Lifespan_Age_Transformation_Synthesis



21、DeOldify:为黑白图像着色





DeOldify是一种对旧的黑白图像或甚至电影胶片进行着色和恢复的技术。它由Jason Antic开发,目前仍在更新中。这是现在给黑白图像着色的最先进的方法,所有的东西都是开源的。
 


代码地址:

https://github.com/jantic/DeOldify



22、COOT:视频文本表示学习的协作层次变换






论文原文:

S. Ging, M. Zolfaghari, H. Pirsiavash, and T. Brox, “Coot: Cooperative hierarchical trans-former for video-text representation learning,” in Conference on Neural Information ProcessingSystems, 2020.



顾名思义,通过输入视频和视频的一般描述,此技术能使用转换器,为视频的每个序列生成准确的文本描述。
 


代码地址:

https://github.com/gingsi/coot-videotext



23、像一个真正的画家一样变换图片风格






论文原文:

Z. Zou, T. Shi, S. Qiu, Y. Yuan, and Z. Shi, Stylized neural painting, 2020. arXiv:2011.08114[cs.CV]



这种从图像到绘画的转换模型,使用了一种不涉及任何GAN架构的新颖方法,在多种风格上模拟一个真正的画家。


代码地址:

https://github.com/jiupinjia/stylized-neural-painting



24、实时人像抠图真的需要绿色屏幕吗?


论文原文:

Z. Ke, K. Li, Y. Zhou, Q. Wu, X. Mao, Q. Yan, and R. W. Lau, “Is a green screen really necessary for real-time portrait matting?” ArXiv, vol. abs/2011.11961, 2020.



人体抠图是一项非常有趣的任务,它的目标是找到照片中的任何一个人,并将背景从照片中移除。由于任务的复杂性,要找到拥有完美轮廓的人是非常困难的。在这篇文章中,研究者回顾了这些年来使用的最佳技术和发表于2020年11月29日的一种新方法。
 


项目地址:

https://github.com/ZHKKKe/MODNet



25、ADA: 使用有限数据训练生成对抗网络






论文原文:

T. Karras, M. Aittala, J. Hellsten, S. Laine, J. Lehtinen, and T. Aila, Training generative adversarial networks with limited data, 2020. arXiv:2006.06676 [cs.CV].




使用这种由英伟达开发的新训练方法,仅仅使用十分之一的图像,您就可以训练一个强大的生成模型!

代码地址:
https://github.com/NVlabs/stylegan2-ada

最后,大家也可以在在GitHub中访问论文完整列表:
https://github.com/louisfb01/Best_AI_paper_2020

参考链接:
https://medium.com/towards-artificial-intelligence/2020-a-year-full-of-amazing-ai-papers-a-review-c42fa07aff4b

也可以加一下老胡的微信
围观朋友圈~~~

推荐阅读

pip 的高阶玩法

Numpy神秘失踪事件

我爱线代,线代使我快乐

麻省理工学院计算机课程【中文版】

【清华大学王东老师】现代机器学习技术导论.pdf

机器学习中令你事半功倍的pipeline处理机制

机器学习避坑指南:训练集/测试集分布一致性检查

机器学习深度研究:特征选择中几个重要的统计学概念

浏览 23
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报