熬了几个通宵,我写了份CUDA新手入门代码

极市平台

共 1816字,需浏览 4分钟

 ·

2021-03-30 10:32

↑ 点击蓝字 关注极市平台

作者丨godweiyang@知乎(已授权)
来源丨https://zhuanlan.zhihu.com/p/360441891
编辑丨极市平台

极市导读

 

作者自己编写了一份新手入门神经网络调用CUDA的示例,能够帮助解决CUDA编写以及python调用CUDA算子等问题。>>加入极市CV技术交流群,走在计算机视觉的最前沿

在用PyTorch或者TensorFlow搭积木的时候,你是不是也遇到过下面这些情况:

  • 自带的算子及其组合都无法满足你超(bian)常(tai)的计算需求。
  • 自带的算子不可导,需要自己定义反向传播的梯度,例如argmax。
  • 自带的算子太慢了,严重影响了你发paper的速度。

这时候你就会想,要是能自己实现一个速度又快、又能满足需求的算子就好了。

你想到了CUDA,自己写一个CUDA算子不就完事了嘛!

然后问题又来了,写是写完了,怎么用python代码调用它呢?

还有一个问题,这个算子它没梯度啊,自动求导机制不顶用了!

你去网上各种搜索,方法倒是全有,但是源码都好复杂,你一个新手怎么可能有心思看完那么复杂的教程?

这时候,你突然看到了这篇文章,看完后你惊呼:“怎么会有这么简洁的示例代码,这就是我想要的!”

没错,这就是我熬了好几个通宵,查了无数bug后,写出来的一份示例代码。

话不多说,先上源码好吧:

https://github.com/godweiyang/NN-CUDA-Example

我给它命名为“Neural Network CUDA Example”,简称“NN CUDA Example”,意思就是神经网络调用CUDA的示例。

那么这玩意到底有啥用呢?目前为止,它可以让你学到下面这些东西:

  • 最简单的CUDA算子的写法。
  • 最简洁的PyTorch和TensorFlow封装CUDA算子的方法。
  • 几种编译CUDA算子的方法。
  • python调用CUDA算子的几种方式。
  • python中统计CUDA算子运行时间的正确方法。
  • PyTorch和TensorFlow自定义算子梯度的方法。

你直呼内行,要是早点能看到这篇文章,能多发好几篇论文啊。

看完代码,有些细节你还是懵逼了,这这这都是啥意思啊,为啥这么写啊?

这时候你又看到了几篇教程,哦原来都有讲解,那没事了。

godweiyang:PyTorch自定义CUDA算子教程与运行时间分析

https://zhuanlan.zhihu.com/p/358220419

godweiyang:详解PyTorch编译并调用自定义CUDA算子的三种方式

https://zhuanlan.zhihu.com/p/358778742

godweiyang:三分钟教你如何PyTorch自定义反向传播

https://zhuanlan.zhihu.com/p/359524837

从那以后,你代码能力飞速提升,一连发了好几篇顶会。

然后你顺手一键三连,把这篇文章转给了身边有需要的人,个个都夸你发现了宝藏。

推荐阅读


详解PyTorch编译并调用自定义CUDA算子的三种方式

2021-03-27

PyTorch 源码解读之 cpp_extension:揭秘 C++/CUDA 算子实现和调用全流程

2021-03-21

保姆级教程:深度学习环境配置指南!(Windows、Mac、Ubuntu全讲解)

2021-01-21



# CV技术社群邀请函 #

△长按添加极市小助手
添加极市小助手微信(ID : cvmart2)

备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)


即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群


每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~


△点击卡片关注极市平台,获取最新CV干货

觉得有用麻烦给个在看啦~  
浏览 21
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报