HorovodTensorFlow 分布式深度学习框架
Horovod 是 Uber 开源的针对 TensorFlow 的分布式深度学习框架,旨在使分布式深度学习更快速,更易于使用。
Horovod 吸取了 Facebook 的 Training ImageNet in 1 Hour(一小时训练 ImageNet) 论文与百度 Ring Allreduce 的优点,为用户实现分布式训练提供帮助。该项目主要是想能够轻松采用单个 GPU TensorFlow 程序,同时也能更快地在多个 GPU 上成功地对其进行训练。使用 Horovod 我们可以不需要再去担心或学习很多东西,如 tf.Server()、tf.ClusterSpec()、tf.train.SyncReplicasOptimizer()、tf.train.replicas_device_setter()等等。
除了易于使用,Horovod 的速度也很快。下图为 Inception V3 和 ResNet-101 TensorFlow 模型在 25GbE TCP 上使用不同数量的 NVIDIA Pascal GPU 时,使用标准分布式 TensorFlow 和 Horovod 运行分布式训练工作每秒处理的图像数量对比。
评论
BytePS高性能分布式深度学习训练框架
BytePS是字节跳动开源的高性能分布式深度学习训练框架,官方宣称BytePS在性能上颠覆了过去几年allreduce流派一直占据上风的局面,超出目前其他所有分布式训练框架一倍以上的性能,且同时能够支
BytePS高性能分布式深度学习训练框架
0
CaffeOnSpark分布式深度学习
该项目已归档许多现有的DL框架需要一个分离的集群进行深度学习,而一个典型的机器学习管道需要创建一个复杂的程序(如图1)。分离的集群需要大型的数据集在它们之间进行传输,从而系统的复杂性和端到端学习的延迟
CaffeOnSpark分布式深度学习
0
Mrdflow深度学习框架
MrdFlow的定位是基于NumPy的深度学习框架,采用自动微分作为求导算法,支持多种运算求导。MrdFlow内置神经网络模块,可以使用MrdFlow提供的Api,编写神经网络,并进行训练。软件地址:
Mrdflow深度学习框架
0