PyTorch 1.10 正式版上线:Android NNAPI 支持来了
机器学习实验室
共 2749字,需浏览 6分钟
·
2021-10-26 04:40
集成了 CUDA Graphs API 以减少 CUDA 工作负载的 CPU 开销; FX、torch.special 和 nn.ModuleParametrization 等几个前端 API 已从测试版变为稳定版; 除了 GPU 之外,JIT Compiler 中对自动融合的支持扩展到 CPU; Android NNAPI 支持现已推出测试版。
Remote Module(稳定版):此功能允许用户远程操作模块,就像使用本地模块一样,其中 RPC 对用户是透明的; DDP Communication Hook(稳定版):此功能允许用户覆盖 DDP 如何跨进程同步梯度; ZeroRedundancyOptimizer(稳定版):此功能可与 DistributedDataParallel 结合使用,以减少每个进程优化器状态的大小。
增强型内存视图:这有助于用户更好地了解内存使用; 增强型内核视图:附加列显示网格和块大小以及每个线程共享内存使用和寄存器的情况; 分布式训练:Gloo 现在支持分布式训练工作; TensorCore:该工具显示 Tensor Core(TC) 的使用,并为数据科学家和框架开发人员提供建议; NVTX:对 NVTX markers 的支持是从旧版 autograd profiler 移植过来的; 支持移动设备分析:PyTorch profiler 现在与 TorchScript 、移动后端能够更好的集成,支持移动工作负载的跟踪收集。
往期精彩:
评论