DPark分布式计算框架

联合创作 · 2023-10-01 06:34

DPark 是 Spark 的 Python 克隆，是一个Python实现的分布式计算框架，可以非常方便地实现大规模数据处理和迭代计算。 DPark 由豆瓣实现，目前豆瓣内部的绝大多数数据分析都使用DPark 完成，正日趋完善。

示例代码：

 import dpark
 file = dpark.textFile("/tmp/words.txt")
 words = file.flatMap(lambda x:x.split()).map(lambda x:(x,1))
 wc = words.reduceByKey(lambda x,y:x+y).collectAsMap()
 print wc

该代码可以在本地和 Mesos 集群上运行：

$ python wc.py
$ python wc.py -m process
$ python wc.py -m host[:port]

编辑分享

图片

表情

DPark分布式计算框架

DPark是Spark的Python克隆，是一个Python实现的分布式计算框架，可以非常方便地实现大规模数据处理和迭代计算。DPark由豆瓣实现，目前豆瓣内部的绝大多数数据分析都使用DPark完成，

DPark分布式计算框架

Bigflow分布式计算框架

Bigflow是百度的一套计算框架，它致力于提供一套简单易用的接口来描述用户的计算任务，并使同一套代码可以运行在不同的执行引擎之上。它的设计中有许多思想借鉴自 GoogleFlumeJava以及 Go

Bigflow分布式计算框架

libGlass分布式计算框架

libGlass 提供了一组可伸缩的组件用来执行分布式计算。应用程序在需要的情况下被当作是可重用的组

libGlass分布式计算框架

Paracel分布式计算框架

Paracel是一个分布式计算框架，用于解决机器学习的问题：逻辑回归、SVD、矩阵分解（BFGS，sgd，als，cg），LDA，Lasso...首先，Paracel拆分成大规模数据集和大量的参数空间

Paracel分布式计算框架

Bigflow分布式计算框架

Bigflow 是百度的一套计算框架，它致力于提供一套简单易用的接口来描述用户的计算任务，并使同一

Bigflow分布式计算框架

libGlass分布式计算框架

libGlass提供了一组可伸缩的组件用来执行分布式计算。应用程序在需要的情况下被当作是可重用的组件。该框架适合新的应用程序，同时对一些老应用也同样可用，而无需去改写。

libGlass分布式计算框架

Tiny分布式计算框架

其于职业介绍所、工头、工人、工作模型的分布式计算框架。职业介绍所有两种，一种是本地职业介绍所，一种是远程职业介绍所。顾名思义，本地职业介绍所就是在当前计算机上的，远程职业介绍所用于连接到远程职业介绍所

Tiny分布式计算框架

ProActive分布式计算框架

ProActive Parallel Suite 是一个开源的用于并行处理、分布式和多核计算的中间件

ProActive分布式计算框架

Tiny分布式计算框架

其于职业介绍所、工头、工人、工作模型的分布式计算框架。职业介绍所有两种，一种是本地职业介绍所，一种是

Tiny分布式计算框架

Paracel分布式计算框架

Paracel 是一个分布式计算框架，用于解决机器学习的问题：逻辑回归、SVD、矩阵分解（BFGS，

Paracel分布式计算框架

编辑分享