使用JuiceFS优化 Kylin4.0的存储性能-轻识

点击上方蓝色字体，选择“设为星标”

回复”资源“获取更多资源

JuiceFS 是什么？

JuiceFS 是为云端设计的共享文件系统。

JuiceFS 核心特性

JuiceFS 适用于所有文件形式数据的管理、分析、归档、备份。尤其可以支持大数据分析和机器学习对数据存储的需求。

POSIX、HDFS、NFS 兼容让 JuiceFS 不会对客户的业务系统带来任何侵入性，零成本替换。运维人员不用再为可用性、灾难恢复、监控、扩容等工作烦恼，专注于业务开发，提升研发效率。同时运维细节的简化，也让研发团队更容易向 DevOps 团队转型。

JuiceFS 由两个主要部分组成：

JuiceFS 元数据(Metadata)服务：元数据服务是由我们负责运维的一个集群，它们通过 Raft 算法实现高可用并同时保证数据的强一致性。元数据服务是专为文件系统优化的服务，非常高效和稳定。
JuiceFS 挂载客户端：即下图的 jfsmount, 它负责跟元数据服务和对象存储通信，并通过 FUSE 实现 POSIX API。另外，我们还提供一个脚本 juicefs, 用于 JuiceFS 的授权、挂载等所有操作。

注：元数据（metadata）包含文件名、文件大小、权限组、创建修改时间和目录结构。

当 JuiceFS 挂载到主机时，下图展示了它们是如何工作的：

当您的应用或者工具（可以使用任何语言编写）在使用内置的 API（open, read, write 等）访问数据时，会在底层通过系统调用经过内核中的 VFS 以及 FUSE 模块转发到 jfsmount, 再请求元数据服务或者对象存储完成操作。

JuiceFS 为海量数据存储设计，可以作为很多分布式文件系统和网络文件系统的替代，特别是以下场景：

大数据分析：HDFS 兼容，没有任何特殊 API 侵入业务；与主流计算框架（Spark, Hadoop, Hive等）无缝衔接；无限扩展的存储空间；运维成本几乎为 0；完善的缓存机制，高于对象存储性能数倍。
机器学习：POSIX 兼容，可以支持所有机器学习、深度学习框架；共享能力提升团队管理、使用数据效率。
容器集群中的持久卷：Kubernetes CSI 支持；持久存储并与容器生存期独立；强一致性保证数据正确；接管数据存储需求，保证服务的无状态化。
共享工作区：没有 VPC 限制，可以在任意主机挂载；没有客户端并发读写限制；POSIX 兼容已有的数据流和脚本操作。
数据备份：POSIX 是运维工程师最友好的接口；无限平滑扩展的存储空间；跨云跨区自动复制；挂载不受 VPC 限制，方便所有主机访问；快照（snapshot）可用于快速恢复和数据验证。

欢迎点赞+收藏+转发朋友圈素质三连

文章不错？点个【在看】吧！