LanceML 和 LLM 的列式数据格式

联合创作 · 2023-09-26 06:59

Lance 是一种现代的列式数据格式,针对 ML 工作流和数据集进行了优化。只需两行代码即可从 parquet 转换为 100 倍更快的随机访问、向量索引、数据版本控制等。与 pandas、duckdb、polars、pyarrow 兼容,并在进行更多集成。

可以轻松快速地进行版本控制、查询和训练。它设计用于图像、视频、3D point clouds、音频,当然还有表格数据。它支持任何 POSIX 文件系统,以及 AWS S3 和谷歌云存储等云存储。

Lance 非常适合:

  • 建立搜索引擎和特色商店。
  • 需要高性能 IO 和 shuffle 的大规模 ML 训练。
  • 存储、查询和检查深度嵌套数据以获取机器人技术或图像、点云等大块数据。

Lance 的主要特点包括:

  • 高性能随机访问:在不牺牲扫描性能的情况下,比 Parquet 快 100 倍。

  • 矢量搜索:在几毫秒内找到最近的邻居,并将 OLAP 查询与矢量搜索相结合。

  • 零拷贝、自动版本控制:无需额外基础设施即可管理数据版本。

  • 生态系统集成: Apache-Arrow、Pandas、Polars、DuckDB 等正在开发中。

浏览 11
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报