LanceML 和 LLM 的列式数据格式
Lance 是一种现代的列式数据格式,针对 ML 工作流和数据集进行了优化。只需两行代码即可从 parquet 转换为 100 倍更快的随机访问、向量索引、数据版本控制等。与 pandas、duckdb、polars、pyarrow 兼容,并在进行更多集成。
可以轻松快速地进行版本控制、查询和训练。它设计用于图像、视频、3D point clouds、音频,当然还有表格数据。它支持任何 POSIX 文件系统,以及 AWS S3 和谷歌云存储等云存储。
Lance 非常适合:
- 建立搜索引擎和特色商店。
- 需要高性能 IO 和 shuffle 的大规模 ML 训练。
- 存储、查询和检查深度嵌套数据以获取机器人技术或图像、点云等大块数据。
Lance 的主要特点包括:
-
高性能随机访问:在不牺牲扫描性能的情况下,比 Parquet 快 100 倍。
-
矢量搜索:在几毫秒内找到最近的邻居,并将 OLAP 查询与矢量搜索相结合。
-
零拷贝、自动版本控制:无需额外基础设施即可管理数据版本。
-
生态系统集成: Apache-Arrow、Pandas、Polars、DuckDB 等正在开发中。
评论