LanceDB
LanceDB 是一款开源、无服务器(Serverless)向量数据库
embedded database that runs in-process (like SQLite)
没有原生的独立命令行界面(CLI)
底层技术:Apache Arrow + Lance 列式格式
01.lancedb.connect() 使用数据库,无需启动单独的数据库服务进程。
02.也可以将数据放在对象存储(如 AWS S3),LanceDB 按需加载索引和向量
紧贴模型和数据这两个不变量
lance-format
开源数据格式 Lance,以解决传统数据格式 Parquet 不适合大规模非结构化数据的问题
Lance格式与LanceDB:Lance是专为AI设计的开源列式存储格式
火山引擎LAS:基于Lance格式构建,专为智能驾驶等场景设计,优化了大规模多模态数据(如点云、图像)的存储和处理
Open Lakehouse Format for Multimodal AI
Lance 格式支持在一张表中存储原始数据、元数据、向量和用于 fine-tune 的用户反馈
概念
table ---namespace
LanceTable
传统的数据湖大多基于 Parquet 格式或原始图像文件存储
lance格式
Lance 有一个元数据(metadata)层,
示例
###01.
import lancedb
uri = "ex_lancedb"
db = lancedb.connect(uri)
##创建表和读写数据
table = db.create_table("adventurers", data=data, mode="overwrite")
### 02.LanceDB 按需加载索引和向量
import lancedb
uri = "s3://your-bucket/path"
# You can also use "gs://your-bucket/path" or "az://your-container/path".
db = lancedb.connect(uri)
Iceberg open table format 背景:Netflix 开源,Apache 顶级项目 Iceberg(行业事实标准)
Delta Lake open-source storage format. Databricks 创立,开源 + 商业强化
DuckLake format
Apache Paimon (流式湖仓,Flink 原生) DuckDB-paimon是由PolarDB 团队开发的一款 DuckDB 扩展插件,
让 DuckDB 能够直接读取和查询Apache Paimon格式的数据湖表
文件格式
avro: Avro 是 行式存储 的代表,是为了在线处理和消息传递
csv
json--json
parquet 深度集成于Arrow
Vortex
lance : 向量和非结构化多模态数据 rust
存储
对象存储
azure aws
数据库
PostgreSQL database
MySQL database
SQLite database
能力
httpfs
vector similarity search
spatial
格式说明
磁盘格式 --持久化格式
json
parquet
lance
交换格式-通讯格式
高效的通用数据交换格式 json
protobuf : 行式存储 (Row-based)
FlatBuffers
概念: 序列化方案--序列化和反序列化
内存格式 -分析和计算
Arrow 是一种标准化的内存数据格式,解决了传统格式在内存与磁盘之间频繁的序列化开销
数据分析与计算引擎交换数据设计
Apache Arrow 能在其内部(如跨进程通信时)使用 FlatBuffers
元数据层使用了 FlatBuffers 来编码 Schema 等关键信息,确保了元数据跨语言、跨平台的一致性
非磁盘格式是一种数据存储方式,数据存储在内存或高速缓存等非磁盘介质中
向量数据库
大多数向量数据库是专门为语义搜索而设计的,由向量 ID、元数据的 blob 等构成,
这个 blob 适用于 MongoDB 式的存储和元数据过滤,而不是用于长文本的有效存储、检索和管理
总体架构
业务
数据:
模型:
大模型:更多参数、更大模型,以求更精确的反馈
agent :为OpenClaw、ArkClaw等Agent提供专属的记忆底座
本地Markdown文件存储,或在Markdown基础上接入LanceDB
计算:
数据
Lance Format将图像与数据混合存储有以下优势:
数据的完整性与一致性: 读取效率提升: 简化数据管理:
兼容性与可移植性: 安全与权限控制:
数管平台 让企业数据不再“散落一地”。数管平台是“仓库”(智能、灵活的仓库)
数据 → 数管平台(处理、建模、治理) → 知识 →
新一代数据湖--
ClawLake(记忆提取、分层存储、按需召回)
Gravitino+GVFS非结构化数据治理
数据引擎
spark flink
Ray 和 Daft 以及 NeMo Curator 三个非结构化数据处理的引擎
Daft是一个基于Rust和Python构建的分布式DataFrame引擎
NVIDIA NeMo 是英伟达推出的开源神经模块化工具套件,基于PyTorch后端构建
类似技术和产品
Parquet 是 Google Dremel 的开源实现,是大数据生态的事实标准
Vortex作为 Linux 基金会旗下的下一代列式存储格式
可以在压缩数据上直接执行过滤和计算,不需要先解压。
DuckDB 自 1.4.2 起正式支持 Vortex(通过vortex扩展
https://github.com/vortex-data/vortex
https://duckdb.org/docs/current/core_extensions/vortex
Iron 起默认存储改为mcap;此前默认是sqlite3
模型
大模型和小模型
训练和推理
agent 让Agent不再“用过即忘”,
参考
https://github.com/lance-format/lance
https://github.com/lancedb/lancedb