Lance_仓湖一体和数据库-LanceDB

LanceDB

LanceDB 是一款开源、无服务器(Serverless)向量数据库
    embedded database that runs in-process (like SQLite)
	没有原生的独立命令行界面(CLI)
   底层技术:Apache Arrow + Lance 列式格式
    
  	01.lancedb.connect() 使用数据库,无需启动单独的数据库服务进程。
    02.也可以将数据放在对象存储(如 AWS S3),LanceDB 按需加载索引和向量  
   紧贴模型和数据这两个不变量		
lance-format
    开源数据格式 Lance,以解决传统数据格式 Parquet 不适合大规模非结构化数据的问题
  Lance格式与LanceDB:Lance是专为AI设计的开源列式存储格式	
  火山引擎LAS:基于Lance格式构建,专为智能驾驶等场景设计,优化了大规模多模态数据(如点云、图像)的存储和处理
  
  Open Lakehouse Format for Multimodal AI
  
Lance 格式支持在一张表中存储原始数据、元数据、向量和用于 fine-tune 的用户反馈  

概念

table ---namespace 
  LanceTable	
  
传统的数据湖大多基于 Parquet 格式或原始图像文件存储

lance格式

  Lance 有一个元数据(metadata)层,

示例

###01.
 import lancedb
 uri = "ex_lancedb"
 db = lancedb.connect(uri)
 ##创建表和读写数据
 table = db.create_table("adventurers", data=data, mode="overwrite")

### 02.LanceDB 按需加载索引和向量   
 import lancedb
 uri = "s3://your-bucket/path"
 # You can also use "gs://your-bucket/path" or "az://your-container/path".
 db = lancedb.connect(uri)	  

表格式 open table format

   Iceberg open table format                背景:Netflix 开源,Apache 顶级项目 Iceberg(行业事实标准) 
   Delta Lake open-source storage format.   Databricks 创立,开源 + 商业强化
   DuckLake format
   Apache Paimon                           (流式湖仓,Flink 原生) DuckDB-paimon是由PolarDB 团队开发的一款 DuckDB 扩展插件,
                                        让 DuckDB 能够直接读取和查询Apache Paimon格式的数据湖表

文件格式

avro: Avro 是 行式存储 的代表,是为了在线处理和消息传递
csv 
json--json 
parquet  深度集成于Arrow
Vortex
lance : 向量和非结构化多模态数据 rust

存储

对象存储 
azure aws 

数据库

PostgreSQL database
MySQL database
SQLite database

能力

 httpfs
 vector similarity search
 spatial

格式说明

磁盘格式 --持久化格式

   json
   parquet 
   lance

交换格式-通讯格式

    高效的通用数据交换格式 json 
       	protobuf : 行式存储 (Row-based)
		FlatBuffers
	概念: 序列化方案--序列化和反序列化

内存格式 -分析和计算

     Arrow 是一种标准化的内存数据格式,解决了传统格式在内存与磁盘之间频繁的序列化开销
          数据分析与计算引擎交换数据设计
          Apache Arrow 能在其内部(如跨进程通信时)使用 FlatBuffers 
		     元数据层使用了 FlatBuffers 来编码 Schema 等关键信息,确保了元数据跨语言、跨平台的一致性
    非磁盘格式是一种数据存储方式,数据存储在内存或高速缓存等非磁盘介质中

向量数据库

大多数向量数据库是专门为语义搜索而设计的,由向量 ID、元数据的 blob 等构成,
    这个 blob 适用于 MongoDB 式的存储和元数据过滤,而不是用于长文本的有效存储、检索和管理		

总体架构

业务

数据:
    
模型:
    大模型:更多参数、更大模型,以求更精确的反馈 
    agent :为OpenClaw、ArkClaw等Agent提供专属的记忆底座 
	      本地Markdown文件存储,或在Markdown基础上接入LanceDB
	计算:  

数据

Lance Format将图像与数据混合存储有以下优势:
  数据的完整性与一致性: 读取效率提升: 简化数据管理: 
   兼容性与可移植性: 安全与权限控制: 
数管平台 让企业数据不再“散落一地”。数管平台是“仓库”(智能、灵活的仓库)
   数据 → 数管平台(处理、建模、治理) → 知识 →
新一代数据湖-- 
    ClawLake(记忆提取、分层存储、按需召回)
Gravitino+GVFS非结构化数据治理

数据引擎

 spark   flink 
 Ray 和 Daft 以及 NeMo Curator 三个非结构化数据处理的引擎
    Daft是一个基于Rust和Python构建的分布式DataFrame引擎
    NVIDIA NeMo 是英伟达推出的开源神经模块化工具套件,基于PyTorch后端构建

类似技术和产品

 Parquet 是 Google Dremel 的开源实现,是大数据生态的事实标准 
 Vortex作为 Linux 基金会旗下的下一代列式存储格式
      可以在压缩数据上直接执行过滤和计算,不需要先解压。
	   DuckDB 自 1.4.2 起正式支持 Vortex(通过vortex扩展
    https://github.com/vortex-data/vortex
    https://duckdb.org/docs/current/core_extensions/vortex
	
 Iron 起默认存储改为mcap;此前默认是sqlite3

模型

大模型和小模型
   训练和推理	   
 agent  让Agent不再“用过即忘”, 		

参考

https://github.com/lance-format/lance
https://github.com/lancedb/lancedb
posted @ 2026-04-23 18:02  辰令  阅读(15)  评论(0)    收藏  举报