文本切割方案进化概览:从“机械切割”到“智能解构”

文档分块技术已经走过了三个主要时代,目前正迈向第四个:

V1.0 机械时代:

方法: 固定长度分块、字符/Token分块。

缺陷: 完全无视语义和逻辑,粗暴地将文本切开,导致大量上下文丢失和知识破碎。(已被业界淘汰)

V2.0 结构化时代:

方法: 递归字符分块 (RecursiveCharacterTextSplitter)、基于Markdown/HTML等结构化标记的分块。

理念: 尊重文档的“物理”结构,如段落、标题、列表。这是目前应用最广泛的基础方案。

V3.0 语义时代:

方法: 基于句子嵌入的语义相似度分块、命题化分块。

理念: 从“物理”结构深入到“意义”层面,让语义相似的内容聚合在一起。这是当前的主流进阶方案。

V4.0 代理时代:

方法: 授权给一个专门的LLM Agent,让它根据对文档的“理解”,自主决定最优的分块策略。

理念: 将分块本身视为一个复杂的推理任务,是目前最前沿的探索方向。

posted on 2025-10-11 17:44  ExplorerMan  阅读(17)  评论(0)    收藏  举报

导航