【T-RAG】分层记忆索引、多阶段检索与基准测试MultiTableQA - 教程

RAG OVER TABLES: HIERARCHICAL MEMORY INDEX, MULTI-STAGE RETRIEVAL, AND BENCHMARKING

参考论文:RAG over Tables: Hierarchical Memory Index, Multi-Stage Retrieval, and Benchmarking、、、 项目代码

时间:2025.10.5

T-RAG是针对单跳、多跳等表格查询问题的最新RAG框架,通过分层记忆索引,聚类构建异构超图——>多阶段检索,分为粗粒度先检索出相关簇,细粒度再检索到相关表——>图感知提示,为图信息注入和分层长思维链生成让LLM更好的回答问题。并定义基准测试集MultiTableQA,解决了跨表评估问题~~

一、研究背景与挑战

在现实场景中,大量知识以表格形式存储(如网页、维基百科、关系数据库),用户障碍常需跨多个表格检索答案。但现有RAG系统主要聚焦于纯文本文档,在表格知识检索与推理中存在四大核心挑战:

  1. 表格知识理解难:表格具备文本标题、结构化内容,需同时理解表内(intra-table)和表间(inter-table)知识,且预定义的稀疏主键-外键不足以定位非预设的跨表答案。
  2. 记忆索引构建难:需构建分层索引以快速过滤无关表格,同时需设计多粒度适配的检索机制。
  3. LLM提示工程难:需将检索到的结构化表格信息组织成适合LLM推理的格式。
  4. 基准测试缺失:缺乏真实场景下的跨表RAG评估资料集,难以验证方法有效性。

二、核心解决方案:T-RAG框架

首个面向表格语料的RAG框架,凭借“分层记忆索引+多阶段检索+图感知提示”三大协同组件,建立高效、准确的跨表知识检索与推理,框架流程如下图所示:就是T-RAG
在这里插入图片描述

1. 表格到图的构建(分层记忆索引基础)

将表格语料组织为异质超图(Hypergraph),解决表格间关系建模挑战:

  • 表格线性化:保留表格结构的同时转化为文本序列,⊕表示拼接,避免神经网络摘要导致的结构丢失。格式为

    s = [ [ Table ] , ⨁ ( [ Caption ] , A ) , ⨁ k = 1 M ( [ Header ] , h k ) ] s = \left[ [\text{Table}], \bigoplus ([\text{Caption}], A), \bigoplus_{k=1}^{M} ([\text{Header}], h_k) \right]s=[[Table],([Caption],A),k=1M([Header],hk)]

  • 多维度特征提取:为每个线性化表格提取三类特征,最大化保留信息:

    • 语义特征(x^(sem)):用Sentence Transformer/Contriever编码表格语义。
    • 结构特征(x^(struct)):用spaCy提取token数、词性标签频率等格式特征。
    • 启发式特征(x^(heur)):用TF-IDF提取词袋表示。
  • 异质超图构建:对每类特征单独用KMeans聚类,每个聚类簇作为一条“超边”(连接多个表格节点),最终超图G=(V,E)中,V为表格节点(含三类特征的复合表示),E为三类特征对应的超边集合。

2. 多阶段检索(高效筛选相关表格)

采用“粗粒度→细粒度”两阶段检索,平衡效率与召回率:

(1)粗粒度多维度检索:高效缩小范围

粗粒度多维度检索旨在快速缩小与查询相关的表格范围,主要包含以下关键步骤,涉及的公式如下:

步骤说明公式
典型节点选择对于每个特征类型ϕ \phiϕ对应的聚类C j ( ϕ ) C_{j}^{(\phi)}Cj(ϕ),选取与簇中心μ j \mu_{j}μj代表性分数(余弦相似度)Top - (k)的节点作为典型节点V typ ( ϕ ) \mathcal{V}_{\text{typ}}^{(\phi)}Vtyp(ϕ)V typ ( ϕ ) = top − k { S rep ( ϕ ) ( s i , μ j ) ∣ s i ∈ C j ( ϕ ) } \mathcal{V}_{\text{typ}}^{(\phi)} = \text{top}-k\left\{\mathbb{S}_{\text{rep}}^{(\phi)}\left(s_{i}, \mu_{j}\right) \mid s_{i} \in C_{j}^{(\phi)}\right\}Vtyp(ϕ)=topk{Srep(ϕ)(si,μj)siCj(ϕ)},其中S rep ( ϕ ) ( a , b ) = ⟨ x a ( ϕ ) , x b ( ϕ ) ⟩ ∣ x a ( ϕ ) ∣ ∣ x b ( ϕ ) ∣ ( S rep ( ϕ ) \mathbb{S}_{\text{rep}}^{(\phi)}(a, b)=\frac{\left\langle x_{a}^{(\phi)}, x_{b}^{(\phi)}\right\rangle}{\left|x_{a}^{(\phi)}\right|\left|x_{b}^{(\phi)}\right|}(\mathbb{S}_{\text{rep}}^{(\phi)}Srep(ϕ)(a,b)=xa(ϕ)xb(ϕ)xa(ϕ),xb(ϕ)Srep(ϕ)为代表性分数计算式,即余弦相似度公式)
查询 - 簇匹配(单特征类型)将用户查询用相同途径提取特征后,计算查询与每个簇典型节点的平均代表性分数,选择最优簇C ∗ ( ϕ ) C^{*(\phi)}C(ϕ)在这里插入图片描述
多维度最优簇合并合并三类特征(语义、结构、启发式)的最优簇,得到最终候选集C ∗ C^{*}CC ∗ = ⋃ ϕ ∈ { sem , struct , heur } C ∗ ( ϕ ) C^{*}=\bigcup_{\phi \in\{\text{sem}, \text{struct}, \text{heur}\}} C^{*(\phi)}C=ϕ{sem,struct,heur}C(ϕ)

csdn神如经,好好的公式就是乱码,中间部分截图表示了

(2)细粒度子图检索:精准排序

细粒度子图检索是T - RAG框架中在粗粒度检索基础上进一步精准定位答案表格的关键步骤,主要包括局部子图构建和迭代个性化PageRank检索两个核心环节,涉及的公式如下:

步骤说明公式
局部子图构建在粗粒度检索得到最优聚类C ∗ C^{*}C后,利用其中节点间的连接关系构建局部子图G l o c a l = ( V l o c a l , E l o c a l ) G_{local }=(V_{local }, E_{local })Glocal=(Vlocal,Elocal)。仅利用语义特征,通过相似度阈值τ ∈ [ 0 , 1 ] \tau \in[0,1]τ[0,1]确定边的存在,边由相应代表性分数加权V local = { s i ∣ s i ∈ C ∗ } , E local = { ( s i , s j ) ∈ C ∗ × C ∗ ∣ S rep ( sem ) ( s i , s j ) ≥ τ } \mathcal{V}_{\text{local}} = \{s_i \mid s_i \in C^* \}, \mathcal{E}_{\text{local}} = \{(s_i, s_j) \in C^* \times C^* \mid \mathbb{S}_{\text{rep}}^{(\text{sem})}(s_i, s_j) \geq \tau\}Vlocal={sisiC},Elocal={(si,sj)C×CSrep(sem)(si,sj)τ}
迭代个性化PageRank检索1. 相似度矩阵计算:对于局部子图里的每一对表格 (si*,*sj),如果它们之间有边,就把 “语义代表性分数” 填到矩阵里;假如没边,就填 0。
2. 转移矩阵获取:对相似度矩阵(S)行归一化得到转移矩阵(P)
3. 个性化向量计算:根据查询(q)计算个性化向量(h),个性化向量是查询 q对每个表格节点的 “偏好程度”
4. PageRank向量迭代更新
:最终收敛的 v 就是每个表格节点的 “PageRank 分数”,分数越高,代表和查询越相关
1. S i j = { S r e p ( s e m ) ( s i , s j ) , if ( s i , s j ) ∈ E l o c a l 0 , otherwise S_{ij}= \begin{cases}\mathbb{S}_{rep }^{(sem )}\left(s_{i}, s_{j}\right), & \text{if } \left(s_{i}, s_{j}\right) \in \mathcal{E}_{local }\\ 0, & \text{otherwise} \end{cases}Sij={Srep(sem)(si,sj),0,if (si,sj)Elocalotherwise
2. 转移矩阵(P):对(S)行归一化得到
3. h i = S r e p ( s e m ) ( q , s i ) ∑ j = 1 t l o c a l S r e p ( s e m ) ( q , s j ) h_{i}=\frac{\mathbb{S}_{rep}^{(sem)}\left(q, s_{i}\right)}{\sum_{j=1}^{t_{local }} \mathbb{S}_{rep}^{(sem) }\left(q, s_{j}\right)}hi=j=1tlocalSrep(sem)(q,sj)Srep(sem)(q,si)
4. v ( σ + 1 ) = ( 1 − α ) h + α P v ( σ ) v^{(\sigma+1)}=(1-\alpha) h+\alpha P v^{(\sigma)}v(σ+1)=(1α)h+αPv(σ) ,其中α ∈ ( 0 , 1 ) \alpha \in(0,1)α(0,1)是阻尼因子,(v^{(0)} = h) ,迭代直到∣ v ( σ + 1 ) − v ( σ ) ∣ 1 < ϵ \left|v^{(\sigma+1)}-v^{(\sigma)}\right|_{1}<\epsilonv(σ+1)v(σ)1<ϵϵ > 0 \epsilon>0ϵ>0为小的容忍值)

3. 图感知提示(提升LLM推理能力)

设计两部分提示结构,援助LLM理解表格间关系并分步推理:

  • 图信息注入:将检索到的表格节点索引及节点间的权重(代表性分数)嵌入提示,明确表格间关联。
  • 分层长链推理(CoT):引导LLM分三步推理:①识别最相关表格;②解释查询与表格的关联;③提取表格行列信息生成答案,输出格式强制包含 <reasoning>推理过程</reasoning></answer> 最终答案</answer> 标签。

三、基准测试数据集:MultiTableQA

为解决跨表RAG评估缺失问题,作者构建了首个大规模真实场景多表问答基准,核心特点如下:

1. 数据来源与构建流程

  • 源表格分解:从HybridQA、SQA、Tabfact、WikiTables等真实单表数据集筛选2万张表格,凭借“行拆分”(将表行分为多个子表,保留原 schema)和“列拆分”(保留主键列,拆分其他列)生成5.7万张跨表语料。
  • 查询组合与去语境化:收集15万条真实用户查询,过滤冗余后用“AND”“Based on [previous query]”等连接词组合成2.3万条跨表查询,替换模糊指代(如“this”→具体实体)确保查询独立可理解。
  • 去偏与多样化:对同根表的子表重写标题、随机打乱行列顺序,平衡行/列拆分比例,避免评估偏差。

2. 任务类型与统计信息

涵盖三类跨表任务,统计数据如下表所示:

任务类型表格数量查询数量平均行数平均列数任务描述
表格事实验证(TFV)34,35115,1065.85.7判断用户声明是否被表格数据拥护(标签:1=协助,0=反驳)
单跳表格问答(Single-hop TQA)17,2296,1067.44.5答案位于单个表格单元格,但需跨表定位该单元格
多跳表格问答(Multi-hop TQA)5,5232,57313.87.3答案需整合多个表格的多个单元格信息(如“找到西班牙运动员及柏林马拉松排名”)

3. 检索难度分级

根据源表格拆分出的子表数量划分:

  • 简单(Easy):未拆分(1个子表)
  • 中等(Medium):拆分为2个子表
  • 困难(Hard):拆分为3个子表

四、实验结果与关键发现

实验基于MultiTableQA和Spider内容集,对比表格检索、RAG、表-图表示学习三类基线方法,验证T-RAG的有效性、通用性与效率。

1. 核心性能:检索与下游推理双优

(1)检索性能

T-RAG在三类任务的Acc@k和Recall@k均达SOTA:

在这里插入图片描述

(2)下游LLM推理性能

T-RAG对不同规模LLM均有稳定提升,平均性能提升11.2%:

在这里插入图片描述

2. 通用性验证

在这里插入图片描述

3. 效率分析

  • 检索效率:粗粒度检索快速(TFV任务仅24分钟),细粒度检索耗时较长但必要(占总耗时81.7%),整体 latency 低于Table-E5(TFV任务133.1分钟 vs 215.8分钟),且最终仅保留10张表格(过滤99.9%数据)。

在这里插入图片描述

  • 组件有效性: ablation实验显示,去除图信息注入(w/o G)会导致Multi-hop TQA性能下降1.5%,去除长CoT(w/o H)则下降12.3%,证明提示组件的必要性。

在这里插入图片描述

五、相关工作与结论

1. 相关工作对比

  • 表格问答(Table QA):现有工作多聚焦单表,少数跨表方法(如MT-RAIG)启用合成查询,而MultiTableQA基于真实数据且无需人工标注。
  • 图RAG(GraphRAG):传统方法依赖预定义知识图谱,T-RAG凭借多特征聚类自动构建异质超图,适配无结构化表格数据。
  • LLM表格推理:现有方法(如TAPAS、TabERT)侧重表格表示,T-RAG则整合“检索+提示”,端到端消除跨表问答。

2. 研究结论

  1. T-RAG通过分层超图索引、多阶段检索和图感知提示,有效应对了跨表知识检索与推理的核心挑战,在检索 accuracy、recall 和推理性能上均达SOTA。
  2. MultiTableQA作为首个大规模真实跨表基准,为表格RAG研究供应了标准化评估工具。
  3. 未来可探索更高效的细粒度检索算法,以及适配更大规模表格语料的索引优化。

六、补充信息

论文附录围绕T - RAG框架、MultiTableQA基准测试、实验设置和额外实验展开,为正文给予了丰富的细节信息。

  1. T - RAG框架补充细节:解释代表性分数用于量化节点间代表性,强调其任务特定的可解释性;给出图感知提示方法的提示模板,包含架构消息、用户消息,指导LLMs进行表格推理并按特定格式输出。
  2. MultiTableQA基准测试细节:分析传统多表数据集构建方法的障碍,如相似主题表集稀疏、资源成本高、自动标注有偏差;定义了基准测试中的三种任务类型,即表格事实验证、单跳表格问答和多跳表格问答,并给出具体示例。
  3. 实验设置:介绍各类基线方法,包括表格检索、基于RAG的、表格到图表示和表格提示方法;说明模型设置,应用多种开源和闭源LLMs并设置相关参数,以及基线方法的实现细节。
  4. 额外实验:对比T - RAG与其他方法在下游LLMs表格推理的性能,分析增加检索表格数量对性能的影响;进行消融实验,验证图感知提示各组件的有效性,研究最终检索表格数量、粗粒度检索超参数和细粒度检索超参数对性能的影响。
posted @ 2026-01-25 20:39  clnchanpin  阅读(3)  评论(0)    收藏  举报