RAGFlow - 知识库 - 切片方法 (三)

image

image

 

一、页面排名

1、应用场景

在 AI 驱动的聊天中,您可以配置聊天助手或代理使用从多个指定知识库(数据集)检索到的知识进行响应,前提是它们采用相同的嵌入模型。如果您希望某些知识库中的信息优先或首先检索,您可以使用 RAGFlow 的页面排名功能来提高这些知识库中块的排名。例如,如果您已将聊天助手配置为从两个知识库中提取数据,即知识库 A 用于 2024 年新闻,知识库 B 用于 2023 年新闻,但希望优先考虑 2024 年的新闻,则此功能特别有用。

2、Configuration  配置

在知识库的“ 配置 ”页面上,拖动“ 页面排名” 下的滑块,以设置知识库的页面排名值。

您还可以在滑块旁边的字段中输入预期的页面排名值。页面排名值必须是正整数,范围:[0,100]

  • 默认 0:禁用
  • 0-100:启用

3、Scoring mechanism  评分机制

如果将聊天助手的相似度阈值配置为 0.2,则仅检索混合分数大于 0.2 x 100 = 20 的块并将其发送到聊天模型以生成内容。这个初始过滤步骤对于缩小相关信息范围至关重要。

如果为知识库 A(2024 年新闻)分配了 1 页排名,为知识库 B(2023 年新闻)分配了 0 页排名,则检索到的块的最终混合分数将相应调整。从知识库 A 检索到的初始分数为 50 的块将获得 1 x 100 = 100 分的提升,最终得分为 50 + 1 x 100 = 150。这样,从知识库 A 检索的块将始终位于知识库 B 中的块之前。

二、自动关键词、自动问题

1、什么是自动关键字?

自动关键字是指 RAGFlow 的自动关键字生成功能。它使用聊天模型从每个块生成一组关键字或同义词,以纠正错误并提高检索准确性。此功能作为知识库配置页面上的页面排名下的滑块实现。

Values: 价值观 :

  • 默认 0:禁用
  • 如果您有大约 1,000 个字符的块,则建议设置 3 到 5 之间(含)
  • 最大值 30

NOTE  注意:

  • 如果块大小增加,可以相应地增加该值。请注意,随着价值的增加,边际效益会减少。
  • Auto 关键字值必须是整数。如果将其设置为非整数,例如 1.7,它将向下舍入到最接近的整数,在本例中为 1。

2、什么是自动问题?

自动提问是 RAGFlow 的一项功能,它使用聊天模型从数据块中自动生成问题。这些问题(例如,谁、什么和为什么)也有助于纠正错误并改进用户查询的匹配。该功能通常适用于涉及产品手册或政策文档的常见问题解答检索场景。您可以在知识库的“ 配置 ”页面上的 “页面排名” 下找到此功能。

Values: 价值观 :

  • 默认 0:禁用
  • 如果您有大约 1,000 个字符的块,则建议设置 1 或 2
  • 最大值 10

NOTE  注意:

  • 如果块大小增加,可以相应地增加该值。请注意,随着价值的增加,边际效益会减少。
  • 自动提问值必须是整数。如果将其设置为非整数,例如 1.7,它将向下舍入到最接近的整数,在本例中为 1。

3、Tips from the community  来自社区的提示

Use cases or typical scenarios
用例或典型场景

Document volume/length

文档体积/长度

Auto_keyword (0–30)

自动关键字 (0–30)

Auto_question (0–10) 

自动问题 (0–10) 

Internal process guidance for employee handbook
员工手册的内部流程指南

Small, under 10 pages
小,不到 10 页

0 0

Customer service FAQs
客户服务常见问题

Medium, 10–100 pages
中,10-100 页

3–7 1–3

Technical whitepapers: Development standards, protocol details
技术白皮书:开发标准、协议详细信息

Large, over 100 pages
大,超过 100 页

2–4 1–2

Contracts / Regulations / Legal clause retrieval
合同/法规/法律条款检索

Large, over 50 pages
大,超过 50 页

2–5 0–1

Multi-repository layered new documents + old archive
多存储库分层新文档 + 旧存档

Many

Adjust as appropriate
酌情调整

Adjust as appropriate
酌情调整

Social media comment pool: multilingual & mixed spelling
社交媒体评论池:多语言和混合拼写

Very large volume of short text
非常大的短文本

8–12 0

Operational logs for troubleshooting
用于故障排除的作日志

Very large volume of short text
非常大的短文本

3–6 0

Marketing asset library: multilingual product descriptions
营销资产库:多语言产品描述

Medium
中等

6–10 1–2

Training courses / eBooks
培训课程/电子书

Large

2–5 1–2

Maintenance manual: equipment diagrams + steps
维修手册:设备图+步骤

Medium
中等

3–7 1–2
posted @ 2025-08-20 08:19  rslai  阅读(346)  评论(0)    收藏  举报