Datawhale速通百炼RAG应用-Task1
Datawhale 大模型应用开发(RAG)
Task 1 速通百炼RAG应用
学习的大家可以看这个! https://www.datawhale.cn/activity/189/29/124?rankingPage=1
Markdown字体的颜色:RGB 颜色表与十六进制颜色值码 - Codeeeee 在线小工具
笔记整理者:博客园-岁月月宝贝
LLM 理论👉企业落地
🍎LLM落地到公司的困难推算
在这些与RAG关联较多的企业的行业之外的我们,如何理解大模型到业务之间的距离呢?
o(=•ェ•=)m我想可以从我们普通人使用LLM的困难出发:
比如,
(1)模型多,软件多——在各种模型/软件间切换→可能会浪费很多精力
(2)像个复杂游戏——需要训练各种心法,练习熟练度→不知道技巧难以得到有效回答
(3)提示词写作复杂——每个问题都需要打磨很长的提示词→没耐心/放弃
那么,在企业生产环境下又是怎样的呢?
上面的第(1)点对应我们企业的"应用搭建复杂",(2)和(3)对应“提示词工程复杂”和“无法解决复杂任务”,当然,企业可能还面对“缺乏行业知识”🤓
那我们是不是可以再讲得细一些?那,下面我们就来列一下——把大模型用在生产场景、需要考虑哪些问题——
- 应用搭建复杂 :针对不同的业务目标、都需要花大量时间投入选型和测试
- 提示词工程复杂 :一个问题需要反复打磨提示词,员工需掌握“调教模型”技能,跨部门协作效率降低。
- 无法解决复杂任务 :AI很难执行复杂任务,不会拆解业务场景的核心问题
- 缺少行业知识 :涉及领域可能面对知识匮乏、动态数据更新滞后、多模态处理能力差的问题
🍐企业期待的AI Agent
AI Agent = 一个懂得复杂任务拆解、会持续学习内容、会聪明调用各种资源的一个数字员工
这样说有点太笼统啦!那我们可以具体到行业的落地嘛?OK这里正好有两个落地的案例:
number1️⃣
目标企业:会计师事务所
应用目标:提升财务工作人员的工作效率财务工作人员的业务特性 : 政策敏感度、合规性、风险敏感度 等工作
项目名称 :AI财会助手
项目简介 :构建动态更新的财税知识图谱(支持实时同步最新政策文件),推动专业服务智能化转型。
![]()
项目成果 :构建了庞大的财务行业领域数据知识库,通过 RAG搜索增强 等技术,构建了完整的财务知识图谱,让AI大模型在财务领域的专业度直线上升, 最后获得了注册会计师96%的满意度评价 。
![]()
具体的案例大家可以看前面的链接~我这里选代表性的一张我认为可以体现RAG的图“双通道知识来源追溯(法规原文+案例依据)”
如果说上一个是AI+财务,那么下一个就是AI+购物
number2️⃣
目标场景:购物系统
应用目标:提升消费者的购买体验项目名称 :AI购物系统
项目简介 :以用户为核心,构建一个全面智能化、个性化的购物生态系统。
项目成果 :
- 用户的每一次购物不再只是购买产品,而是获得一位“AI朋友”,一个真正懂用户、分析需求、推荐最适合方案的智能管家。
- 围绕用户需求场景,开发了 AI导购,AI评估管家、AI饮食管家、AI睡眠管家、AI减压管家 等功能,全方位服务用户的工作生活。
![]()
具体的案例大家可以看前面的链接~我这里选代表性的一张,以体现AI导购通过RAG技术做商品语义搜索,让用户在和AI的沟通中可以获得最精确的商品推荐
🐕以上两个案例最大头的工作都是清洗数据\构建良好的RAG效果.但它们为什么要用RAG?在哪些环节中可能会用到RAG?RAG在AI应用中究竟起到了什么作用?🤔大家在想这些问题时,我们继续讲-------
随着 RAG、AI工作流 等技术的日渐成熟,大模型的应用正在各行各业取得显著进展,如金融、医疗、教育、电子商务 等等,从就业市场来看,也有了专注于模型的训练、优化和部署的机器学习工程师;以数据分析和挖掘为核心,推动 AI 应用的数据科学家;负责AI产品的规划与实施的AI 产品经理;结合传统开发背景,开发大模型应用的AI应用开发工程师.
由于说多少遍都不如实践一次,所以我们不如直接开始👍
上手AI Agent应用开发
这里,Datawhale联合了阿里云百炼平台(用到了RAG模块和一些核心组件)

对应的一些界面展示:
(1)MCP服务
(2)组件广场
![]()
(3)知识库
![]()
(4)工作流编辑
![]()
Step0:点击跳转阿里云百炼平台
Part1:5分钟创建AI财务助手
创建它之前,读者可以先思考下:①财务助手主要是哪些人需要;②有哪些注意事项;③AI主要会在其中起到哪些作用。
注意右上角那个必须要开通的,且在开通前需要在阿里云完成实名认证(通过支付宝扫码,一次不成就多试几次)
然后,就是参照Datawhale的教程(细节需要参照教程哈!),首先创建应用,然后选择“通义千问-MAX”模型,接着编写提示词并且输入提示词框~!我选择的是Datawhale提供的如下提示词:
# 角色
你是一位专业的财会助手,专注于中国企业财税领域。凭借深厚的专业知识和丰富经验,依据用户提供的上下文信息,精准分析用户提出的财税相关问题,并给出全面、详细且专业的解答。
## 技能
### 技能 1:精准把握用户需求
1. 当用户输入完整问题时,迅速准确理解需求点,运用专业知识分析解答。
2. 若用户仅输入一个短语,礼貌追问用户,引导其提供该问题相关的详细背景信息,如涉及的企业规模、业务场景、时间范围等。
3. 先归纳结论。
### 技能 2:法规依据阐述
在给出任何答案之前,明确指出具体依据的相关法律法规名称、文号、第几条、相关条文内容,确保回复具有权威性和严谨性。
### 技能 3:详细解答问题
基于用户提供的信息和相关法律法规,提供逻辑清晰、内容完整的答案,必要时通过举例、图表等方式辅助说明,让用户易于理解。
## 限制
* 仅围绕用户提出的财税问题进行分析和回答,坚决拒绝回答与问题无关的话题。
* 回复必须条理清晰,用 Markdown 格式,每个要点前要有序号,每段要先归纳为一句话并加粗显示。
* 答案内容需保证专业性和准确性,不能随意编造或传播未经证实的信息。
然后,别忘了打开“联网搜索”滑块!
(前边那个页面还能编辑智能体名字,应该可以看你之前有没有发布过其他版本)
碎碎念:我记得我发布后才能对话的,,,那这样,我记得你现在在的页面的右上角有一个紫色的发布,你点击“发布”(每次发布会告诉你相较于上次发布的修改部分),会出现下面的“调用方式”界面,
比较建议选择易上手的“官方分享渠道”,🍭然后再我们点“生成分享链接”之前,我们先返回原来的界面
右边就可以直接试用了,对吧😄!
然后,我们再返回前面的“发布通道”,选择了“官方发布渠道”后,然后先点击下面的“配置”按钮
就会出现下图对应的界面🏹
~这个界面是不允许大模型交互的,但是可以编辑界面上的内容👉
(阿里云百炼提供编辑上面欢迎语的机会😀:下面是初始欢迎语)
你把里面的内容按照你喜欢的内容进行配置,然后点击“分享链接”,就会得到👇
然后,我们把复制好的链接:https://bailian.console.aliyun.com/share/d4ea2cd40f1d4833a4fca40eb1963382 贴入浏览器中,就可以使用啦!
🤔大家记不记得我们当初配置智能体时,有“知识”这一栏,里面包含着“知识库”“动态文件解析”“联网搜索”“样例库”这些选项,那它们分别对应怎样的功能呢?又有怎样的区别呢?联网搜索的知识有什么优势,有可能存在什么问题呢?另外,联网搜索是RAG嘛?
💐下面标下我的理解:
知识库
- 功能:知识库是智能体可以访问和利用的预先存储好的大量信息集合。这些信息通常经过系统的整理和组织,覆盖了各种主题和领域,为智能体回答问题、生成内容提供了丰富的背景知识和参考资料。例如,智能体可以凭借知识库中的数据回答一般性的常识问题、历史事件、科学原理等。
- 特点:信息相对稳定和可靠,是智能体知识体系的基础部分,但其内容的更新通常具有一定滞后性,依赖于人工或定期的更新机制。
动态文件解析
- 功能:指智能体能够实时解析和读取用户提供的各种文件中的内容,并将其作为知识加以利用。比如用户上传一份PDF文档、Word文件等,智能体可以从中提取文字、数据等关键信息,结合上下文来理解用户的提问并给出相应的回答,使文件中的内容成为其为用户提供帮助的依据。
- 特点:能够让智能体及时获取和处理用户特定文件中的信息,满足用户基于特定文档内容的需求,实现个性化的问答和信息处理,但其对文件格式的兼容性以及解析的准确性可能会受到一定的限制。
联网搜索
- 功能:智能体通过联网搜索能够在互联网上实时查找最新的相关信息,将搜索到的结果作为知识补充,以回答用户的问题或提供更及时准确的信息。就像给智能体装了一个实时新闻眼,使其能够获取训练数据截止日期之后发生的新事件、新技术、热点话题等内容。
- 特点:具有很强的时效性,可以确保提供的信息是最新的,但也可能存在返回无关或冗余信息、信息质量参差不齐、依赖网络质量等问题,而且在回答中引用搜索结果时需要对信息的可信度进行评估。
样例库
- 功能:样例库包含了各种典型的示例、案例或模板等,为智能体提供了一种参考和借鉴的资源。在面对类似问题或任务时,智能体可以参考样例库中的内容,更快地生成符合要求的回答或解决方案,有助于提高回答的质量和准确性,还能帮助用户更好地理解和使用智能体提供的信息。
- 特点:侧重于提供具有代表性和指导性的实例,能够引导智能体的学习和生成过程,但样例库的覆盖范围可能有限,无法涵盖所有可能的情况和问题。
联网搜索与 RAG
- 区别:联网搜索只是单纯地从互联网获取信息,而 RAG(检索增强生成)是一种结合了检索和生成的技术框架。RAG 不仅仅局限于联网搜索,还可以利用向量知识库等其他外部知识存储进行信息检索。联网搜索侧重于实时获取最新的网络信息,而 RAG 更强调对检索到的信息的整合和利用,以增强模型的生成能力。
- 联系:联网搜索可以作为 RAG 的一种信息检索来源,为 RAG 提供最新的信息,两者结合可以使模型在回答问题时能够参考更全面、更实时的知识,从而提高回答的准确性和可靠性。
Part2:在AI应用中添加RAG的能力
这里我们跟着Datawhale的脚步,体验阿里云百炼的知识库功能!我们选择Datawhale处理过的文件:计学精要2021.md(也就是纯文本)
| 百炼目前支持 .pdf,.doc,.docx,.txt,.md,.pptx,.ppt,.png,.jpg,.jpeg,.bmp,.gif,.xls,.xlsx 等格式的文件 对多模态文件有很好的兼容能力 |
大家先回到这个页面:百炼控制台
在这个界面的“应用数据”模块,完成“上传数据到百炼平台”(具体请看教程);在“知识库”模块,完成“创建知识库”(具体也看教程,然后里面的“知识库名称”和“知识库描述”建议填下;里面的很多参数信息也建议学~!),建好效果如下👇
然后,我们绑定知识库到智能体:
首先退到百炼控制台里面的“应用管理”,点击
里面的“管理”,然后按照Datawhale的流程加入我们的知识库,
然后点击发布!发布渠道和原来的可以一样,即“官方分享渠道”,配置因为我们设置过不用再修改,可以直接点“生成分享链接”:https://bailian.console.aliyun.com/share/d4ea2cd40f1d4833a4fca40eb1963382?memoryId=b6360da41de64a998e2d66fcad895ad2
最后,可以测试下验证效果:
如何区分一项无形资产租赁业务时适用《企业会计准则第21号——租赁》还是《企业会计准则第6号——无形资产》?
因为看起来没有和示例一样调用知识库,我在问题里面试着单独补充了下:
对于知识库的调用可能没有官网上明显,但是我想是完成了调用的,因为通过点击“应用管理”,进入我们的“企业财税智能体助手”的“管理”部分,问相同的问题,会有“知识库检索”的提示:

作业
作业1:尝试使用工作流
工作流应用支持 通过画布自定义和编排业务流程编排主体为原子节点 ,如大模型节点、知识库节点等快速实现业务逻辑设计及业务效果验证。
适用于需要结合大模型执行高确定性的业务逻辑的流程型应用,如可执行不同任务的智能助理工作流、自动化分析会议记录工作流等。
| 工作流类型 | 特点 | 使用场景 |
|---|---|---|
| 任务型工作流 | 支持串行任务执行,支持循环及异步任务 | 适用于批量任务处理场景 |
| 对话型工作流 | 支持多轮对话及流式输出,节点可配置上下文继承 | 智能助理、智能客服等对话式场景 |
关于工作流的具体文档:百炼控制台
我准备实现作业图片上的案例(⭐成品是输入一个城市名,会依据此城市未来24h的天气输出为你设计好的旅行计划)
插件准备
点击工具栏的”插件“,然后在插件广场进行搜索”全国天气预报“,你会发现找到的插件是灰色的,鼠标点击会跳出”插件未开通,请前往详情查看“,然后点击里面的”详情“:

然后会跳转到下面这个网页,新用户按照我的方式购买套餐,然后点击”免费试用“👇
点击了”开通免费试用后“,界面会跳转到:
上图说明我们的插件服务已办理成功!
我们就能回到我们原来的页面,刷新,会发现此时”未来24小时体天气预报“已经不是灰色的了!你可以(建议)先选择此插件,”添加“后”确定“:
❗❗❗有的同学现在可能就掉以轻心了,如果现在收手,很可能插件无法正常使用💀
经过我对文档的探究,建议大家在完成上面的工作后,到开始的”组件广场“,找到我们的”天气预报查询“📚,然后点击”查看详情“,会出现如下界面:

切记”为子业务授权“要授权!!!
PS:为什么我们在”天气预报查询“📚处,不直接点击”添加至智能体“?答:因为我们是工作流应用,所以这个图的”添加至智能体“里面是找不到我们的智能体的哦~
工作流配置
首先,新增应用&选择对话型工作流:
插件
然后,你会发现出来了一块已经包含”开始“与”结束“两个节点的画布,然后你需要从左边的工具栏先拖出”插件“块,选择我们的”24h天气预报“插件(如果你前面没有选/选了又删了):
然后按照下图完成配置:
大模型
PS:里面的插件1/showapi_res_body是先输入”插件1“+英文的”/“,直接弹出插件1的几个输出接口的,你选对应的就行(我选showapi_res_body,主要依据插件输出的参数,读者具体可以看f2780f86f1634765807f4e3186c10737.天气体验版.pdf 了解相关参数);另一个是sys/query
输出
里面填大模型1/result
排列
如上图这样连接,就好啦😊
连好点击右上角的”测试“!
这边我们输入”西安“!
上面即为运行结果(我把各模块的运行结果都展开了,以便大家更清楚地查看),最主要的规划列在下面:
作业2:尝试使用API调用你创建的应用
使用代码
首先,官方文档在这里官方API调用文档~,里面的百炼控制台这部分我认为比较有用😊,下面的代码也是这个里边哒!
import os
from http import HTTPStatus
from dashscope import Application
response = Application.call(
# 若没有配置环境变量,可用百炼API Key将下行替换为:api_key="sk-xxx"。但不建议在生产环境中直接将API Key硬编码到代码中,以减少API Key泄露风险。
api_key=os.getenv("DASHSCOPE_API_KEY"),
app_id='YOUR_APP_ID',# 替换为实际的应用 ID
prompt='你是谁?')
if response.status_code != HTTPStatus.OK:
print(f'request_id={response.request_id}')
print(f'code={response.status_code}')
print(f'message={response.message}')
print(f'请参考文档:https://help.aliyun.com/zh/model-studio/developer-reference/error-code')
else:
print(response.output.text)
里面需要你补充的有两个地方:
1.'YOUR_APP_ID':就是下图中你想调用应用的应用ID
2."DASHSCOPE_API_KEY":需要你点”调用“,选择里面的”API KEY“
调用结果
第一个是关于天气的😊(用户传入的是”北京“)
第二个是关于我们财务的(用户传入的是”你有哪些功能呀“)

😁看是不是很棒!
作业3:尝试一下多模态格式的文件
尝试把你所需要处理的多模态文件上传到百炼上、看看他的召回效果如何吧!
有任何感受都可以随时在群里交流、一起探讨分析其特性和价值吧!
🐈【欢迎大家多多尝试哦】
作业4:思考你想做的AI Agent应用场景
在创建AI功能后,要开展企业级大模型应用开发,需考虑以下几点:
-
业务痛点:明确要解决的具体业务痛点,确定其真实性和要求。
-
AI适用性:评估业务或需求是否适合引入AI应用和功能。
-
技术架构与选型:设计合理的技术架构,完成合适的技术选型。
-
落地开发:确定落地开发的核心工作,逐步推进项目实施。
这些内容在Datawhale的直播中详细分享哦🏹。
OK这次的笔记就到这里!现在已经北京🚆西安啦~
Datawhale 大模型应用开发(RAG)的Task1任务🐧,制作了一个基于“通义千文-Max”&联网搜索&知识库检索的AI财会助手和一个基于“通义千文-Max”&天气预报接口&工作流的旅行规划师📝

浙公网安备 33010602011771号