HYLOVEYOURSELF

小洋宝的进步史

导航

Datawhale速通百炼RAG应用-Task1

Datawhale 大模型应用开发(RAG)

Task 1 速通百炼RAG应用

学习的大家可以看这个! https://www.datawhale.cn/activity/189/29/124?rankingPage=1

Markdown字体的颜色:RGB 颜色表与十六进制颜色值码 - Codeeeee 在线小工具

笔记整理者:博客园-岁月月宝贝

LLM 理论👉企业落地

🍎LLM落地到公司的困难推算

在这些与RAG关联较多的企业的行业之外的我们,如何理解大模型到业务之间的距离呢?

o(=•ェ•=)m我想可以从我们普通人使用LLM的困难出发:

比如,

(1)模型多,软件多——在各种模型/软件间切换→可能会浪费很多精力

(2)像个复杂游戏——需要训练各种心法,练习熟练度→不知道技巧难以得到有效回答

(3)提示词写作复杂——每个问题都需要打磨很长的提示词→没耐心/放弃

那么,在企业生产环境下又是怎样的呢?

上面的第(1)点对应我们企业的"应用搭建复杂",(2)和(3)对应“提示词工程复杂”和“无法解决复杂任务”,当然,企业可能还面对“缺乏行业知识”🤓

那我们是不是可以再讲得细一些?那,下面我们就来列一下——把大模型用在生产场景、需要考虑哪些问题——

  • 应用搭建复杂 :针对不同的业务目标、都需要花大量时间投入选型和测试
  • 提示词工程复杂一个问题需要反复打磨提示词,员工需掌握“调教模型”技能,跨部门协作效率降低。
  • 无法解决复杂任务 :AI很难执行复杂任务,不会拆解业务场景的核心问题
  • 缺少行业知识 :涉及领域可能面对知识匮乏、动态数据更新滞后、多模态处理能力差的问题

🍐企业期待的AI Agent

img

AI Agent = 一个懂得复杂任务拆解会持续学习内容会聪明调用各种资源的一个数字员工

这样说有点太笼统啦!那我们可以具体到行业的落地嘛?OK这里正好有两个落地的案例:

number1️⃣

目标企业:会计师事务所
应用目标:提升财务工作人员的工作效率

财务工作人员的业务特性政策敏感度、合规性、风险敏感度 等工作

项目名称 :AI财会助手

项目简介 :构建动态更新的财税知识图谱(支持实时同步最新政策文件),推动专业服务智能化转型。

img

项目成果 :构建了庞大的财务行业领域数据知识库,通过 RAG搜索增强 等技术,构建了完整的财务知识图谱,让AI大模型在财务领域的专业度直线上升, 最后获得了注册会计师96%的满意度评价

img

具体的案例大家可以看前面的链接~我这里选代表性的一张我认为可以体现RAG的图“双通道知识来源追溯(法规原文+案例依据)”

如果说上一个是AI+财务,那么下一个就是AI+购物

number2️⃣

目标场景:购物系统
应用目标:提升消费者的购买体验

项目名称 :AI购物系统

项目简介 :以用户为核心,构建一个全面智能化、个性化的购物生态系统。

项目成果

  • 用户的每一次购物不再只是购买产品,而是获得一位“AI朋友”,一个真正懂用户、分析需求、推荐最适合方案的智能管家。
  • 围绕用户需求场景,开发了 AI导购,AI评估管家、AI饮食管家、AI睡眠管家、AI减压管家 等功能,全方位服务用户的工作生活。

image-20250429163446255

具体的案例大家可以看前面的链接~我这里选代表性的一张,以体现AI导购通过RAG技术做商品语义搜索,让用户在和AI的沟通中可以获得最精确的商品推荐

🐕以上两个案例最大头的工作都是清洗数据\构建良好的RAG效果.但它们为什么要用RAG?在哪些环节中可能会用到RAG?RAG在AI应用中究竟起到了什么作用?🤔大家在想这些问题时,我们继续讲-------

随着 RAG、AI工作流 等技术的日渐成熟,大模型的应用正在各行各业取得显著进展,如金融、医疗、教育、电子商务 等等,从就业市场来看,也有了专注于模型的训练、优化和部署的机器学习工程师;以数据分析和挖掘为核心,推动 AI 应用的数据科学家;负责AI产品的规划与实施的AI 产品经理;结合传统开发背景,开发大模型应用的AI应用开发工程师.

由于说多少遍都不如实践一次,所以我们不如直接开始👍

上手AI Agent应用开发

这里,Datawhale联合了阿里云百炼平台(用到了RAG模块和一些核心组件)

未命名-阿里云百炼

对应的一些界面展示:

(1)MCP服务

img

(2)组件广场

image-20250429163520429

(3)知识库

image-20250429163551816

(4)工作流编辑

image-20250429163629034

Step0:点击跳转阿里云百炼平台

Part1:5分钟创建AI财务助手

创建它之前,读者可以先思考下:①财务助手主要是哪些人需要;②有哪些注意事项;③AI主要会在其中起到哪些作用。

img

注意右上角那个必须要开通的,且在开通前需要在阿里云完成实名认证(通过支付宝扫码,一次不成就多试几次)

然后,就是参照Datawhale的教程(细节需要参照教程哈!),首先创建应用,然后选择“通义千问-MAX”模型,接着编写提示词并且输入提示词框~!我选择的是Datawhale提供的如下提示词:

# 角色

你是一位专业的财会助手,专注于中国企业财税领域。凭借深厚的专业知识和丰富经验,依据用户提供的上下文信息,精准分析用户提出的财税相关问题,并给出全面、详细且专业的解答。

## 技能

### 技能 1:精准把握用户需求

  1. 当用户输入完整问题时,迅速准确理解需求点,运用专业知识分析解答。
  2. 若用户仅输入一个短语,礼貌追问用户,引导其提供该问题相关的详细背景信息,如涉及的企业规模、业务场景、时间范围等。
  3. 先归纳结论。

### 技能 2:法规依据阐述

在给出任何答案之前,明确指出具体依据的相关法律法规名称、文号、第几条、相关条文内容,确保回复具有权威性和严谨性。

### 技能 3:详细解答问题

基于用户提供的信息和相关法律法规,提供逻辑清晰、内容完整的答案,必要时通过举例、图表等方式辅助说明,让用户易于理解。

## 限制

  * 仅围绕用户提出的财税问题进行分析和回答,坚决拒绝回答与问题无关的话题。
  * 回复必须条理清晰,用 Markdown 格式,每个要点前要有序号,每段要先归纳为一句话并加粗显示。
  * 答案内容需保证专业性和准确性,不能随意编造或传播未经证实的信息。

然后,别忘了打开“联网搜索”滑块!

(前边那个页面还能编辑智能体名字,应该可以看你之前有没有发布过其他版本)

碎碎念:我记得我发布后才能对话的,,,那这样,我记得你现在在的页面的右上角有一个紫色的发布,你点击“发布”(每次发布会告诉你相较于上次发布的修改部分),会出现下面的“调用方式”界面,

image-20250501165907040

比较建议选择易上手的“官方分享渠道”,🍭然后再我们点“生成分享链接”之前,我们先返回原来的界面

image-20250501172617617

右边就可以直接试用了,对吧😄!

然后,我们再返回前面的“发布通道”,选择了“官方发布渠道”后,然后先点击下面的“配置”按钮

image-20250501172938875

就会出现下图对应的界面🏹

image-20250501163030309

~这个界面是不允许大模型交互的,但是可以编辑界面上的内容👉

(阿里云百炼提供编辑上面欢迎语的机会😀:下面是初始欢迎语)

image-20250501163445889

你把里面的内容按照你喜欢的内容进行配置,然后点击“分享链接”,就会得到👇

image-20250501174815166

然后,我们把复制好的链接:https://bailian.console.aliyun.com/share/d4ea2cd40f1d4833a4fca40eb1963382 贴入浏览器中,就可以使用啦!

image-20250501175734079🤔大家记不记得我们当初配置智能体时,有“知识”这一栏,里面包含着“知识库”“动态文件解析”“联网搜索”“样例库”这些选项,那它们分别对应怎样的功能呢?又有怎样的区别呢?联网搜索的知识有什么优势,有可能存在什么问题呢?另外,联网搜索是RAG嘛?

💐下面标下我的理解:

知识库

  • 功能:知识库是智能体可以访问和利用的预先存储好的大量信息集合。这些信息通常经过系统的整理和组织,覆盖了各种主题和领域,为智能体回答问题、生成内容提供了丰富的背景知识和参考资料。例如,智能体可以凭借知识库中的数据回答一般性的常识问题、历史事件、科学原理等。
  • 特点:信息相对稳定和可靠,是智能体知识体系的基础部分,但其内容的更新通常具有一定滞后性,依赖于人工或定期的更新机制。

动态文件解析

  • 功能:指智能体能够实时解析和读取用户提供的各种文件中的内容,并将其作为知识加以利用。比如用户上传一份PDF文档、Word文件等,智能体可以从中提取文字、数据等关键信息,结合上下文来理解用户的提问并给出相应的回答,使文件中的内容成为其为用户提供帮助的依据。
  • 特点:能够让智能体及时获取和处理用户特定文件中的信息,满足用户基于特定文档内容的需求,实现个性化的问答和信息处理,但其对文件格式的兼容性以及解析的准确性可能会受到一定的限制。

联网搜索

  • 功能:智能体通过联网搜索能够在互联网上实时查找最新的相关信息,将搜索到的结果作为知识补充,以回答用户的问题或提供更及时准确的信息。就像给智能体装了一个实时新闻眼,使其能够获取训练数据截止日期之后发生的新事件、新技术、热点话题等内容。
  • 特点:具有很强的时效性,可以确保提供的信息是最新的,但也可能存在返回无关或冗余信息、信息质量参差不齐、依赖网络质量等问题,而且在回答中引用搜索结果时需要对信息的可信度进行评估。

样例库

  • 功能:样例库包含了各种典型的示例、案例或模板等,为智能体提供了一种参考和借鉴的资源。在面对类似问题或任务时,智能体可以参考样例库中的内容,更快地生成符合要求的回答或解决方案,有助于提高回答的质量和准确性,还能帮助用户更好地理解和使用智能体提供的信息。
  • 特点:侧重于提供具有代表性和指导性的实例,能够引导智能体的学习和生成过程,但样例库的覆盖范围可能有限,无法涵盖所有可能的情况和问题。

联网搜索与 RAG

  • 区别:联网搜索只是单纯地从互联网获取信息,而 RAG(检索增强生成)是一种结合了检索和生成的技术框架。RAG 不仅仅局限于联网搜索,还可以利用向量知识库等其他外部知识存储进行信息检索。联网搜索侧重于实时获取最新的网络信息,而 RAG 更强调对检索到的信息的整合和利用,以增强模型的生成能力。
  • 联系:联网搜索可以作为 RAG 的一种信息检索来源,为 RAG 提供最新的信息,两者结合可以使模型在回答问题时能够参考更全面、更实时的知识,从而提高回答的准确性和可靠性。

Part2:在AI应用中添加RAG的能力

这里我们跟着Datawhale的脚步,体验阿里云百炼的知识库功能!我们选择Datawhale处理过的文件:计学精要2021.md(也就是纯文本)

百炼目前支持 .pdf,.doc,.docx,.txt,.md,.pptx,.ppt,.png,.jpg,.jpeg,.bmp,.gif,.xls,.xlsx 等格式的文件
对多模态文件有很好的兼容能力

大家先回到这个页面:百炼控制台

在这个界面的“应用数据”模块,完成“上传数据到百炼平台”(具体请看教程);在“知识库”模块,完成“创建知识库”(具体也看教程,然后里面的“知识库名称”和“知识库描述”建议填下;里面的很多参数信息也建议学~!),建好效果如下👇

image-20250501225758412

然后,我们绑定知识库到智能体:

首先退到百炼控制台里面的“应用管理”,点击

image-20250502100336606

里面的“管理”,然后按照Datawhale的流程加入我们的知识库,

image-20250502100729487

然后点击发布!发布渠道和原来的可以一样,即“官方分享渠道”,配置因为我们设置过不用再修改,可以直接点“生成分享链接”:https://bailian.console.aliyun.com/share/d4ea2cd40f1d4833a4fca40eb1963382?memoryId=b6360da41de64a998e2d66fcad895ad2

最后,可以测试下验证效果:

如何区分一项无形资产租赁业务时适用《企业会计准则第21号——租赁》还是《企业会计准则第6号——无形资产》?

image-20250502110832701

因为看起来没有和示例一样调用知识库,我在问题里面试着单独补充了下:

image-20250502111330747

对于知识库的调用可能没有官网上明显,但是我想是完成了调用的,因为通过点击“应用管理”,进入我们的“企业财税智能体助手”的“管理”部分,问相同的问题,会有“知识库检索”的提示:

image-20250502112227391

作业

作业1:尝试使用工作流

工作流应用支持 通过画布自定义和编排业务流程编排主体为原子节点 ,如大模型节点知识库节点等快速实现业务逻辑设计及业务效果验证。

适用于需要结合大模型执行高确定性的业务逻辑的流程型应用,如可执行不同任务的智能助理工作流、自动化分析会议记录工作流等。

工作流类型 特点 使用场景
任务型工作流 支持串行任务执行,支持循环及异步任务 适用于批量任务处理场景
对话型工作流 支持多轮对话及流式输出,节点可配置上下文继承 智能助理、智能客服等对话式场景

关于工作流的具体文档:百炼控制台

我准备实现作业图片上的案例(⭐成品是输入一个城市名,会依据此城市未来24h的天气输出为你设计好的旅行计划)

插件准备

点击工具栏的”插件“,然后在插件广场进行搜索”全国天气预报“,你会发现找到的插件是灰色的,鼠标点击会跳出”插件未开通,请前往详情查看“,然后点击里面的”详情“:

image-20250502181309968

然后会跳转到下面这个网页,新用户按照我的方式购买套餐,然后点击”免费试用“👇

image-20250502181005362

点击了”开通免费试用后“,界面会跳转到:

image-20250502181113658

上图说明我们的插件服务已办理成功!

我们就能回到我们原来的页面,刷新,会发现此时”未来24小时体天气预报“已经不是灰色的了!你可以(建议)先选择此插件,”添加“后”确定“:

image-20250502182949751

❗❗❗有的同学现在可能就掉以轻心了,如果现在收手,很可能插件无法正常使用💀

经过我对文档的探究,建议大家在完成上面的工作后,到开始的”组件广场“,找到我们的”天气预报查询“📚,然后点击”查看详情“,会出现如下界面:

image-20250502215618409

切记”为子业务授权“要授权!!!

image-20250502215848881

PS:为什么我们在”天气预报查询“📚处,不直接点击”添加至智能体“?答:因为我们是工作流应用,所以这个图的”添加至智能体“里面是找不到我们的智能体的哦~

image-20250502220235472

工作流配置

首先,新增应用&选择对话型工作流:

image-20250503160006275

插件

然后,你会发现出来了一块已经包含”开始“与”结束“两个节点的画布,然后你需要从左边的工具栏先拖出”插件“块,选择我们的”24h天气预报“插件(如果你前面没有选/选了又删了):

image-20250503160534356

然后按照下图完成配置:

image-20250503160705795

大模型

image-20250503172231999

PS:里面的插件1/showapi_res_body是先输入”插件1“+英文的”/“,直接弹出插件1的几个输出接口的,你选对应的就行(我选showapi_res_body,主要依据插件输出的参数,读者具体可以看f2780f86f1634765807f4e3186c10737.天气体验版.pdf 了解相关参数);另一个是sys/query

输出

image-20250503173126678

里面填大模型1/result

排列
image-20250503173245229

如上图这样连接,就好啦😊

连好点击右上角的”测试“!

image-20250503174052306

这边我们输入”西安“!

image-20250503174505386

上面即为运行结果(我把各模块的运行结果都展开了,以便大家更清楚地查看),最主要的规划列在下面:

image-20250503174656944

作业2:尝试使用API调用你创建的应用

使用代码

首先,官方文档在这里官方API调用文档~,里面的百炼控制台这部分我认为比较有用😊,下面的代码也是这个里边哒!

import os
from http import HTTPStatus
from dashscope import Application
response = Application.call(
    # 若没有配置环境变量,可用百炼API Key将下行替换为:api_key="sk-xxx"。但不建议在生产环境中直接将API Key硬编码到代码中,以减少API Key泄露风险。
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    app_id='YOUR_APP_ID',# 替换为实际的应用 ID
    prompt='你是谁?')

if response.status_code != HTTPStatus.OK:
    print(f'request_id={response.request_id}')
    print(f'code={response.status_code}')
    print(f'message={response.message}')
    print(f'请参考文档:https://help.aliyun.com/zh/model-studio/developer-reference/error-code')
else:
    print(response.output.text)

里面需要你补充的有两个地方:

1.'YOUR_APP_ID':就是下图中你想调用应用的应用ID

image-20250503194134919

2."DASHSCOPE_API_KEY":需要你点”调用“,选择里面的”API KEY“

image-20250503195502051

调用结果

第一个是关于天气的😊(用户传入的是”北京“)

image-20250503195727658

第二个是关于我们财务的(用户传入的是”你有哪些功能呀“)

image-20250503195933758

😁看是不是很棒!

作业3:尝试一下多模态格式的文件

尝试把你所需要处理的多模态文件上传到百炼上、看看他的召回效果如何吧!

有任何感受都可以随时在群里交流、一起探讨分析其特性和价值吧!

🐈【欢迎大家多多尝试哦】

作业4:思考你想做的AI Agent应用场景

在创建AI功能后,要开展企业级大模型应用开发,需考虑以下几点:

  1. 业务痛点:明确要解决的具体业务痛点,确定其真实性和要求。

  2. AI适用性:评估业务或需求是否适合引入AI应用和功能。

  3. 技术架构与选型:设计合理的技术架构,完成合适的技术选型。

  4. 落地开发:确定落地开发的核心工作,逐步推进项目实施。

这些内容在Datawhale的直播中详细分享哦🏹。

image-20250503202042620

OK这次的笔记就到这里!现在已经北京🚆西安啦~

posted on 2025-05-06 18:02  岁月月宝贝  阅读(157)  评论(1)    收藏  举报