AI Agent 全日制30天速成｜Day3 笔记

AI Agent 全日制30天速成｜Day3 教学笔记

今日总学习目标

掌握向量嵌入（Embedding）原理、文本向量化、向量相似度计算
搭建简易本地向量库（内存版FAISS），实现文本入库、检索、删除
打通基础RAG检索链路：文档分片→向量化存储→用户提问召回片段→注入Prompt
结合Day2工具调用，实现「RAG知识库检索 + Function Calling」混合Agent
每日时长分配（全天8h）

理论笔记阅读+理解：2.5h
代码编写调试：4h
复盘+面试题背诵：1.5h

一、核心理论教学笔记

1. Embedding 向量嵌入基础

1.1 核心概念

Embedding（向量嵌入）：将自然语言文本转化为固定长度浮点数字向量，语义相近的文本，向量在空间距离更近。

用途：知识库检索、文档相似度匹配、分类聚类、对话记忆检索
兼容规范：国内通义千问、DeepSeek、OpenAI均提供统一Embedding接口，同样只替换base_url与key即可复用代码

1.2 相似度计算（RAG核心）

常用两种计算方式：

余弦相似度 Cosine Similarity（向量检索标准）
- 取值范围[-1,1]，越接近1代表语义越相似
- 不受向量长度影响，长/短文本对比首选
欧式距离：距离越小越相似，长文本向量不推荐

1.3 文本分片（Chunk）规则

大模型单次Embedding存在输入长度限制，长文档必须拆分片段：

固定长度分片：按字符/Token切割（简单易实现，缺点容易割裂完整语义）
重叠分片：每段chunk保留前后重叠文本，解决上下文割裂问题（工程首选）
分片长度建议：200~600汉字，兼顾检索精度与上下文完整性

1.4 Embedding 接口调用要点

输入支持批量文本，单次批量提交降低接口调用次数、节省计费
批量接口有单次文本条数上限，超过需做分批切割
Embedding无流式输出，均为同步返回向量数组
向量化过程会消耗Token，批量任务需增加并发限流、重试机制

2. 向量数据库基础（FAISS内存版）

2.1 FAISS介绍

Meta开源轻量向量检索库，适合本地测试、小型知识库，无需部署服务：

支持向量添加、批量入库、相似度TopK检索
支持向量与原文映射存储（索引→文本元数据）
百万级以内向量检索速度极快，适合学习阶段使用

2.2 向量库存储两层结构

FAISS索引：仅存储浮点向量，用于快速相似度检索
元数据映射字典：index_id -> {原文文本、来源、标题}，检索拿到id后反向取出原文

2.3 检索流程

用户提问 → 提问文本向量化 → FAISS检索TopN相似向量 → 通过id匹配原文片段 → 拼接进Prompt交给LLM

3. RAG检索增强生成完整链路（标准5步）

文档加载与分块：读取知识库文档，切割为重叠Chunk片段
文本向量化入库：调用Embedding接口，所有Chunk生成向量存入FAISS
用户提问向量化：用户问题单独生成查询向量
相似度召回：检索最相似的Top-K知识库片段
上下文增强生成：把召回文档作为参考资料塞入System Prompt，限制模型仅基于参考内容回答，减少幻觉

3.4 RAG解决的核心问题

大模型知识截止时间问题，可接入实时业务文档、私有知识库
大幅降低模型幻觉，强制模型引用检索到的资料作答
减少超长上下文Token消耗，无需全量传入知识库，只召回相关片段

4. RAG + Function Calling 混合Agent逻辑

两条能力互补：

私有文档、内部知识库查询 → 使用RAG向量检索
实时数据、计算、外部接口查询 → 使用Function Calling工具调用
执行流程：
用户提问 → 先执行RAG召回知识库内容 → 将检索片段注入System Prompt → 模型判断是否需要调用工具 → 执行工具闭环 → 结合知识库+工具结果输出最终答案

二、今日学习重点

封装兼容OpenAI标准的Embedding异步调用客户端
实现重叠文本分片工具函数
封装内存FAISS向量库，完成增、查基础操作
搭建完整单轮RAG问答链路，限制模型仅基于检索内容作答
融合Day2工具调用，实现RAG+Function Calling混合智能体

三、今日难点 & 解决方案

难点1：分片切割破坏完整语义，检索结果不相关

解决方案：

开启重叠分片，设置50~100字重叠区间
分片长度控制在300~500汉字，避免单块内容过短/过长
检索后增加重排逻辑（简单版：过滤相似度低于阈值的片段）

难点2：向量检索返回无关文本，模型答非所问

解决方案：

设置相似度阈值，低于阈值直接丢弃片段，不注入Prompt
Prompt强约束：没有相关资料时统一回复“暂无相关资料”，禁止编造内容
优化Embedding输入，对知识库chunk做简单摘要再向量化

难点3：批量Embedding接口超限、请求频繁触发限流

解决方案：

封装批量分批工具，按接口最大条数拆分文本列表
使用信号量控制Embedding并发，捕获429限流指数退避重试
向量本地缓存，重复文本无需重复调用Embedding接口

难点4：RAG与工具调用逻辑冲突，模型优先调用工具忽略知识库

解决方案：

System Prompt明确优先级：先参考知识库内容，无法解决再调用工具
检索片段放在Prompt最靠前位置，提升权重
Few-shot示例演示“先读知识库，再判断是否需要工具”

四、完整练习代码（基于Day1、Day2代码扩展）

依赖安装

pip install faiss-cpu numpy aiohttp pydantic fastapi uvicorn

1. embedding向量客户端 + FAISS向量库 rag_store.py

import aiohttp
import asyncio
import faiss
import numpy as np
import json
from typing import List, Dict, Tuple

# 模型配置（沿用前两日）
MODEL_CONFIG = {
    "qwen-turbo": {
        "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions",
        "embedding_url": "https://dashscope.aliyuncs.com/compatible-mode/v1/embeddings",
        "api_key": "你的通义千问key"
    },
    "deepseek-chat": {
        "base_url": "https://api.deepseek.com/v1/chat/completions",
        "embedding_url": "https://api.deepseek.com/v1/embeddings",
        "api_key": "你的deepseek key"
    }
}

# 文本分片工具（重叠分片）
def split_text_chunk(text: str, chunk_size: int = 400, overlap: int = 80) -> List[str]:
    chunks = []
    start = 0
    text_len = len(text)
    while start < text_len:
        end = min(start + chunk_size, text_len)
        chunk = text[start:end]
        chunks.append(chunk.strip())
        start += chunk_size - overlap
    return chunks

# 异步Embedding客户端
class AsyncEmbeddingClient:
    def __init__(self, model_name: str = "qwen-turbo"):
        self.conf = MODEL_CONFIG[model_name]
        self.semaphore = asyncio.Semaphore(3)
        self.timeout = aiohttp.ClientTimeout(total=30)

    async def batch_embedding(self, texts: List[str]) -> List[List[float]]:
        headers = {
            "Authorization": f"Bearer {self.conf['api_key']}",
            "Content-Type": "application/json"
        }
        payload = {
            "input": texts,
            "model": "text-embedding-v1"
        }
        async with self.semaphore:
            async with aiohttp.ClientSession(timeout=self.timeout) as session:
                resp = await session.post(self.conf["embedding_url"], json=payload, headers=headers)
                res_data = await resp.json()
                vecs = [item["embedding"] for item in res_data["data"]]
                return vecs

# 内存FAISS向量库封装
class FaissVectorStore:
    def __init__(self, vec_dim: int = 1536):
        self.index = faiss.IndexFlatL2(vec_dim)
        self.meta_map: Dict[int, Dict] = {}
        self.current_id = 0

    # 批量插入向量+原文
    def add_batch(self, vectors: List[List[float]], metas: List[Dict]):
        arr = np.array(vectors, dtype=np.float32)
        self.index.add(arr)
        for meta in metas:
            self.meta_map[self.current_id] = meta
            self.current_id += 1

    # 相似度检索TopK
    def search(self, query_vec: List[float], top_k: int = 3, score_threshold: float = 600) -> List[Dict]:
        arr = np.array([query_vec], dtype=np.float32)
        distances, ids = self.index.search(arr, top_k)
        results = []
        for dist, idx in zip(distances[0], ids[0]):
            if idx == -1:
                continue
            if dist > score_threshold:
                continue
            meta = self.meta_map.get(idx, {})
            meta["distance"] = float(dist)
            results.append(meta)
        return results

# RAG统一封装类
class RAGService:
    def __init__(self, model_name="qwen-turbo"):
        self.emb_client = AsyncEmbeddingClient(model_name)
        self.vec_store = FaissVectorStore(vec_dim=1536)

    # 文档入库：文本分片+向量化+存入向量库
    async def add_document(self, doc_text: str, source: str = "默认文档"):
        chunks = split_text_chunk(doc_text)
        if not chunks:
            return
        vecs = await self.emb_client.batch_embedding(chunks)
        metas = [{"text": c, "source": source} for c in chunks]
        self.vec_store.add_batch(vecs, metas)

    # 用户提问召回知识库片段
    async def retrieve(self, query: str, top_k=3):
        query_vec = await self.emb_client.batch_embedding([query])
        return self.vec_store.search(query_vec[0], top_k=top_k)

# 测试RAG
async def test_rag():
    rag = RAGService()
    # 模拟知识库文档
    doc = """AI Agent 是具备工具调用、记忆、规划能力的智能体。
    Agent可以读取私有知识库，结合计算器、数据库等外部工具完成复杂任务。
    RAG检索增强生成用于解决大模型知识滞后、幻觉问题，先检索文档再回答用户问题。
    Function Calling允许模型自主调用外部函数，完成数学计算、实时数据查询。"""
    await rag.add_document(doc, source="Agent基础文档")
    # 用户提问召回
    res = await rag.retrieve("RAG有什么作用")
    print("召回知识库片段：")
    for item in res:
        print(f"相似度距离：{item['distance']} 内容：{item['text']}")

if __name__ == "__main__":
    asyncio.run(test_rag())

2. RAG+工具调用混合LLM服务 llm_rag_agent.py

import asyncio
from pydantic import BaseModel, Field, ValidationError
import json
from rag_store import RAGService
# 复用Day2 LLM客户端、工具定义
from llm_client_v2 import AsyncLLMClientV2, TOOLS, TOOL_MAP, CalcToolParams

# 混合Agent整合类
class MixedRAGAgent:
    def __init__(self, model_name="qwen-turbo"):
        self.llm = AsyncLLMClientV2(model_name)
        self.rag = RAGService(model_name)
        self.system_base = """
你是智能AI助手，回答严格遵守以下规则：
1. 优先参考下方知识库检索内容作答，禁止编造不存在信息；
2. 如果知识库无相关内容，再判断是否需要调用计算器工具；
3. 数学计算必须调用calculator工具，禁止手动计算；
4. 无资料、无可用工具时，直接回复暂无相关信息。
【知识库参考资料】：
{rag_context}
"""

    # 完整问答链路：RAG召回 + 工具调用闭环
    async def chat(self, user_query: str):
        # 1. RAG召回相关文档
        retrieve_list = await self.rag.retrieve(user_query, top_k=3)
        rag_context = "\n".join([item["text"] for item in retrieve_list])
        # 2. 拼接系统提示词
        system_prompt = self.system_base.format(rag_context=rag_context)
        messages = [
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_query}
        ]
        # 3. 执行工具调用对话
        answer = await self.llm.chat_with_tools(messages, TOOLS)
        return {
            "answer": answer,
            "reference_doc_count": len(retrieve_list),
            "reference_content": rag_context
        }

# 测试混合Agent
async def test_mixed_agent():
    agent = MixedRAGAgent()
    # 预先写入知识库
    doc = """RAG全称检索增强生成，作用是接入私有文档减少模型幻觉。
    Function Calling是大模型调用外部工具的能力，支持计算器、接口查询。"""
    await agent.rag.add_document(doc, source="Agent知识库")

    # 测试1：知识库相关问题
    print("问题1：什么是RAG？")
    res1 = await agent.chat("什么是RAG？")
    print("回答：", res1["answer"])
    print("参考文档：", res1["reference_content"])

    # 测试2：数学计算，触发工具调用
    print("\n问题2：365*2等于多少？")
    res2 = await agent.chat("365*2等于多少？")
    print("回答：", res2["answer"])

if __name__ == "__main__":
    asyncio.run(test_mixed_agent())

3. FastAPI 一体化接口 main_rag.py

from fastapi import FastAPI, Query
import asyncio
from llm_rag_agent import MixedRAGAgent

app = FastAPI(title="Day3 RAG+Function Calling混合Agent")
agent = MixedRAGAgent()

# 预加载知识库文档
@app.on_event("startup")
async def load_knowledge():
    doc = """
AI Agent 30天速成课程Day3学习内容：
1. Embedding向量嵌入将文本转为数字向量，用于相似度检索；
2. FAISS本地向量库存储向量，实现私有知识库检索；
3. RAG检索增强生成解决大模型幻觉、知识滞后问题；
4. RAG结合Function Calling，同时支持知识库查询与外部工具调用；
5. 文本分片采用重叠切割，避免语义断裂。
"""
    await agent.rag.add_document(doc, source="Day3学习文档")

@app.get("/chat/rag")
async def chat_rag(prompt: str = Query(..., description="用户提问")):
    result = await agent.chat(prompt)
    return result

if __name__ == "__main__":
    import uvicorn
    uvicorn.run("main_rag:app", reload=True)

五、今日必做练习任务

填入有效API Key，运行rag_store.py，测试文档分片、向量入库、相似度检索
修改分片chunk_size、overlap参数，观察召回内容完整性变化
调整检索score_threshold阈值，观察无关片段过滤效果
运行混合Agent代码，分别测试知识库问题、数学计算问题，验证RAG与工具调用双逻辑
启动FastAPI，连续提问，查看接口返回的参考文档片段
新增一段无关知识库文本，测试模型不会引用无关内容

六、今日配套面试题（RAG入门必考）

基础问答

什么是Embedding向量嵌入？余弦相似度在RAG中的作用？
RAG完整执行流程分为哪几步？RAG解决了大模型哪些痛点？
文本分块为什么需要设置重叠分片？固定长度分片有什么缺陷？
简述FAISS的作用，内存向量库的优缺点？
RAG + Function Calling混合架构的执行顺序和设计思路？

工程实操题

检索出无关文本，如何优化召回效果？写出至少3种方案
批量Embedding调用时，如何处理接口批量上限、并发限流问题？
如何通过Prompt约束模型只能基于检索到的知识库内容回答，避免幻觉？
内存FAISS重启后向量丢失，线上生产环境如何持久化向量数据？

拓展思考题（进阶）

Top-K检索只取固定条数，如何实现结果重排提升检索精度？
海量百万级知识库，本地FAISS无法承载，有哪些商用向量数据库可选？
如果知识库文档极大，全量向量化耗时过长，如何做增量更新？

面试题参考答案

基础问答

Embedding与余弦相似度
Embedding把文本映射为低维浮点向量，语义相近文本向量空间距离更近；余弦相似度衡量两个向量夹角，取值0~1，数值越高代表语义越相似，是RAG检索排序标准。
RAG流程与解决痛点
流程：文档分块→向量化入库→提问向量召回片段→片段注入Prompt生成回答。
解决痛点：模型知识截止、私有业务数据无法输入、模型自由编造内容（幻觉）、超长上下文Token超限。
重叠分片作用
固定长度分片会把完整语义句子拆分成两段，导致检索缺失上下文；重叠分片每段保留前后一小段文本，保证跨分片语义完整，提升检索准确率。
FAISS优缺点
FAISS是开源向量检索库，快速计算向量相似度。
优点：本地运行无需部署服务、检索速度快、上手简单；缺点：仅内存存储，重启丢失数据，不支持海量数据持久化、复杂过滤条件。
混合架构执行顺序
先执行RAG召回私有知识库内容，将检索片段注入系统提示词；再交由模型判断是否需要调用外部工具；工具执行结果回填上下文，模型结合知识库+工具数据给出最终回答。

工程实操题

优化无关检索片段方案

设置相似度阈值，过滤距离过大低相关文本；
采用重叠分片提升Chunk语义完整性；
Prompt强约束禁止使用知识库外信息；
增加检索重排，过滤弱相关内容；
优化Embedding输入，对长文档做摘要再向量化。

批量Embedding限流与分批
按接口最大单次文本数量切割列表，分批提交；使用信号量限制并发；捕获429限流异常，指数退避重试；缓存重复文本向量，减少重复调用。
约束模型减少幻觉
System Prompt明确：无相关资料统一回复无信息，禁止编造；将检索片段放在Prompt最前，提升权重；配合temperature=0降低随机性；Few-shot示例演示正确回答方式。
向量持久化方案
生产不使用内存FAISS；选用支持持久化的向量库：Chroma、Milvus、Qdrant、PGVector；向量落地磁盘，支持重启加载、增量更新。

拓展思考题

检索重排
基础粗召回（FAISS TopK）→ 重排模型（Cross-Encoder）对召回片段与问题打分，过滤低分片段，大幅提升精准度。
线上向量数据库
开源：Milvus、Qdrant、Chroma、PGVector；云厂商托管：阿里云DashVector、腾讯云向量库、Pinecone。
知识库增量更新
记录文档唯一ID，仅对新增/修改文档分片向量化；增量插入向量库，不重复处理全量历史文档；维护文档-向量映射关系，支持删除旧向量。

学习总结

Day3完成AI Agent三大核心能力之一：RAG检索增强，打通「私有知识库读取」链路，同时融合Day2的Function Calling实现混合智能体。
向量嵌入、文本分片、相似度检索是RAG底层核心，面试高频提问；内存FAISS适合本地学习，为后续持久化向量库、高级重排、多模态RAG打下基础。
至此底层工具链全部成型：异步LLM客户端、SSE流式、Function Calling、多轮会话、RAG知识库，完整支撑简易Agent开发。

posted @ 2026-06-18 22:37 云淡风轻YangG 阅读(36) 评论(0) 收藏举报

刷新页面返回顶部

云淡风轻YangG

AI Agent 全日制30天速成｜Day3 笔记

AI Agent 全日制30天速成｜Day3 教学笔记

今日总学习目标

一、核心理论教学笔记

1. Embedding 向量嵌入基础

1.1 核心概念

1.2 相似度计算（RAG核心）

1.3 文本分片（Chunk）规则

1.4 Embedding 接口调用要点

2. 向量数据库基础（FAISS内存版）

2.1 FAISS介绍

2.2 向量库存储两层结构

2.3 检索流程

3. RAG检索增强生成完整链路（标准5步）

3.4 RAG解决的核心问题

4. RAG + Function Calling 混合Agent逻辑

二、今日学习重点

三、今日难点 & 解决方案

难点1：分片切割破坏完整语义，检索结果不相关

难点2：向量检索返回无关文本，模型答非所问

难点3：批量Embedding接口超限、请求频繁触发限流

难点4：RAG与工具调用逻辑冲突，模型优先调用工具忽略知识库

四、完整练习代码（基于Day1、Day2代码扩展）

依赖安装

1. embedding向量客户端 + FAISS向量库 rag_store.py

2. RAG+工具调用混合LLM服务 llm_rag_agent.py

3. FastAPI 一体化接口 main_rag.py

五、今日必做练习任务

六、今日配套面试题（RAG入门必考）

基础问答

工程实操题

拓展思考题（进阶）

面试题参考答案

基础问答

工程实操题

拓展思考题

学习总结

公告