会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
岁
博客园
首页
新随笔
联系
订阅
管理
2025年7月28日
Xinference 部署教程
摘要: 快速部署大模型
阅读全文
posted @ 2025-07-28 14:31 岁
阅读(104)
评论(0)
推荐(0)
2025年3月7日
为什么MLA中求query也乘了降维矩阵和升维矩阵
摘要: MLA的公式放在这里: \[\begin{align*} \mathbf{c}_t^{KV} &= W^{DKV}\mathbf{h}_t &(1) \\ [\mathbf{k}_{t,1}^C, \mathbf{k}_{t,2}^C, ..., \mathbf{k}_{t,n_h}^C] = \m
阅读全文
posted @ 2025-03-07 16:35 岁
阅读(120)
评论(0)
推荐(0)
2025年2月26日
有关梯度和反向传播的思考
摘要: 反向传播是用来计算损失函数(Loss Function, \(L\))关于网络中各个参数的梯度的过程。这些梯度用于更新参数,从而降低损失函数的值,使网络性能更好。 \(\nabla_y L\): 这是损失函数 \(L\) 关于 \(y\) 的梯度。\(y\) 是前向传播中激活函数的输出。 \(\fr
阅读全文
posted @ 2025-02-26 11:34 岁
阅读(149)
评论(0)
推荐(0)
2025年1月30日
为什么Transformer模型使用Layer Normalization而不是Batch Normalization
摘要: 我觉得最重要的有两点: 处理变长序列的稳定性:BN是在不同样本的同一维度做归一化,因为在seq2seq的场景中,样本数量不是固定的/输入序列是变长的,使用BN会导致不稳定。LN是在同一样本的不同维度做归一化,这样会更稳定。 小批量下的鲁棒性:Batch Norm的性能受批量大小影响显著,小批量可能导
阅读全文
posted @ 2025-01-30 13:10 岁
阅读(332)
评论(0)
推荐(0)
2024年12月18日
AlphaStar中间LSTM Core层的核心问题
摘要: 对于AlphaStar 中间的LSTM部分有不解的地方,这里对一些问题和细节做出了解释
阅读全文
posted @ 2024-12-18 18:02 岁
阅读(162)
评论(0)
推荐(0)
2024年5月16日
matplotlib中文乱码(linux中没有中文字体)
摘要: 在docker或linux中一劳永逸解决matplotlib中文显示问题 安装 mplfonts的安装方法是pip: $ pip install -U mplfonts 使用 安装好mplfonts之后,需要有一个初始化的配置过程 在终端执行$ mplfonts init即可。 测试 import
阅读全文
posted @ 2024-05-16 09:37 岁
阅读(1025)
评论(0)
推荐(0)
2024年5月15日
LangChain 进阶历史对话管理
摘要: 自动历史管理 前面的示例将消息显式地传递给链。这是一种完全可接受的方法,但确实需要外部管理新消息。LangChain还包括一个名为RunnableWithMessageHistory的包裹器,能够自动处理这个过程。 为了展示其工作原理,我们稍微修改上面的提示,增加一个最终输入变量,该变量在聊天历史记
阅读全文
posted @ 2024-05-15 17:55 岁
阅读(2121)
评论(0)
推荐(1)
LangChain 流式输出
摘要: from langchain_core.output_parsers import StrOutputParser from langchain_core.runnables import RunnableParallel from langchain_openai import ChatOpenA
阅读全文
posted @ 2024-05-15 17:51 岁
阅读(718)
评论(0)
推荐(0)
2024年4月18日
LangChain+Qwen1.5MoE国内开源大模型调用知识库QuickStart
摘要: xinference+Qwen1.5MoE+LangChain,如何让国内开源大模型输出我们想要的知识
阅读全文
posted @ 2024-04-18 18:25 岁
阅读(2234)
评论(0)
推荐(0)
2024年3月29日
LangChain SQL介绍以及使用Qwen1.5执行SQL查询教程
摘要: LangChain SQL 该模块可以让我们向LLM提问时从数据库中查询数据并做出回答。 架构 SQL chain和agent的高层抽象架构: 问题转查询SQL:使用LLM将用户输入转成SQL查询 执行SQL查询:执行SQL语句 回答问题:LLM根据数据库查询结果返回回答内容 环境安装 安装必要环境
阅读全文
posted @ 2024-03-29 18:11 岁
阅读(2369)
评论(0)
推荐(0)
下一页
公告