风生水起 - 博客园

2023年8月3日

摘要：关键结论：开源社区模型不具备真正智能，更好的小模型来自大模型的 Scale Down GPT-4模型信息：采用MoE架构，16个experts，800b参数如何减少幻觉 hallucination？scaling/retrieval/reward model 指令遵循的开源小模型被过度炒作，已经阅读全文

posted @ 2023-08-03 16:03 风生水起阅读(207) 评论(0) 推荐(0)

2023年7月26日

聊一聊学习率预热linear warmup

摘要：来源链接：https://mp.weixin.qq.com/s?__biz=MzAxOTU5NTU4MQ==&mid=2247488715&idx=1&sn=2acedd3705b27e5b9e259485f2dd9653&chksm=9bc5fc99acb2758f82b638d03ace8993 阅读全文

posted @ 2023-07-26 15:14 风生水起阅读(554) 评论(0) 推荐(0)

2023年7月14日

softmax和crossentropy

摘要：当进行多分类任务时，通常会使用 Softmax 函数和 CrossEntropyLoss 损失函数来处理模型的输出和计算损失。 Softmax 函数： Softmax 函数用于将模型的原始输出转换为概率分布。对于一个具有 K 个类别的模型输出向量 z，Softmax 函数的定义如下： softmax 阅读全文

posted @ 2023-07-14 15:42 风生水起阅读(233) 评论(0) 推荐(0)

2023年7月12日

Linux文件比较命令

摘要： Linux文件比较命令用来比较两个文件内容的差别。主要有comm命令和diff命令。如果想对两个有序的文件进行比较，可以使用comm命令。如果要逐行比较两个文本文件，列出其不同之处可以使用diff命令。Linux还有一种基本比较命令cmp，能够实现基本的比较两个文件是否相同。 Comm命令编辑播阅读全文

posted @ 2023-07-12 21:34 风生水起阅读(275) 评论(0) 推荐(0)

2023年7月10日

超级对齐简介zz

摘要：我们如何确保人工智能系统比人类聪明得多并遵循人类意图？目前，我们还没有一个解决方案来引导或控制潜在的超级人工智能，并防止其失控。我们当前调整人工智能的技术，例如根据人类反馈进行强化学习，依赖于人类监督人工智能的能力。但人类无法可靠地监督比我们聪明得多的人工智能系统，乙[乙] 其他假设在未来也可能被阅读全文

posted @ 2023-07-10 20:05 风生水起阅读(110) 评论(0) 推荐(0)

2023年6月23日

grep常用命令

摘要： grep 是一个强大的文本搜索工具，在命令行中常用于查找匹配指定模式的文本行。以下是一些常用的 grep 命令示例：在文件中查找匹配模式的行：grep "pattern" filename，这将在指定的文件中查找包含匹配 "pattern" 的行，并将其打印出来。忽略字母大小写进行匹配：grep 阅读全文

posted @ 2023-06-23 16:28 风生水起阅读(360) 评论(0) 推荐(0)

Vim编辑器常用命令

摘要：在Vim编辑器中，你可以使用以下命令来进行上下翻页： Ctrl + F：向下翻一页（Forward）。 Ctrl + B：向上翻一页（Backward）。 Ctrl + D：向下翻半页。 Ctrl + U：向上翻半页。将光标移动到行首可以按下0键，到行尾可以按下 $ 键。 Vim快捷方向键和以单词阅读全文

posted @ 2023-06-23 16:25 风生水起阅读(435) 评论(0) 推荐(0)

2023年6月14日

为什么RLHF中，PPO需要Critic模型而不是直接使用RewardModel

摘要：在强化学习中，PPO（Proximal Policy Optimization）算法是一种基于策略梯度的方法，用于训练强化学习智能体。PPO算法中引入Critic模型的主要目的是为了提供一个价值估计器，用于评估状态或状态动作对的价值，从而辅助策略的更新和优化。虽然奖励模型（Reward Model 阅读全文

posted @ 2023-06-14 18:13 风生水起阅读(5881) 评论(1) 推荐(3)

2023年6月10日

GPT问答记录

该文被密码保护。阅读全文

posted @ 2023-06-10 11:40 风生水起阅读(0) 评论(0) 推荐(0)

2023年6月1日

大模型可视化

摘要：说明：左边是一个与Show probabilities设置为的OpenAI Playground 基本一致的界面Full spectrum。提示是Are bugs real?，随后突出显示的文本是模型生成的完成。令牌根据模型预测的概率进行着色，绿色最有可能，红色最不可能。左侧的下拉菜单显示了在特定阅读全文

posted @ 2023-06-01 14:34 风生水起阅读(115) 评论(0) 推荐(0)