• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
返回主页

将者,智、信、仁、勇、严也。

Hi,我是李智华,华为-安全AI算法专家,欢迎来到安全攻防对抗的有趣世界。

  • 博客园
  • 首页
  • 新随笔
  • 联系
  • 订阅
  • 管理

我的随笔

上一页 1 2 3 4 5 6 7 8 9 10 ··· 295 下一页
Mistral系列模型:MOE模块—EC是什么? 专家主动去一堆token里选择自己适合处理的token
bonelee 2025-11-05 21:10 阅读:8 评论:0 推荐:0
Mistral里的MOE是什么?
bonelee 2025-11-04 14:30 阅读:8 评论:0 推荐:0
FlashAttention 的核心思想 将一次性计算完整的注意力矩阵,变成块(tiling)进行计算——又是数学的优雅应用
bonelee 2025-11-03 20:51 阅读:18 评论:0 推荐:0
grpo的核心是一堆老师来奖励学生 这样评价更客观
bonelee 2025-10-28 17:47 阅读:60 评论:0 推荐:0
注意力机制里的qkv——目前讲解得最清晰的注意力机制
bonelee 2025-10-28 09:56 阅读:142 评论:1 推荐:1
MHA、MQA、GQA 有什么区别?GQA是性能优化和性能之间的折中方案
bonelee 2025-10-28 09:26 阅读:114 评论:0 推荐:0
Swish 和 SwiGLU 激活函数
bonelee 2025-10-27 17:52 阅读:7 评论:0 推荐:0
llma里ROPE的精髓
bonelee 2025-10-22 19:14 阅读:7 评论:0 推荐:0
如何通俗理解ROPE?=》“旋转”能表达相对位置,数学的优雅在这里面体现得淋漓尽致
bonelee 2025-10-22 19:14 阅读:14 评论:0 推荐:0
跟着gpt5学习llama的技术演进——学到了rmsNorm和layerNorm差别,SwiGLU平滑过度,利于信息流正向流动,还有ROPE这种更优雅的相对位置编码
bonelee 2025-10-22 15:41 阅读:23 评论:0 推荐:0
上一页 1 2 3 4 5 6 7 8 9 10 ··· 295 下一页

公告

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3