会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
红豆生南国 是很遥远的事情
种豆南山下 github
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
···
34
下一页
2025年9月2日
大模型- moe++-96
摘要: 目录核心思想:零计算专家(Zero-Computation Experts, ZCE)二、MoE++ 架构详解ZCE 的选择策略为什么 ZCE 有效?总结:MoE++ (ZCE) 的价值 MoE++: Accelerating Mixture-of-Experts Methods with Zero
阅读全文
posted @ 2025-09-02 11:08 jack-chen666
阅读(46)
评论(0)
推荐(0)
2025年9月1日
大模型- moe技术汇总-95
摘要: 目录主流 MoE 架构核心组件回顾-基础 MoE 结构负载均衡(Load Balancing Loss)专家并行(Expert Parallelism)层级化 MoE(Hierarchical MoE / H-MoE)动态稀疏模式(Dynamic Sparsity)残差连接与专家融合(Residua
阅读全文
posted @ 2025-09-01 14:41 jack-chen666
阅读(36)
评论(0)
推荐(0)
2025年8月27日
oft-OPT资料
摘要: oft: https://github.com/zqiu24/oft https://oft.wyliu.com/ Controlling Text-to-Image Diffusion by Orthogonal Finetuning https://arxiv.org/pdf/2306.0728
阅读全文
posted @ 2025-08-27 11:42 jack-chen666
阅读(39)
评论(0)
推荐(0)
大模型- 参数微调PEFT之OFT-94
摘要: 目录参考LoRA (Low-Rank Adaptation)OFT (Orthogonal Finetuning)数学原理总结正交矩阵的特性核心特性与几何解释举例看这个图 参考 https://huggingface.co/docs/peft/en/conceptual_guides/oft?utm
阅读全文
posted @ 2025-08-27 11:10 jack-chen666
阅读(119)
评论(0)
推荐(0)
2025年8月26日
MXFP4 gpt-oss 使用的新的数据结构
摘要: 目录MX数据结构FP32、FP16 是如何表示一个浮点数据的?FP32 (单精度浮点数)FP16 (半精度浮点数)MX数据格式 参考:https://www.cnblogs.com/cavalier-chen/p/18591085 MX数据结构 https://arxiv.org/abs/2310.
阅读全文
posted @ 2025-08-26 10:34 jack-chen666
阅读(197)
评论(0)
推荐(0)
2025年8月25日
google RMM记忆
摘要: https://arxiv.org/pdf/2503.08026? google的RMM 记忆 https://app.funblocks.net/#/aiflow?hid=8481d7c2a61775df3c75df1e533dcb8a 一句话总结:回顾过去+展望未来
阅读全文
posted @ 2025-08-25 17:07 jack-chen666
阅读(11)
评论(0)
推荐(0)
2025年8月22日
相当好的学习资源
摘要: 目录multimodalllm-architecture-comparisonreasoning-llms multimodal https://magazine.sebastianraschka.com/p/understanding-multimodal-llms https://app.fun
阅读全文
posted @ 2025-08-22 16:24 jack-chen666
阅读(14)
评论(0)
推荐(0)
2025年8月21日
扩撒模型资源
摘要: Mean Flows for One-step Generative Modeling 基于分数的生成模型 Score-Based Generative Modeling through Stochastic ...
阅读全文
posted @ 2025-08-21 11:46 jack-chen666
阅读(8)
评论(0)
推荐(0)
2025年8月19日
编译原理-动态类型语言不使用JIT-02
摘要: 目录实现复杂性高 (High Implementation Complexity)启动速度和预热时间 (Startup Speed & Warm-up Time)可移植性 (Portability)安全性和确定性 (Security & Determinism)生态系统和 C 语言扩展 (Ecosy
阅读全文
posted @ 2025-08-19 09:55 jack-chen666
阅读(28)
评论(0)
推荐(0)
编译原理-学习资源推荐-01
摘要: 目录经典必读圣经(理论深厚)现代与实践入门(动手驱动)在线课程与教程学习步骤 经典必读圣经(理论深厚) 《编译原理》(Compilers: Principles, Techniques, and Tools) 昵称:龙书(Dragon Book),因为封面是红、紫、绿色的龙。 简介:这是编译原理领域
阅读全文
posted @ 2025-08-19 09:40 jack-chen666
阅读(144)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
···
34
下一页
公告