会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
18
19
20
21
22
23
24
25
26
···
154
下一页
2025年8月23日
这也许就是DeepSeek V3.1性能提升的关键:UE8M0与INT8量化技术对比与优势分析
摘要: DeepSeek在发布其V3.1大语言模型时宣布该模型采用了"UE8M0 FP8 scale data format"进行训练,这一技术细节引发了业界对于新兴量化格式的广泛关注。UE8M0作为FP8格式家族中的一个特殊变体,我们今天来看看这个UE8M0到底是什么。 数值表示格式 我们先看看一般的量化
阅读全文
posted @ 2025-08-23 21:17 deephub
阅读(67)
评论(0)
推荐(0)
2025年8月22日
PyTorch 2.0性能优化实战:4种常见代码错误严重拖慢模型
摘要: PyTorch 2.0+引入的torch.compile功能通过图捕获和优化技术显著提升模型执行性能。该功能将模型转换为计算图形式,并对其进行深度优化。 PyTorch采用eager execution作为默认执行模式,即每个操作在Python中逐行立即执行。这种模式提供了出色的灵活性和调试便利性,
阅读全文
posted @ 2025-08-22 20:00 deephub
阅读(25)
评论(0)
推荐(0)
2025年8月21日
近端策略优化算法PPO的核心概念和PyTorch实现详解
摘要: 近端策略优化(Proximal Policy Optimization, PPO)作为强化学习领域的重要算法,在众多实际应用中展现出卓越的性能。本文将详细介绍PPO算法的核心原理,并提供完整的PyTorch实现方案。 PPO算法在强化学习任务中具有显著优势:即使未经过精细的超参数调优,也能在Atar
阅读全文
posted @ 2025-08-21 21:53 deephub
阅读(56)
评论(0)
推荐(0)
2025年8月20日
RAG系统文本检索优化:Cross-Encoder与Bi-Encoder架构技术对比与选择指南
摘要: 文本编码技术是现代搜索系统、推荐算法、语义相似度分析和检索增强生成(RAG)系统的基础核心。在众多文本编码策略中,Cross-Encoder和Bi-Encoder两种架构因其独特的设计理念和应用特性而被广泛采用。本文将深入分析这两种编码架构的技术原理、数学基础、实现流程以及各自的优势与局限性,并探讨
阅读全文
posted @ 2025-08-20 20:46 deephub
阅读(93)
评论(0)
推荐(0)
2025年8月19日
让模型不再忽视少数类:MixUp、CutMix、Focal Loss三种技术解决数据不平衡问题
摘要: 在实际的机器学习应用中,数据集规模有限且类别分布不均衡是一个普遍存在的问题。以医学影像分析为例,正类样本通常仅占总样本的5%左右。基于此类数据训练的分类模型往往会倾向于预测多数类别,虽然能够达到95%的整体准确率,但在识别关键的少数类样本方面表现不佳。 这种现象会引发过拟合、预测偏差以及关键类别召回
阅读全文
posted @ 2025-08-19 19:13 deephub
阅读(35)
评论(0)
推荐(0)
2025年8月18日
构建时序感知的智能RAG系统:让AI自动处理动态数据并实时更新知识库
摘要: 现代RAG(Retrieval-Augmented Generation)和智能体架构在处理问答任务时,依赖于能够随时间动态更新的知识库,这类知识库通常包含财务报告、技术文档等持续变化的信息。为确保推理和规划过程的逻辑性与准确性,需要建立相应的时序管理机制。 针对规模不断增长且存在幻觉风险的动态知识
阅读全文
posted @ 2025-08-18 22:13 deephub
阅读(42)
评论(0)
推荐(0)
2025年8月17日
MXFP4量化:如何在80GB GPU上运行1200亿参数的GPT-OSS模型
摘要: 大型语言模型(Large Language Models, LLMs)如GPT-OSS、GPT-4、LLaMA和Mixtral的快速发展显著提升了人工智能的能力边界,但同时也带来了严峻的内存资源挑战。以1200亿参数的模型为例,在FP16精度下仅权重存储就需要约240GB的内存空间,这远超单个NVI
阅读全文
posted @ 2025-08-17 21:31 deephub
阅读(92)
评论(0)
推荐(0)
2025年8月16日
AMD Ryzen AI Max+ 395四机并联:大语言模型集群推理深度测试
摘要: 本文介绍使用四块Framework主板构建AI推理集群的完整过程,并对其在大语言模型推理任务中的性能表现进行了系统性评估。该集群基于AMD Ryzen AI Max+ 395处理器,采用mini ITX规格设计,可部署在10英寸标准机架中。 Jeff Geerling大佬还开发了名为Beowulf
阅读全文
posted @ 2025-08-16 20:34 deephub
阅读(113)
评论(0)
推荐(0)
2025年8月15日
ReasonRank:从关键词匹配到逻辑推理,排序准确性大幅超越传统方法
摘要: 本文深入分析ReasonRank,一个采用自动化数据合成框架和两阶段训练策略(监督微调+强化学习)的先进段落重排器,该系统在信息检索领域实现了突破性的推理能力,在BRIGHT等权威基准测试中超越了参数规模更大的现有模型。 信息检索技术在过去十年中经历了深刻变革。现代搜索引擎和人工智能助手已能够精准理
阅读全文
posted @ 2025-08-15 20:18 deephub
阅读(26)
评论(0)
推荐(0)
2025年8月14日
MARS算法理论和Python代码实现:用分段回归解决非线性时间序列预测问题
摘要: 多元自适应回归样条(Multivariate Adaptive Regression Splines, MARS)是Jerome Friedman于1991年提出的一种非参数回归技术。该方法专门用于建模预测变量集合与目标变量之间的复杂非线性关系,无需预先确定具体的函数形式。本文将深入探讨MARS算法
阅读全文
posted @ 2025-08-14 20:35 deephub
阅读(20)
评论(0)
推荐(0)
上一页
1
···
18
19
20
21
22
23
24
25
26
···
154
下一页
公告