会员
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
31
32
33
34
35
36
37
38
39
···
135
下一页
2024年9月29日
在Pytorch中为不同层设置不同学习率来提升性能,优化深度学习模型
摘要: 在深度学习模型的训练过程中,学习率作为一个关键的超参数,对模型的收敛速度和最终性能有着重大影响。传统方法通常采用统一的学习率,但随着研究的深入,我们发现为网络的不同层设置不同的学习率可能会带来显著的性能提升。本文将详细探讨这一策略的实施方法及其在PyTorch框架中的具体应用。 https://av
阅读全文
posted @ 2024-09-29 09:56 deephub
阅读(101)
评论(0)
推荐(0)
2024年9月28日
TimeMOE: 使用稀疏模型实现更大更好的时间序列预测
摘要: 传统上,预测这些趋势涉及针对每种情况的专门模型。最近的进展指向了可以处理广泛预测问题的"基础模型"。 这是9月份刚刚发布的论文TimeMOE。它是一种新型的时间序列预测基础模型,"专家混合"(Mixture of Experts, MOE)在大语言模型中已经有了很大的发展,现在它已经来到了时间序列。
阅读全文
posted @ 2024-09-28 09:49 deephub
阅读(136)
评论(0)
推荐(0)
2024年9月27日
8种数值变量的特征工程技术:利用Sklearn、Numpy和Python将数值转化为预测模型的有效特征
摘要: 特征工程是机器学习流程中的关键步骤,在此过程中,原始数据被转换为更具意义的特征,以增强模型对数据关系的理解能力。 特征工程通常涉及对现有数据应用转换,以生成或修改数据,这些转换后的数据在机器学习和数据科学的语境下用于训练模型,从而提高模型性能。 本文主要介绍处理数值变量特征工程,将探讨使用Pytho
阅读全文
posted @ 2024-09-27 10:30 deephub
阅读(28)
评论(0)
推荐(0)
2024年9月26日
MAGICORE:基于多代理迭代的粗到细精炼框架,提升大语言模型推理质量
摘要: 大语言模型(LLM)的推理能力可以通过测试时聚合策略来改进,即为每个问题生成多个样本并对它们进行聚合以找到更好的答案。这些方法往往会达到饱和点,超过这个点后额外的样本不会带来更多收益。精炼(refinement)提供了另一种选择,它使用模型生成的反馈不仅采样更多解决方案,还提高它们的质量。但是精炼引
阅读全文
posted @ 2024-09-26 10:06 deephub
阅读(35)
评论(0)
推荐(0)
2024年9月25日
PyTorch自定义学习率调度器实现指南
摘要: 在深度学习训练过程中,学习率调度器扮演着至关重要的角色。这主要是因为在训练的不同阶段,模型的学习动态会发生显著变化。 在训练初期,损失函数通常呈现剧烈波动,梯度值较大且不稳定。此阶段的主要目标是在优化空间中快速接近某个局部最小值。然而,过高的学习率可能导致模型跳过潜在的优质局部最小值,从而限制了模型
阅读全文
posted @ 2024-09-25 09:53 deephub
阅读(237)
评论(0)
推荐(0)
2024年9月24日
AdEMAMix: 一种创新的神经网络优化器
摘要: 这是9月发布的一篇论文,Pagliardini等人在其论文中提出了一种新的优化算法——AdEMAMix。这种算法旨在解决当前广泛使用的Adam及其变体(如AdamW)在利用长期梯度信息方面的局限性。研究者们通过巧妙地结合两个不同衰减率的指数移动平均(EMA),设计出了这种新的优化器,以更有效地利用历
阅读全文
posted @ 2024-09-24 09:32 deephub
阅读(51)
评论(0)
推荐(0)
2024年9月23日
PyTorch 模型调试与故障排除指南
摘要: 在当代深度学习领域,PyTorch 已成为开发和训练神经网络的主要框架之一。然而随着模型复杂度的增加和数据规模的扩大,开发者常常面临各种调试和优化挑战。本文旨在为 PyTorch 开发者提供一个全面的调试指南,涵盖从基础概念到高级技术的广泛内容。 本指南的目标读者包括: 正在学习 PyTorch 的
阅读全文
posted @ 2024-09-23 09:54 deephub
阅读(51)
评论(0)
推荐(0)
2024年9月22日
使用GPU 加速 Polars:高效解决大规模数据问题
摘要: Polars 最近新开发了一个可以支持 GPU 加速计算的执行引擎。这个引擎可以对超过 100GB 的数据进行交互式操作能。本文将详细讨论 Polars 中DF的概念、GPU 加速如何与 Polars DF协同工作,以及使用新的 CUDA 驱动执行引擎可能带来的性能提升。 https://avoid
阅读全文
posted @ 2024-09-22 12:28 deephub
阅读(67)
评论(0)
推荐(0)
2024年9月21日
GraphRAG 与 RAG 的比较分析
摘要: 检索增强生成(RAG)技术概述 检索增强生成(Retrieval-Augmented Generation,简称 RAG)是一种旨在提升大型语言模型(Large Language Models,LLMs)性能的技术方法。其核心思想是通过整合外部可靠知识库的信息来增强模型的输出质量。 RAG 的工作原
阅读全文
posted @ 2024-09-21 09:49 deephub
阅读(118)
评论(0)
推荐(0)
2024年9月20日
让模型评估模型:构建双代理RAG评估系统的步骤解析
摘要: 在当前大语言模型(LLM)应用开发的背景下,一个关键问题是如何评估模型输出的准确性。我们需要确定哪些评估指标能够有效衡量提示(prompt)的效果,以及在多大程度上需要对提示进行优化。 为解决这一问题,我们将介绍一个基于双代理的RAG(检索增强生成)评估系统。该系统使用生成代理和反馈代理,基于预定义
阅读全文
posted @ 2024-09-20 16:42 deephub
阅读(28)
评论(0)
推荐(0)
上一页
1
···
31
32
33
34
35
36
37
38
39
···
135
下一页
公告