会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
27
28
29
30
31
32
33
34
35
···
139
下一页
2024年12月27日
多维偏好分析及其在实际决策中的应用:基于PCA-KMeans的数据降维与模式识别方法
摘要: 多维偏好分析(Multidimensional Preference Analysis, MPA)是一种在市场营销、心理学和公共政策等领域广泛应用的分析工具,用于研究多维度下的复杂偏好决策过程。在高维数据集中,当属性与偏好之间存在非线性关系或维度重叠时,偏好的理解和可视化呈现出显著的技术挑战。 本文
阅读全文
posted @ 2024-12-27 10:31 deephub
阅读(45)
评论(0)
推荐(0)
2024年12月26日
SPAR:融合自对弈与树搜索的高性能指令优化框架
摘要: 大语言模型的指令遵循能力需要模型能够准确识别指令中的细微要求,并在输出中精确体现这些要求。现有方法通常采用偏好学习进行优化,在创建偏好对时直接从模型中采样多个独立响应。但是这种方法可能会引入与指令精确遵循无关的内容变化(例如,同一语义的不同表达方式),这干扰了模型学习识别能够改进指令遵循的关键差异。
阅读全文
posted @ 2024-12-26 10:02 deephub
阅读(37)
评论(0)
推荐(0)
2024年12月25日
TurboAttention:基于多项式近似和渐进式量化的高效注意力机制优化方案,降低LLM计算成本70%
摘要: 随着大型语言模型(LLMs)在AI应用领域持续发展,其计算成本也呈现显著上升趋势。数据分析表明,GPT-4的运行成本约为700美元/小时,2023年各企业在LLM推理方面的总支出超过50亿美元。这一挑战的核心在于注意力机制——该机制作为模型处理和关联信息的计算核心,同时也构成了主要的性能瓶颈。 Tu
阅读全文
posted @ 2024-12-25 10:36 deephub
阅读(58)
评论(0)
推荐(0)
2024年12月24日
BERT的继任者ModernBERT:融合长序列处理、代码理解与高效计算的新一代双向编码器
摘要: BERT 发布于 2018 年(从人工智能发展速度来看已是遥远的过去),但它至今仍在广泛使用:实际上它目前是 HuggingFace hub 上下载量第二高的模型,月下载量超过 6800 万次,仅次于另一个针对检索任务优化的编码器模型。这源于其编码器架构在处理日常实际问题方面表现出色,例如检索(如用
阅读全文
posted @ 2024-12-24 10:48 deephub
阅读(168)
评论(0)
推荐(0)
2024年12月23日
10个必备Python调试技巧:从pdb到单元测试的开发效率提升指南
摘要: 在Python开发过程中,调试是一项核心技能。无论是初级开发者还是资深工程师,掌握高效的调试技巧都能显著提升开发效率。本文将介绍10个实用的调试方法,帮助开发者更有效地定位和解决问题。 https://avoid.overfit.cn/post/dfc2c72df2164c7ebac1289e17e
阅读全文
posted @ 2024-12-23 09:40 deephub
阅读(22)
评论(0)
推荐(0)
2024年12月22日
使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比
摘要: 基于人类反馈的强化学习(RLHF)已成为大型语言模型(LLM)训练流程中的关键环节,并持续获得研究界的广泛关注。 本文将探讨RLHF技术,特别聚焦于直接偏好优化(Direct Preference Optimization, DPO)方法,并详细阐述了一项实验研究:通过DPO对GPT-2 124M模
阅读全文
posted @ 2024-12-22 10:15 deephub
阅读(68)
评论(0)
推荐(0)
2024年12月21日
LEC: 基于Transformer中间层隐藏状态的高效特征提取与内容安全分类方法
摘要: 随着语言模型(LMs)应用范围的扩大,对用户输入和模型输出中不当内容的检测变得日益重要。每当主要模型供应商发布新模型时,研究人员首先会尝试寻找绕过模型安全限制的方法,使其产生不符合预期的响应。通过Google的搜索可以发现,已有多种方法可以绕过模型的对齐调整,导致模型对不当请求作出响应。另外多家公司
阅读全文
posted @ 2024-12-21 09:27 deephub
阅读(36)
评论(0)
推荐(0)
2024年12月20日
时间序列分析中的互相关与相干性分析:前导-滞后关系的理论基础与实际应用
摘要: 时间序列数据在现代数据分析中无处不在。从金融市场的股票价格波动到生物医学领域的心电图与脑电图信号,甚至是日常生活中的用水量变化,都可以通过时间序列来表征。深入理解时间序列信号之间的关联性对于提取有意义的数据特征至关重要。本文将重点介绍两种基本但强大的分析工具:互相关和相干性分析。这些方法能够有效地揭
阅读全文
posted @ 2024-12-20 09:56 deephub
阅读(88)
评论(0)
推荐(0)
2024年12月19日
基于深度混合架构的智能量化交易系统研究: 融合SSDA与LSTM自编码器的特征提取与决策优化方法
摘要: 本文探讨在量化交易领域中结合时序特征和静态特征的混合建模方法。通过整合堆叠稀疏降噪自编码器(SSDA)和基于LSTM的自编码器(LSTM-AE),我们要构建一个能够全面捕捉市场动态特性的交易系统。 特征表示学习 在特征工程阶段,SSDA通过降噪技术提取股票数据的鲁棒表示。该方法能够有效过滤市场噪声,
阅读全文
posted @ 2024-12-19 09:56 deephub
阅读(77)
评论(0)
推荐(0)
2024年12月18日
基于Copula分布的合成数据采样:保持多维数据依赖结构的高效建模方法
摘要: 在分析变量间复杂依赖关系时,传统统计工具往往难以胜任。Copula作为一种将边际分布与联合依赖结构解耦的数学框架,为解决这类问题提供了有效途径。本文将深入探讨copula的基础理论、运作机制及其在数据科学领域的实际应用。 从数学本质来看,copula是一类能够将随机变量间的依赖关系与其边际分布分离的
阅读全文
posted @ 2024-12-18 09:24 deephub
阅读(39)
评论(0)
推荐(0)
上一页
1
···
27
28
29
30
31
32
33
34
35
···
139
下一页
公告