会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
40
41
42
43
44
45
46
47
48
···
144
下一页
2024年10月4日
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
摘要: 随着大型语言模型(LLMs)的迅速普及,如何有效地引导它们生成安全、适合特定应用和目标受众的内容成为一个关键挑战。例如,我们可能希望语言模型在与幼儿园孩子互动时使用不同的语言,或在撰写喜剧小品、提供法律支持或总结新闻文章时采用不同的风格。 目前,最成功的LLM范式是训练一个可用于多种任务的大型自回归
阅读全文
posted @ 2024-10-04 14:01 deephub
阅读(62)
评论(0)
推荐(0)
2024年10月3日
SCoRe: 通过强化学习教导大语言模型进行自我纠错
摘要: 大语言模型(LLMs)在推理任务中,如数学问题求解和编程,已经展现出了优秀的性能。尽管它们能力强大,但在实现能够通过计算和交互来改进其回答的算法方面仍然面临挑战。现有的自我纠错方法要么依赖于提示工程,要么需要使用额外的模型进行微调,但这些方法都有局限性,往往无法产生有意义的自我纠错。 这是谷歌9月发
阅读全文
posted @ 2024-10-03 11:56 deephub
阅读(55)
评论(0)
推荐(0)
2024年10月2日
VisionTS:基于时间序列的图形构建高性能时间序列预测模型,利用图像信息进行时间序列预测
摘要: 构建预训练时间序列模型时面临的主要挑战是什么?获取高质量、多样化的时间序列数据。目前构建基础预测模型主要有两种方法: 迁移学习LLM:通过针对时间序列任务定制的微调或分词策略,重新利用预训练的大型语言模型(LLM),如GPT-4或Llama。 从零训练:构建大规模时间序列数据集,并从头开始预训练模型
阅读全文
posted @ 2024-10-02 19:58 deephub
阅读(111)
评论(0)
推荐(0)
2024年10月1日
闭源与开源嵌入模型比较以及提升语义搜索效果的技术探讨
摘要: 闭源与开源嵌入模型比较以及提升语义搜索效果的技术探讨 上图为执行语义搜索前的聚类演示 ,嵌入技术是自然语言处理的核心组成部分。虽然嵌入技术的应用范围广泛,但在检索应用中的语义搜索仍是其最常见的用途之一。 https://avoid.overfit.cn/post/38350e175fa0424b8c
阅读全文
posted @ 2024-10-01 10:20 deephub
阅读(51)
评论(0)
推荐(0)
2024年9月30日
Minstrel自动生成结构化提示,让AI为AI写提示词的多代理提示生成框架
摘要: 在人工智能快速发展的今天,如何有效利用大型语言模型(LLMs)成为了一个普遍关注的话题。这是9月份的一篇论文,提出了LangGPT结构化提示框架和Minstrel多代理提示生成系统,为非AI专家使用LLMs提供了强大支持。 对于非人工智能专家来说,构建高质量的提示以充分利用LLMs的能力仍然是一个巨
阅读全文
posted @ 2024-09-30 10:00 deephub
阅读(48)
评论(0)
推荐(0)
2024年9月29日
在Pytorch中为不同层设置不同学习率来提升性能,优化深度学习模型
摘要: 在深度学习模型的训练过程中,学习率作为一个关键的超参数,对模型的收敛速度和最终性能有着重大影响。传统方法通常采用统一的学习率,但随着研究的深入,我们发现为网络的不同层设置不同的学习率可能会带来显著的性能提升。本文将详细探讨这一策略的实施方法及其在PyTorch框架中的具体应用。 https://av
阅读全文
posted @ 2024-09-29 09:56 deephub
阅读(112)
评论(0)
推荐(0)
2024年9月28日
TimeMOE: 使用稀疏模型实现更大更好的时间序列预测
摘要: 传统上,预测这些趋势涉及针对每种情况的专门模型。最近的进展指向了可以处理广泛预测问题的"基础模型"。 这是9月份刚刚发布的论文TimeMOE。它是一种新型的时间序列预测基础模型,"专家混合"(Mixture of Experts, MOE)在大语言模型中已经有了很大的发展,现在它已经来到了时间序列。
阅读全文
posted @ 2024-09-28 09:49 deephub
阅读(171)
评论(0)
推荐(0)
2024年9月27日
8种数值变量的特征工程技术:利用Sklearn、Numpy和Python将数值转化为预测模型的有效特征
摘要: 特征工程是机器学习流程中的关键步骤,在此过程中,原始数据被转换为更具意义的特征,以增强模型对数据关系的理解能力。 特征工程通常涉及对现有数据应用转换,以生成或修改数据,这些转换后的数据在机器学习和数据科学的语境下用于训练模型,从而提高模型性能。 本文主要介绍处理数值变量特征工程,将探讨使用Pytho
阅读全文
posted @ 2024-09-27 10:30 deephub
阅读(36)
评论(0)
推荐(0)
2024年9月26日
MAGICORE:基于多代理迭代的粗到细精炼框架,提升大语言模型推理质量
摘要: 大语言模型(LLM)的推理能力可以通过测试时聚合策略来改进,即为每个问题生成多个样本并对它们进行聚合以找到更好的答案。这些方法往往会达到饱和点,超过这个点后额外的样本不会带来更多收益。精炼(refinement)提供了另一种选择,它使用模型生成的反馈不仅采样更多解决方案,还提高它们的质量。但是精炼引
阅读全文
posted @ 2024-09-26 10:06 deephub
阅读(45)
评论(0)
推荐(0)
2024年9月25日
PyTorch自定义学习率调度器实现指南
摘要: 在深度学习训练过程中,学习率调度器扮演着至关重要的角色。这主要是因为在训练的不同阶段,模型的学习动态会发生显著变化。 在训练初期,损失函数通常呈现剧烈波动,梯度值较大且不稳定。此阶段的主要目标是在优化空间中快速接近某个局部最小值。然而,过高的学习率可能导致模型跳过潜在的优质局部最小值,从而限制了模型
阅读全文
posted @ 2024-09-25 09:53 deephub
阅读(254)
评论(0)
推荐(0)
上一页
1
···
40
41
42
43
44
45
46
47
48
···
144
下一页
公告