会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
63
64
65
66
67
68
69
70
71
···
154
下一页
2024年5月7日
循环编码:时间序列中周期性特征的一种常用编码方式
摘要: 在深度学习或神经网络中,"循环编码"(Cyclical Encoding)是一种编码技术,其特点是能够捕捉输入或特征中的周期性或循环模式。这种编码方法常用于处理具有周期性行为的任务,比如时间序列预测或理解展示周期性特征的序列。 循环编码的核心思想是将数据的周期性特征转化为网络能够理解的形式。例如,在
阅读全文
posted @ 2024-05-07 10:51 deephub
阅读(140)
评论(0)
推荐(0)
2024年5月6日
LSTM时间序列预测中的一个常见错误以及如何修正
摘要: 当使用LSTM进行时间序列预测时,人们容易陷入一个常见的陷阱。为了解释这个问题,我们需要先回顾一下回归器和预测器是如何工作的。预测算法是这样处理时间序列的: 一个回归问题是这样的: 因为LSTM是一个回归量,我们需要把时间序列转换成一个回归问题。有许多方法可以做到这一点,一般使用窗口和多步的方法,但
阅读全文
posted @ 2024-05-06 10:29 deephub
阅读(226)
评论(0)
推荐(0)
2024年5月5日
LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例
摘要: 嵌入模型是大型语言模型检索增强生成(RAG)的关键组成部分。它们对知识库和用户编写的查询进行编码。 使用与LLM相同领域的训练或微调的嵌入模型可以显著改进RAG系统。然而,寻找或训练这样的嵌入模型往往是一项困难的任务,因为领域内的数据通常是稀缺的。 但是这篇论文LLM2Vec,可以将任何的LLM转换
阅读全文
posted @ 2024-05-05 12:21 deephub
阅读(130)
评论(0)
推荐(0)
2024年5月4日
BiTCN:基于卷积网络的多元时间序列预测
摘要: 在时间序列预测领域中,模型的体系结构通常依赖于多层感知器(MLP)或Transformer体系结构。 基于mlp的模型,如N-HiTS, TiDE和TSMixer,可以在保持快速训练的同时获得非常好的预测性能。基于Transformer的模型,如PatchTST和ittransformer也取得了很
阅读全文
posted @ 2024-05-04 10:50 deephub
阅读(339)
评论(0)
推荐(0)
2024年5月3日
整合文本和知识图谱嵌入提升RAG的性能
摘要: 我们以前的文章中介绍过将知识图谱与RAG结合的示例,在本篇文章中我们将文本和知识图谱结合,来提升我们RAG的性能 https://avoid.overfit.cn/post/5782ca7c4695427b8c0299ad0887c564
阅读全文
posted @ 2024-05-03 11:18 deephub
阅读(62)
评论(0)
推荐(0)
2024年5月2日
Gradformer: 通过图结构归纳偏差提升自注意力机制的图Transformer
摘要: 这是4月刚刚发布在arxiv上的论文,介绍了一种名为“Gradformer”的新型图Transformer,它在自注意力机制中引入了指数衰减掩码。以下是主要创新点: 指数衰减掩码: Gradformer在其自注意力模块中集成了衰减掩码。该掩码随着图结构中节点之间的距离减小而呈指数递减。这种设计使模型
阅读全文
posted @ 2024-05-02 09:48 deephub
阅读(88)
评论(0)
推荐(0)
2024年5月1日
10个使用NumPy就可以进行的图像处理步骤
摘要: 图像处理是一种数学计算。数字图像由称为像素的彩色小点组成。每个像素由红、绿、蓝(RGB)三个独立的颜色组成。每个像素中的主色由每个RGB分量的数值决定。 本文将介绍10个使用使用NumPy就可以进行的图像处理步骤,虽然有更强大的图像处理库,但是这些简单的方法可以让我们更加熟练的掌握NumPy的操作。
阅读全文
posted @ 2024-05-01 10:07 deephub
阅读(54)
评论(0)
推荐(0)
2024年4月30日
贝叶斯推理导论:如何在‘任何试验之前绝对一无所知’的情况下计算概率
摘要: 从左至右依次为托马斯·贝叶斯、皮埃尔-西蒙·拉普拉斯和哈罗德·杰弗里斯——逆概率(即现在所说的客观贝叶斯分析)发展中的关键人物。[24] https://avoid.overfit.cn/post/8c7a66d96347413db8925c5d02e5ecf0
阅读全文
posted @ 2024-04-30 16:46 deephub
阅读(28)
评论(0)
推荐(0)
2024年4月29日
如何准确的估计llm推理和微调的内存消耗
摘要: Command-R+, Mixtral-8x22b和Llama 3 70b都在最近的几周内发布了,这些模型是巨大的。它们都有超过700亿个参数: Command-R+: 104B参数 Mixtral-8x22b:具有141B参数的混合专家(MoE)模型 Llama 370b: 70.6B参数 你能在
阅读全文
posted @ 2024-04-29 10:49 deephub
阅读(76)
评论(0)
推荐(0)
2024年4月28日
通过学习曲线识别过拟合和欠拟合
摘要: 本文将介绍如何通过学习曲线来有效识别机器学习模型中的过拟合和欠拟合。 https://avoid.overfit.cn/post/daca44bbf042471bbd50b1a1514895cf
阅读全文
posted @ 2024-04-28 15:47 deephub
阅读(36)
评论(0)
推荐(0)
上一页
1
···
63
64
65
66
67
68
69
70
71
···
154
下一页
公告