deephub

2024年9月14日

摘要：本文将介绍MemLong，这是一种创新的长文本语言模型生成方法。MemLong通过整合外部检索器来增强模型处理长上下文的能力，从而显著提升了大型语言模型（LLM）在长文本处理任务中的表现。核心概念 MemLong的设计理念主要包括以下几点：高效扩展LLM上下文窗口的轻量级方法。利用不可训练的外阅读全文

posted @ 2024-09-14 09:27 deephub 阅读(272) 评论(0) 推荐(0)

2024年9月13日

KAN专家混合模型在高性能时间序列预测中的应用：RMoK模型架构探析与Python代码实验

摘要： Kolmogorov-Arnold网络（KAN）的提出为深度学习领域带来了重要突破，它作为多层感知器（MLP）的一种替代方案，展现了新的可能性。MLP作为众多深度学习模型的基础构件，包括目前最先进的预测方法如N-BEATS、NHiTS和TSMixer，已经在各个领域得到广泛应用。但是我们在使用KA 阅读全文

posted @ 2024-09-13 09:41 deephub 阅读(109) 评论(0) 推荐(0)

2024年9月12日

使用ClassificationThresholdTuner进行二元和多类分类问题阈值调整，提高模型性能增强结果可解释性

摘要： AUROC 指标,顾名思义,是基于 ROC 的,ROC 是一条显示真阳性率与假阳性率关系的曲线。ROC 曲线本身并不假设使用任何特定的阈值。但是曲线上的每个点对应一个特定的阈值。在下面的图中,蓝色曲线是 ROC。这条曲线下的面积(AUROC)衡量了模型的总体性能,是在所有潜在阈值上的平均值。它衡量阅读全文

posted @ 2024-09-12 12:14 deephub 阅读(97) 评论(0) 推荐(0)

2024年9月11日

RAG系统的7个检索指标：信息检索任务准确性评估指南

摘要：大型语言模型（LLMs）作为一种生成式AI技术，在近两年内获得了显著的关注和应用。但是在实际部署中，LLMs的知识局限性和幻觉问题仍然是一个挑战。检索增强生成（Retrieval Augmented Generation，RAG）通过为LLM提供额外的外部知识和上下文，有效地解决了这些问题。截至20 阅读全文

posted @ 2024-09-11 11:16 deephub 阅读(57) 评论(0) 推荐(0)

2024年9月10日

Monte Carlo方法解决强化学习问题

摘要：本文继续深入探讨蒙特卡罗 (MC)方法。这些方法的特点是能够仅从经验中学习,不需要任何环境模型,这与动态规划(DP)方法形成对比。这一特性极具吸引力 - 因为在实际应用中,环境模型往往是未知的,或者难以精确建模转移概率。以21点游戏为例:尽管我们完全理解游戏规则,但通过DP方法解决它将极为繁琐 - 阅读全文

posted @ 2024-09-10 10:50 deephub 阅读(48) 评论(0) 推荐(0)

2024年9月9日

Transformer、RNN和SSM的相似性探究：揭示看似不相关的LLM架构之间的联系

摘要：通过探索看似不相关的大语言模型(LLM)架构之间的潜在联系,我们可能为促进不同模型间的思想交流和提高整体效率开辟新的途径。尽管Mamba等线性循环神经网络(RNN)和状态空间模型(SSM)近来备受关注,Transformer架构仍然是LLM的主要支柱。这种格局可能即将发生变化:像Jamba、Sam 阅读全文

posted @ 2024-09-09 10:34 deephub 阅读(81) 评论(0) 推荐(0)

2024年9月8日

时间序列结构变化分析：Python实现时间序列变化点检测

摘要：平稳性是时间序列分析与预测的核心概念。在平稳条件下，时间序列的统计特性（如均值）在时间维度上保持不变，仅存在随机波动。但是实际数据集中很少观察到完全的平稳性。时间序列通常会经历结构性断裂或变化。这些变化会引入非平稳性，从而改变时间序列的整体分布，这些标志着变化开始的时间点被称为变化点。在时间序列阅读全文

posted @ 2024-09-08 09:16 deephub 阅读(197) 评论(0) 推荐(0)

2024年9月7日

图特征工程实践指南：从节点中心性到全局拓扑的多尺度特征提取

摘要：图结构在多个领域中扮演着重要角色，它能有效地模拟实体间的连接关系，通过从图中提取有意义的特征，可以获得宝贵的信息提升机器学习算法的性能。本文将介绍如何利用NetworkX在不同层面（节点、边和整体图）提取重要的图特征。本文将以NetworkX库中提供的Zachary网络作为示例。这个广为人知的数阅读全文

posted @ 2024-09-07 10:46 deephub 阅读(38) 评论(0) 推荐(0)

2024年9月6日

Optuna发布 4.0 重大更新：多目标TPESampler自动化超参数优化速度提升显著

摘要： Optuna这个备受欢迎的超参数优化框架在近期发布了其第四个主要版本。自2018年首次亮相以来，Optuna不断发展，现已成为机器学习领域的重要工具。其用户社区持续壮大，目前已达到以下里程碑： 10,000+ GitHub星标每月300万+ 下载量 16,000+ 代码库使用 5,000+ 论文引阅读全文

posted @ 2024-09-06 10:00 deephub 阅读(158) 评论(0) 推荐(0)

2024年9月5日

优化采样参数提升大语言模型响应质量：深入分析温度、top_p、top_k和min_p的随机解码策略

摘要：当向大语言模型(LLM)提出查询时，模型会为其词汇表中的每个可能标记输出概率值。从这个概率分布中采样一个标记后，我们可以将该标记附加到输入提示中，使LLM能够继续输出下一个标记的概率。这个采样过程可以通过诸如 temperature 和 top_p 等参数进行精确控制。但是你是否曾深入思考过temp 阅读全文

posted @ 2024-09-05 10:35 deephub 阅读(127) 评论(0) 推荐(0)

overfit深度学习

公告