随笔列表第2页 - deephub

2024年9月10日

摘要：本文继续深入探讨蒙特卡罗 (MC)方法。这些方法的特点是能够仅从经验中学习,不需要任何环境模型,这与动态规划(DP)方法形成对比。这一特性极具吸引力 - 因为在实际应用中,环境模型往往是未知的,或者难以精确建模转移概率。以21点游戏为例:尽管我们完全理解游戏规则,但通过DP方法解决它将极为繁琐 - 阅读全文

posted @ 2024-09-10 10:50 deephub 阅读(3) 评论(0) 推荐(0) 编辑

2024年9月9日

Transformer、RNN和SSM的相似性探究：揭示看似不相关的LLM架构之间的联系

摘要：通过探索看似不相关的大语言模型(LLM)架构之间的潜在联系,我们可能为促进不同模型间的思想交流和提高整体效率开辟新的途径。尽管Mamba等线性循环神经网络(RNN)和状态空间模型(SSM)近来备受关注,Transformer架构仍然是LLM的主要支柱。这种格局可能即将发生变化:像Jamba、Sam 阅读全文

posted @ 2024-09-09 10:34 deephub 阅读(8) 评论(0) 推荐(0) 编辑

2024年9月8日

时间序列结构变化分析：Python实现时间序列变化点检测

摘要：平稳性是时间序列分析与预测的核心概念。在平稳条件下，时间序列的统计特性（如均值）在时间维度上保持不变，仅存在随机波动。但是实际数据集中很少观察到完全的平稳性。时间序列通常会经历结构性断裂或变化。这些变化会引入非平稳性，从而改变时间序列的整体分布，这些标志着变化开始的时间点被称为变化点。在时间序列阅读全文

posted @ 2024-09-08 09:16 deephub 阅读(30) 评论(0) 推荐(0) 编辑

2024年9月7日

图特征工程实践指南：从节点中心性到全局拓扑的多尺度特征提取

摘要：图结构在多个领域中扮演着重要角色，它能有效地模拟实体间的连接关系，通过从图中提取有意义的特征，可以获得宝贵的信息提升机器学习算法的性能。本文将介绍如何利用NetworkX在不同层面（节点、边和整体图）提取重要的图特征。本文将以NetworkX库中提供的Zachary网络作为示例。这个广为人知的数阅读全文

posted @ 2024-09-07 10:46 deephub 阅读(5) 评论(0) 推荐(0) 编辑

2024年9月6日

Optuna发布 4.0 重大更新：多目标TPESampler自动化超参数优化速度提升显著

摘要： Optuna这个备受欢迎的超参数优化框架在近期发布了其第四个主要版本。自2018年首次亮相以来，Optuna不断发展，现已成为机器学习领域的重要工具。其用户社区持续壮大，目前已达到以下里程碑： 10,000+ GitHub星标每月300万+ 下载量 16,000+ 代码库使用 5,000+ 论文引阅读全文

posted @ 2024-09-06 10:00 deephub 阅读(5) 评论(0) 推荐(0) 编辑

2024年9月5日

优化采样参数提升大语言模型响应质量：深入分析温度、top_p、top_k和min_p的随机解码策略

摘要：当向大语言模型(LLM)提出查询时，模型会为其词汇表中的每个可能标记输出概率值。从这个概率分布中采样一个标记后，我们可以将该标记附加到输入提示中，使LLM能够继续输出下一个标记的概率。这个采样过程可以通过诸如 temperature 和 top_p 等参数进行精确控制。但是你是否曾深入思考过temp 阅读全文

posted @ 2024-09-05 10:35 deephub 阅读(9) 评论(0) 推荐(0) 编辑

2024年9月4日

使用PyTorch从零构建Llama 3

摘要：我们上次发了用PyTorch从零开始编写DeepSeek-V2的文章后，有小伙伴留言说希望介绍一下Llama 3。那么今天他就来了，本文将详细指导如何从零开始构建完整的Llama 3模型架构，并在自定义数据集上执行训练和推理。 [图1]：Llama 3架构展示训练和推理流程。因为官方Llama 3论阅读全文

posted @ 2024-09-04 11:37 deephub 阅读(18) 评论(0) 推荐(0) 编辑

2024年9月3日

一文读懂蒙特卡洛算法：从概率模拟到机器学习模型优化的全方位解析

摘要：爱德华·蒙克(Edvard Munch)的"蒙特卡洛赌场的轮盘桌"(1892) 蒙特卡洛方法的起源与发展 1945年，在第二次世界大战即将结束之际，一场看似简单的纸牌游戏引发了计算领域的重大突破。这项突破最终导致了蒙特卡洛方法的诞生。参与曼哈顿计划的科学家斯坦尼斯劳·乌拉姆在康复期间深入思考了纸牌游阅读全文

posted @ 2024-09-03 10:01 deephub 阅读(9) 评论(0) 推荐(0) 编辑

2024年9月2日

CNN中的注意力机制综合指南：从理论到Pytorch代码实现

摘要：注意力机制已经成为深度学习模型，尤其是卷积神经网络（CNN）中不可或缺的组成部分。通过使模型能够选择性地关注输入数据中最相关的部分，注意力机制显著提升了CNN在图像分类、目标检测和语义分割等复杂任务中的性能。本文将全面介绍CNN中的注意力机制，从基本概念到实际实现，为读者提供深入的理解和实践指导。阅读全文

posted @ 2024-09-02 10:03 deephub 阅读(45) 评论(0) 推荐(0) 编辑

2024年9月1日

压缩大型语言模型(LLMs):缩小10倍、性能保持不变

摘要：尽管LLMs的巨大规模使其在广泛的应用场景中表现卓越,但这也为其在实际问题中的应用带来了挑战。本文将探讨如何通过压缩LLMs来应对这些挑战。我们将介绍关键概念,然后通过具体的Python代码实例进行演示。 2023年人工智能领域的主导思想是"更大即更好",改进语言模型的方程相对简单:更多数据 + 更阅读全文

posted @ 2024-09-01 09:45 deephub 阅读(3) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告