会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
38
39
40
41
42
43
44
45
46
···
139
下一页
2024年9月6日
Optuna发布 4.0 重大更新:多目标TPESampler自动化超参数优化速度提升显著
摘要: Optuna这个备受欢迎的超参数优化框架在近期发布了其第四个主要版本。自2018年首次亮相以来,Optuna不断发展,现已成为机器学习领域的重要工具。其用户社区持续壮大,目前已达到以下里程碑: 10,000+ GitHub星标 每月300万+ 下载量 16,000+ 代码库使用 5,000+ 论文引
阅读全文
posted @ 2024-09-06 10:00 deephub
阅读(147)
评论(0)
推荐(0)
2024年9月5日
优化采样参数提升大语言模型响应质量:深入分析温度、top_p、top_k和min_p的随机解码策略
摘要: 当向大语言模型(LLM)提出查询时,模型会为其词汇表中的每个可能标记输出概率值。从这个概率分布中采样一个标记后,我们可以将该标记附加到输入提示中,使LLM能够继续输出下一个标记的概率。这个采样过程可以通过诸如 temperature 和 top_p 等参数进行精确控制。但是你是否曾深入思考过temp
阅读全文
posted @ 2024-09-05 10:35 deephub
阅读(118)
评论(0)
推荐(0)
2024年9月4日
使用PyTorch从零构建Llama 3
摘要: 我们上次发了用PyTorch从零开始编写DeepSeek-V2的文章后,有小伙伴留言说希望介绍一下Llama 3。那么今天他就来了,本文将详细指导如何从零开始构建完整的Llama 3模型架构,并在自定义数据集上执行训练和推理。 [图1]:Llama 3架构展示训练和推理流程。因为官方Llama 3论
阅读全文
posted @ 2024-09-04 11:37 deephub
阅读(148)
评论(0)
推荐(0)
2024年9月3日
一文读懂蒙特卡洛算法:从概率模拟到机器学习模型优化的全方位解析
摘要: 爱德华·蒙克(Edvard Munch)的"蒙特卡洛赌场的轮盘桌"(1892) 蒙特卡洛方法的起源与发展 1945年,在第二次世界大战即将结束之际,一场看似简单的纸牌游戏引发了计算领域的重大突破。这项突破最终导致了蒙特卡洛方法的诞生。参与曼哈顿计划的科学家斯坦尼斯劳·乌拉姆在康复期间深入思考了纸牌游
阅读全文
posted @ 2024-09-03 10:01 deephub
阅读(340)
评论(0)
推荐(0)
2024年9月2日
CNN中的注意力机制综合指南:从理论到Pytorch代码实现
摘要: 注意力机制已经成为深度学习模型,尤其是卷积神经网络(CNN)中不可或缺的组成部分。通过使模型能够选择性地关注输入数据中最相关的部分,注意力机制显著提升了CNN在图像分类、目标检测和语义分割等复杂任务中的性能。本文将全面介绍CNN中的注意力机制,从基本概念到实际实现,为读者提供深入的理解和实践指导。
阅读全文
posted @ 2024-09-02 10:03 deephub
阅读(152)
评论(0)
推荐(0)
2024年9月1日
压缩大型语言模型(LLMs):缩小10倍、性能保持不变
摘要: 尽管LLMs的巨大规模使其在广泛的应用场景中表现卓越,但这也为其在实际问题中的应用带来了挑战。本文将探讨如何通过压缩LLMs来应对这些挑战。我们将介绍关键概念,然后通过具体的Python代码实例进行演示。 2023年人工智能领域的主导思想是"更大即更好",改进语言模型的方程相对简单:更多数据 + 更
阅读全文
posted @ 2024-09-01 09:45 deephub
阅读(40)
评论(0)
推荐(0)
2024年8月31日
6种有效的时间序列数据特征工程技术(使用Python)
摘要: 在商业分析中,"时间"是一个核心概念。我们基于时间组件来分析销售数据、收入、利润、增长,甚至进行预测。然而,对于初学者来说,这可能是一个复杂的主题。在处理时间敏感的数据集时,需要考虑时间序列数据的多个细微方面。 在这个领域,没有放之四海而皆准的方法。我们不必总是强制使用传统的时间序列技术,如ARIM
阅读全文
posted @ 2024-08-31 10:14 deephub
阅读(79)
评论(0)
推荐(0)
2024年8月30日
PyTorch数据处理:torch.utils.data模块的7个核心函数详解
摘要: 在机器学习和深度学习项目中,数据处理是至关重要的一环。PyTorch作为一个强大的深度学习框架,提供了多种灵活且高效的数据处理工具。本文将深入介绍PyTorch中 torch.utils.data 模块的7个核心函数,这些工具可以帮助你更好地管理和操作数据。我们将详细解释每个函数,并提供代码示例来展
阅读全文
posted @ 2024-08-30 09:15 deephub
阅读(65)
评论(0)
推荐(0)
2024年8月28日
使用 Python TorchRL 进行多代理强化学习
摘要: 随着多代理系统的出现,强化学习的复杂性不断增加。为了管理这种复杂性,像 TorchRL 这样的专门工具提供了一个强大的框架,可以开发和实验多代理强化学习(MARL)算法。本文将深入探讨如何使用 TorchRL 解决 MARL 问题,重点关注多代理环境中的近端策略优化(PPO)。 我们将使用 VMAS
阅读全文
posted @ 2024-08-28 10:41 deephub
阅读(57)
评论(0)
推荐(0)
2024年8月27日
深入理解GPU内存分配:机器学习工程师的实用指南与实验
摘要: 给定一个模型架构、数据类型、输入形状和优化器,你能否计算出前向传播和反向传播所需的GPU内存量?要回答这个问题,我们需要将流程分解为基本组件,并从底层理解内存需求。以下实验(可以在Google Colab上运行)将帮助你理解核心概念。 数据类型 float32 需要4字节的内存, bfloat16
阅读全文
posted @ 2024-08-27 10:55 deephub
阅读(40)
评论(0)
推荐(0)
上一页
1
···
38
39
40
41
42
43
44
45
46
···
139
下一页
公告