deephub

2024年9月12日

使用ClassificationThresholdTuner进行二元和多类分类问题阈值调整，提高模型性能增强结果可解释性

摘要： AUROC 指标,顾名思义,是基于 ROC 的,ROC 是一条显示真阳性率与假阳性率关系的曲线。ROC 曲线本身并不假设使用任何特定的阈值。但是曲线上的每个点对应一个特定的阈值。在下面的图中,蓝色曲线是 ROC。这条曲线下的面积(AUROC)衡量了模型的总体性能,是在所有潜在阈值上的平均值。它衡量阅读全文

posted @ 2024-09-12 12:14 deephub 阅读(145) 评论(0) 推荐(0)

2024年9月11日

RAG系统的7个检索指标：信息检索任务准确性评估指南

摘要：大型语言模型（LLMs）作为一种生成式AI技术，在近两年内获得了显著的关注和应用。但是在实际部署中，LLMs的知识局限性和幻觉问题仍然是一个挑战。检索增强生成（Retrieval Augmented Generation，RAG）通过为LLM提供额外的外部知识和上下文，有效地解决了这些问题。截至20 阅读全文

posted @ 2024-09-11 11:16 deephub 阅读(119) 评论(0) 推荐(0)

2024年9月10日

Monte Carlo方法解决强化学习问题

摘要：本文继续深入探讨蒙特卡罗 (MC)方法。这些方法的特点是能够仅从经验中学习,不需要任何环境模型,这与动态规划(DP)方法形成对比。这一特性极具吸引力 - 因为在实际应用中,环境模型往往是未知的,或者难以精确建模转移概率。以21点游戏为例:尽管我们完全理解游戏规则,但通过DP方法解决它将极为繁琐 - 阅读全文

posted @ 2024-09-10 10:50 deephub 阅读(71) 评论(0) 推荐(0)

2024年9月9日

Transformer、RNN和SSM的相似性探究：揭示看似不相关的LLM架构之间的联系

摘要：通过探索看似不相关的大语言模型(LLM)架构之间的潜在联系,我们可能为促进不同模型间的思想交流和提高整体效率开辟新的途径。尽管Mamba等线性循环神经网络(RNN)和状态空间模型(SSM)近来备受关注,Transformer架构仍然是LLM的主要支柱。这种格局可能即将发生变化:像Jamba、Sam 阅读全文

posted @ 2024-09-09 10:34 deephub 阅读(118) 评论(0) 推荐(0)

2024年9月8日

时间序列结构变化分析：Python实现时间序列变化点检测

摘要：平稳性是时间序列分析与预测的核心概念。在平稳条件下，时间序列的统计特性（如均值）在时间维度上保持不变，仅存在随机波动。但是实际数据集中很少观察到完全的平稳性。时间序列通常会经历结构性断裂或变化。这些变化会引入非平稳性，从而改变时间序列的整体分布，这些标志着变化开始的时间点被称为变化点。在时间序列阅读全文

posted @ 2024-09-08 09:16 deephub 阅读(238) 评论(0) 推荐(0)

2024年9月7日

图特征工程实践指南：从节点中心性到全局拓扑的多尺度特征提取

摘要：图结构在多个领域中扮演着重要角色，它能有效地模拟实体间的连接关系，通过从图中提取有意义的特征，可以获得宝贵的信息提升机器学习算法的性能。本文将介绍如何利用NetworkX在不同层面（节点、边和整体图）提取重要的图特征。本文将以NetworkX库中提供的Zachary网络作为示例。这个广为人知的数阅读全文

posted @ 2024-09-07 10:46 deephub 阅读(70) 评论(0) 推荐(0)

2024年9月6日

Optuna发布 4.0 重大更新：多目标TPESampler自动化超参数优化速度提升显著

摘要： Optuna这个备受欢迎的超参数优化框架在近期发布了其第四个主要版本。自2018年首次亮相以来，Optuna不断发展，现已成为机器学习领域的重要工具。其用户社区持续壮大，目前已达到以下里程碑： 10,000+ GitHub星标每月300万+ 下载量 16,000+ 代码库使用 5,000+ 论文引阅读全文

posted @ 2024-09-06 10:00 deephub 阅读(189) 评论(0) 推荐(0)

2024年9月5日

优化采样参数提升大语言模型响应质量：深入分析温度、top_p、top_k和min_p的随机解码策略

摘要：当向大语言模型(LLM)提出查询时，模型会为其词汇表中的每个可能标记输出概率值。从这个概率分布中采样一个标记后，我们可以将该标记附加到输入提示中，使LLM能够继续输出下一个标记的概率。这个采样过程可以通过诸如 temperature 和 top_p 等参数进行精确控制。但是你是否曾深入思考过temp 阅读全文

posted @ 2024-09-05 10:35 deephub 阅读(180) 评论(0) 推荐(0)

2024年9月4日

使用PyTorch从零构建Llama 3

摘要：我们上次发了用PyTorch从零开始编写DeepSeek-V2的文章后，有小伙伴留言说希望介绍一下Llama 3。那么今天他就来了，本文将详细指导如何从零开始构建完整的Llama 3模型架构，并在自定义数据集上执行训练和推理。 [图1]：Llama 3架构展示训练和推理流程。因为官方Llama 3论阅读全文

posted @ 2024-09-04 11:37 deephub 阅读(190) 评论(0) 推荐(0)

2024年9月3日

一文读懂蒙特卡洛算法：从概率模拟到机器学习模型优化的全方位解析

摘要：爱德华·蒙克(Edvard Munch)的"蒙特卡洛赌场的轮盘桌"(1892) 蒙特卡洛方法的起源与发展 1945年，在第二次世界大战即将结束之际，一场看似简单的纸牌游戏引发了计算领域的重大突破。这项突破最终导致了蒙特卡洛方法的诞生。参与曼哈顿计划的科学家斯坦尼斯劳·乌拉姆在康复期间深入思考了纸牌游阅读全文

posted @ 2024-09-03 10:01 deephub 阅读(400) 评论(0) 推荐(0)

overfit深度学习

公告