deephub

2024年6月12日

使用PyTorch Profiler进行模型性能分析，改善并加速PyTorch训练

摘要：如果所有机器学习工程师都想要一样东西，那就是更快的模型训练——也许在良好的测试指标之后加速机器学习模型训练是所有机器学习工程师想要的一件事。更快的训练等于更快的实验，更快的产品迭代，还有最重要的一点需要更少的资源，也就是更省钱。熟悉PyTorch Profiler 然后就可以启动tensorbo 阅读全文

posted @ 2024-06-12 12:06 deephub 阅读(133) 评论(0) 推荐(0)

2024年6月11日

Tiny Time Mixers (TTM)轻量级时间序列基础模型：无需注意力机制，并且在零样本预测方面表现出色

摘要：大语言模型的发展让研究人员专注于建立尽可能大的模型。但是其实较小的模型在某些任务中表现会优于较大的模型时，例如：Llama 3-8B在MMLU任务上的表现优于较大的Llama 2-70B ! 这就说明大模型并不是万能的，在一些特定任务中，小模型表现得可能会更出色。所以IBM的研究人员就推出了一个轻量阅读全文

posted @ 2024-06-11 11:15 deephub 阅读(201) 评论(0) 推荐(0)

2024年6月10日

如何应对缺失值带来的分布变化？探索填充缺失值的最佳插补算法

摘要：本文将探讨了缺失值插补的不同方法，并比较了它们在复原数据真实分布方面的效果，处理插补是一个不确定性的问题，尤其是在样本量较小或数据复杂性高时的挑战，应选择能够适应数据分布变化并准确插补缺失值的方法。我们假设存在一个潜在的分布P，从中得出观察值X。此外，还绘制了一个与X相同维数的0/1向量，我们称这阅读全文

posted @ 2024-06-10 12:12 deephub 阅读(166) 评论(0) 推荐(0)

2024年6月9日

数据并非都是正态分布：三种常见的统计分布及其应用

摘要：你有没有过这样的经历？使用一款减肥app，通过它的图表来监控自己的体重变化，并预测何时能达到理想体重。这款app预测我需要八年时间才能恢复到大学时的体重，这种不切实际的预测是因为应用使用了简单的线性模型来进行体重预测。这个模型将我所有过去的体重数据进行平均处理，然后绘制一条直线预测未来的体重变化。然阅读全文

posted @ 2024-06-09 10:33 deephub 阅读(82) 评论(0) 推荐(0)

2024年6月8日

Block Transformer：通过全局到局部的语言建模加速LLM推理

摘要：在基于transformer的自回归语言模型（LMs）中，生成令牌的成本很高，这是因为自注意力机制需要关注所有之前的令牌，通常通过在自回归解码过程中缓存所有令牌的键值（KV）状态来解决这个问题。但是，加载所有先前令牌的KV状态以计算自注意力分数则占据了LMs的推理的大部分成本。在这篇论文中，作者提阅读全文

posted @ 2024-06-08 10:05 deephub 阅读(85) 评论(0) 推荐(0)

2024年6月7日

CNN依旧能战：nnU-Net团队新研究揭示医学图像分割的验证误区，设定先进的验证标准与基线模型

摘要：这篇论文研究了在3D医学图像分割领近年引入了许多新的架构和方法，但大多数方法并没有超过2018年的原始nnU-Net基准。作者指出，许多关于新方法的优越性的声称在进行严格验证后并不成立，这揭示了当前在方法验证上存在的不严谨性。揭示验证短板：深入探讨了当前医学图像分割研究中存在的验证不足问题，特别是阅读全文

posted @ 2024-06-07 11:33 deephub 阅读(89) 评论(0) 推荐(0)

2024年6月6日

从提示工程到代理工程：构建高效AI代理的策略框架概述

摘要：自ChatGPT推出以来，仅仅一年多的时间里，公众对于“人工智能”（AI）的认识已经发生了根本性的变化。这种变化部分源于公众意识的提高，更多则是基于这样一个认识：AI驱动的系统不仅可能，而且可能已经具备了与人类相当的能力和表现。ChatGPT不仅是AI能力的一个验证，更是半个多世纪以来AI研究成果的阅读全文

posted @ 2024-06-06 11:38 deephub 阅读(67) 评论(0) 推荐(0)

2024年6月5日

一切模型皆可联邦化：高斯朴素贝叶斯代码示例

摘要：联邦学习是一种分布式的机器学习方法，其中多个客户端在一个中央服务器的协调下合作训练模型，但不共享他们的本地数据。一般情况下我们对联邦学习的理解都是大模型和深度学习模型才可以进行联邦学习，其实基本上只要包含参数的机器学习方法都可以使用联邦学习的方法保证数据隐私。所以本文将以高斯朴素贝叶斯分类器为例创阅读全文

posted @ 2024-06-05 11:01 deephub 阅读(76) 评论(0) 推荐(0)

2024年6月4日

为什么你的RAG不起作用？失败的主要原因和解决方案

摘要：无数企业正在尝试使用检索增强生成（RAG），但在制作这些系统达到生产质量时普遍会感到失望。因为他们的RAG不仅运行效果差，而且对于如何改进和如何进行后续的工作也感到十分的迷茫。其实阻碍RAG系统的一个关键因素是语义不协调，这是由于任务的预期含义、RAG的理解以及存储的底层知识之间的不一致。由于向量阅读全文

posted @ 2024-06-04 11:47 deephub 阅读(166) 评论(0) 推荐(0)

2024年6月3日

2024年5月第四周LLM重要论文总结

摘要：本文总结了2024年5月第四周发表的一些最重要的LLM论文。这些论文的主题包括模型优化和缩放到推理、基准测试和增强性能。 LLM发展与基准 1、Towards Modular LLMs by Building and Reusing a Library of LoRAs 基本大型语言模型(LLM)的阅读全文

posted @ 2024-06-03 10:56 deephub 阅读(141) 评论(0) 推荐(0)

overfit深度学习

公告