上一页 1 ··· 106 107 108 109 110 111 112 113 114 ··· 139 下一页
摘要: 在微调GPT/BERT模型时,会经常遇到“ cuda out of memory”的情况。这是因为transformer是内存密集型的模型,并且内存要求也随序列长度而增加。所以如果能对模型的内存要求进行粗略的估计将有助于估计任务所需的资源。 如果你想直接看结果,可以跳到本文最后。不过在阅读本文前请记 阅读全文
posted @ 2022-08-30 10:47 deephub 阅读(434) 评论(0) 推荐(0)
摘要: 在这篇文章中,我将详细解释这篇论文《Why do tree-based models still outperform deep learning on tabular data》这篇论文解释了一个被世界各地的机器学习从业者在各种领域观察到的现象——基于树的模型在分析表格数据方面比深度学习/神经网络 阅读全文
posted @ 2022-08-29 10:44 deephub 阅读(89) 评论(0) 推荐(0)
摘要: 正态(高斯)分布在机器学习中起着核心作用,线性回归模型中要假设随机误差等方差并且服从正态分布,如果变量服从正态分布,那么更容易建立理论结果。 统计学领域的很大一部分研究都是假设数据是正态分布的,所以如果我们的数据具有是正态分布,那么么则可以获得更好的结果。但是一般情况下我们的数据都并不是正态分布,所 阅读全文
posted @ 2022-08-28 11:25 deephub 阅读(188) 评论(0) 推荐(0)
摘要: 在pytorch中获取模型的可训练和不可训练的参数,层名称,内核大小和数量。 Pytorch nn.Module 类中没有提供像与Keras那样的可以计算模型中可训练和不可训练的参数的数量并显示模型摘要的方法 。所以在这篇文章中,我将总结我知道三种方法来计算Pytorch模型中可训练和不可训练的参数 阅读全文
posted @ 2022-08-27 10:08 deephub 阅读(48) 评论(0) 推荐(0)
摘要: 最近自我监督学习被重视起来。昨天我通过LinkedIn发现了这项工作,我觉得它很有趣。kaiming大神的MAE为ViT和自监督的预训练创造了一个新的方向,本篇文章将介绍Masked Siamese Networks (MSN),这是另一种用于学习图像表示的自监督学习框架。MSN 将包含随机掩码的图 阅读全文
posted @ 2022-08-26 11:01 deephub 阅读(74) 评论(0) 推荐(0)
摘要: 由于训练时间短,越来越多人使用自适应梯度方法来训练他们的模型,例如Adam它已经成为许多深度学习框架的默认的优化算法。尽管训练结果优越,但Adam和其他自适应优化方法与随机梯度下降(SGD)相比,有时的效果并不好。这些方法在训练数据上表现良好,但在测试数据却差很多。 最近,许多研究人员已经开始针对这 阅读全文
posted @ 2022-08-25 10:54 deephub 阅读(48) 评论(0) 推荐(0)
摘要: 这些方法都是专为RNN设计,它们都经过了广泛的学术评估,而且十分的简单 大量医疗数据例如心电图、体温监测、血压监测、定期护士检查等等本质上都是时间序列数据。在这些医学图表的趋势、模式、高峰和低谷中嵌入了大量有价值的信息。医疗行业要求对医疗时间序列数据进行有效分析,这被认为是提高医疗质量、优化资源利用 阅读全文
posted @ 2022-08-24 10:32 deephub 阅读(213) 评论(0) 推荐(0)
摘要: 《The Attention is all you need》的论文彻底改变了自然语言处理的世界,基于Transformer的架构成为自然语言处理任务的的标准。 尽管基于卷积的架构在图像分类任务中仍然是最先进的技术,但论文《An image is worth 16x16 words: transfo 阅读全文
posted @ 2022-08-22 10:24 deephub 阅读(221) 评论(0) 推荐(0)
摘要: groupby是Pandas在数据分析中最常用的函数之一。它用于根据给定列中的不同值对数据点(即行)进行分组,分组后的数据可以计算生成组的聚合值。 如果我们有一个包含汽车品牌和价格信息的数据集,那么可以使用groupby功能来计算每个品牌的平均价格。 在本文中,我们将使用25个示例来详细介绍grou 阅读全文
posted @ 2022-08-21 10:30 deephub 阅读(98) 评论(0) 推荐(0)
摘要: 广义线性模型[generalize linear model(GLM)]是线性模型的扩展,通过联系函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。它的特点是不强行改变数据的自然度量,数据可以具有非线性和非恒定方差结构。是线性模型在研究响应值的非正态分布以及非线性模型简洁直接的线性转化时的 阅读全文
posted @ 2022-08-20 10:17 deephub 阅读(644) 评论(0) 推荐(0)
上一页 1 ··· 106 107 108 109 110 111 112 113 114 ··· 139 下一页