deephub

2022年8月6日

摘要：探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一。在拿到一个新数据集时首先就需要花费大量时间进行EDA来研究数据集中内在的信息。自动化的EDA软件包可以用几行Python代码执行EDA。在本文中整理了10个可以自动执行EDA并生成有关数据的见解的软件包，看看他们都有什么功能，能在多大程阅读全文

posted @ 2022-08-06 10:38 deephub 阅读(149) 评论(0) 推荐(0)

2022年8月5日

8个常见的机器学习算法的计算复杂度总结

摘要：计算的复杂度是一个特定算法在运行时所消耗的计算资源(时间和空间)的度量。计算复杂度又分为两类: 1、时间复杂度时间复杂度不是测量一个算法或一段代码在某个机器或者条件下运行所花费的时间。时间复杂度一般指时间复杂性，时间复杂度是一个函数，它定性描述该算法的运行时间，允许我们在不运行它们的情况下比较不阅读全文

posted @ 2022-08-05 10:50 deephub 阅读(148) 评论(0) 推荐(0)

2022年8月4日

在表格数据集上训练变分自编码器 (VAE)示例

摘要：变分自编码器 (VAE) 是在图像数据应用中被提出，但VAE不仅可以应用在图像中。在这篇文章中，我们将简单介绍什么是VAE，以及解释“为什么”变分自编码器是可以应用在数值类型的数据上，最后使用Numerai数据集展示“如何”训练它。 Numerai数据集数据集包含全球股市数十年的历史数据，在Nume 阅读全文

posted @ 2022-08-04 10:39 deephub 阅读(383) 评论(0) 推荐(0)

2022年8月3日

细胞图像数据的主动学习

摘要：通过细胞图像的标签对模型性能的影响，为数据设置优先级和权重。许多机器学习任务的主要障碍之一是缺乏标记数据。而标记数据可能会耗费很长的时间，并且很昂贵，因此很多时候尝试使用机器学习方法来解决问题是不合理的。为了解决这个问题，机器学习领域出现了一个叫做主动学习的领域。主动学习是机器学习中的一种方法，阅读全文

posted @ 2022-08-03 11:11 deephub 阅读(117) 评论(0) 推荐(0)

2022年8月2日

10快速入门Query函数使用的Pandas的查询示例

摘要： pandas.的query函数为我们提供了一种编写查询过滤条件更简单的方法，特别是在的查询条件很多的时候，在本文中整理了10个示例，掌握着10个实例你就可以轻松的使用query函数来解决任何查询的问题。首先，将数据集导入pandas DataFrame - df import pandas as 阅读全文

posted @ 2022-08-02 11:28 deephub 阅读(126) 评论(0) 推荐(0)

2022年8月1日

使用分类权重解决数据不平衡的问题

摘要：在分类任务中，不平衡数据集是指数据集中的分类不平均的情况，会有一个或多个类比其他类多的多或者少的多。在我们的日常生活中，不平衡的数据是非常常见的比如本篇文章将使用一个最常见的例子，信用卡欺诈检测来介绍，在我们的日常使用中欺诈的数量要远比正常使用的数量少很多，对于我们来说这就是数据不平衡的问题。我阅读全文

posted @ 2022-08-01 10:42 deephub 阅读(94) 评论(0) 推荐(0)

2022年7月31日

使用内存映射加快PyTorch数据集的读取

摘要：本文将介绍如何使用内存映射文件加快PyTorch数据集的加载速度在使用Pytorch训练神经网络时，最常见的与速度相关的瓶颈是数据加载的模块。如果我们将数据通过网络传输，除了预取和缓存之外，没有任何其他的简单优化方式。但是如果数据本地存储，我们可以通过将整个数据集组合成一个文件，然后映射到内存中阅读全文

posted @ 2022-07-31 10:21 deephub 阅读(183) 评论(0) 推荐(0)

2022年7月30日

30 个数据工程必备的Python 包

摘要： Python 可以说是最容易入门的编程语言，在numpy，scipy等基础包的帮助下，对于数据的处理和机器学习来说Python可以说是目前最好的语言，在各位大佬和热心贡献者的帮助下Python拥有一个庞大的社区支持技术发展，开发两个各种 Python 包来帮助数据人员的工作。在本文中，将介绍一些非阅读全文

posted @ 2022-07-30 10:20 deephub 阅读(120) 评论(0) 推荐(0)

2022年7月29日

6个可解释AI (XAI)的Python框架推荐

摘要：随着人工智能的发展为了解决具有挑战性的问题，人们创造了更复杂、更不透明的模型。AI就像一个黑匣子，能自己做出决定，但是人们并不清楚其中缘由。建立一个AI模型，输入数据，然后再输出结果，但有一个问题就是我们不能解释AI为何会得出这样的结论。需要了解AI如何得出某个结论背后的原因，而不是仅仅接受一个在没阅读全文

posted @ 2022-07-29 10:19 deephub 阅读(336) 评论(0) 推荐(0)

2022年7月28日

RepVGG论文详解以及使用Pytorch进行模型复现

摘要： RepVGG: Making VGG-style ConvNets Great Again 是2021 CVPR的一篇论文，正如他的名字一样，使用structural re-parameterization的方式让类VGG的架构重新获得了最好的性能和更快的速度。在本文中首先对论文进行详细的介绍，然后阅读全文

posted @ 2022-07-28 11:41 deephub 阅读(241) 评论(0) 推荐(0)

overfit深度学习

公告