假设检验:使用p值来接受或拒绝你的假设

作者|GUEST 编译|VK 来源|Analytics Vidhya 介绍 检验是统计学中最基本的概念之一。不仅在数据科学中,假设检验在各个领域都很重要。想知道怎么做?让我们举个例子。现在有一个lifebuoy沐浴露。 沐浴露厂商声称,它杀死99.9%的细菌。他们怎么能这么说呢?必须有一种测试技术来 ...

使用python脚本统一重命名训练图片文件名

Yolo算法,在进行模型训练时,常常使用VOC数据格式。 将图片文件复制到JPEGImages目录下,需要对文件名进行VOC标准格式编号重命名,如2020_000001.jpg,2020_000002.jpg,这样便于voc_label.py来进行后续处理。 这个工作如果手工作业,是个体力活。因此使 ...

生成流畅文本方法

作者|Aaron Abrahamson 编译|VK 来源|Towards Data Science 在沙丘魔堡2000上训练文本生成模型 沙丘魔堡是一个遥远的封建社会的故事。它关注的是一位公爵和他的家人,他们被迫成为沙漠星球阿拉基斯的管理者。弗兰克·赫伯特在1965年出版了这部经典作品。几乎任何现代 ...

KNNImputer:一种可靠的缺失值插补方法

作者|KAUSHIK 编译|VK 来源|Analytics Vidhya 概述 学会用KNNImputer来填补数据中的缺失值 了解缺失值及其类型 介绍 scikit learn公司的KNNImputer是一种广泛使用的缺失值插补方法。它被广泛认为是传统插补技术的替代品。 在当今世界,数据是从许多来 ...

SparseNN中的优化

作者|The AI LAB 编译|VK 来源|Medium 对SparseNN模型的过拟合进行研究,并探索了多种正则化方法,如嵌入向量的max-norm/constant-norm、稀疏特征id的dropout、参数的freezing、嵌入收缩等。然而,据我们所知,在单次训练中,没有显著的减少过拟合 ...

基于TorchText的PyTorch文本分类

作者|DR. VAIBHAV KUMAR 编译|VK 来源|Analytics In Diamag 文本分类是自然语言处理的重要应用之一。在机器学习中有多种方法可以对文本进行分类。但是这些分类技术大多需要大量的预处理和大量的计算资源。在这篇文章中,我们使用PyTorch来进行多类文本分类,因为它有如 ...

蒙特卡洛方法分析Web页面浏览量

作者|Michael Grogan 编译|VK 来源|Towards Data Science 蒙特卡洛这种方法在金融等领域得到了广泛的应用,以便对各种风险情景进行建模。 然而,该方法在时间序列分析的其他方面也有重要的应用。在这个特定的例子中,让我们看看蒙特卡洛方法如何被用来为web页面浏览量建模。 ...

使用微软Power BI进行时间序列预测

作者|GUEST 编译|VK 来源|Analytics Vidhya 介绍 时间序列预测是机器学习的一个非常重要的领域,因为它让你能够提前“预见”并据此制定业务计划。 在本博客中,我们将了解什么是时间序列预测,Power BI如何制作时间序列预测图和Power BI用于预测的模块。 什么是时间序列预 ...

KNN原理及Python代码实现(超详细版)

一、原理 1. 概述 K近邻法(k-nearest neighbors,KNN)是一种有监督的学习算法,也是机器学习中最简单、且不那么依靠各类假设的算法(基本上所有算法都会有假设的前提条件,在数据分布符合算法的假设条件时,其效果往往会更好)。 1.1 核心思想 物以类聚,人以群分。俗话说,“看一个男 ...

深度学习及pytorch基础

【任务一】视频学习心得及问题总结 根据下面三个视频的学习内容,写一个总结,最后列出没有学明白的问题。 【任务二】代码练习 在谷歌 Colab 上完成代码练习中的 2.1、2.2、2.3、2.4 节,关键步骤截图,并附一些自己的想法和解读。 【任务三】进阶练习 在谷歌 Colab 上完成猫狗大战的VG ...

吴恩达EX4

ex4 该题目主要难点在于实现后向传播算法。该算法步骤如下: 1、针对每个样本(X(i),Y(i)) 令a_1 = X(i), 分别计算出Z_2 、a_2、Z_3、a_3; Z_i = Theta(i-1)*a(i-1); a_i = 补充1 + sigmoid(Z_i); 注意补充1! 2、计算 ...

神经网络剪枝,知识蒸馏,以及模型优化设计

一.神经网络压缩 在如今人工智能的浪潮之下,深度学习在不少领域都取得了不错的成果。但是目前在边缘计算,物联网设备上的算力相比于我们的台式计算机还不太充足,我们在计算机上用于拟合的神经网络参数过多,不太适合运行在算力较弱的设备上,比如无人机,手机,平板电脑,自动驾驶汽车等等。因此我们需要将在计算机上训 ...

用于数据分析的8个SQL技术

作者|RAM DEWANI 编译|VK 来源|Analytics Vidhya 概述 SQL是任何从事分析或数据科学的人都必须知道的语言 这里有8种用于数据分析的SQL技术,任何数据科学专业人士都会喜欢使用它 介绍 SQL是数据科学专业人员军械库中的一个关键齿轮。这是经验之谈,如果你还没有学会SQL ...

NLP中的Transformer 简介

作者|Renu Khandelwal 编译|VK 来源|Towards Data Science 在这篇文章中,我们将讨论以下有关Transformer的问题 为什么我们需要Transformer,Sequence2Sequence模型的挑战是什么? 详细介绍了Transformer及其架构 深入研 ...

AI医生诊断肺炎

作者|Andre Ye 编译|Flin 来源|towardsdatascience 使用CNN识别胸部X光片中的肺炎 人工智能在现实世界中有多种应用,其中非常重要的一项是在医疗行业中的应用。在本文中,我将提供卷积神经网络如何从胸部X射线诊断肺炎的代码和过程。 导入库 让我们加载一些重要的库: fro ...

VAE变分自编码器Keras实现

变分自编码器(variational autoencoder, VAE)是一种生成模型,训练模型分为编码器和解码器两部分。 编码器将输入样本映射为某个低维分布,这个低维分布通常是不同维度之间相互独立的多元高斯分布,因此编码器的输出为这个高斯分布的均值与对数方差(因为方差总是大于0,为了将它映射到$( ...

批标准化—BN

作用:神经网络对0附近的数据更敏感,但是随着网络层数的增加,特征数据会出现偏离0均值的情况,标准化可以使数据符合以0位均值,1为标准差的正太分布,把偏移的特征数据重新拉回0附近。 方法: 标准化:使数据符合0为均值,1为标准差的分布。 批标准差:对一小批数据(batch),做标准化处理。 批标准化后 ...

<1···131415···40>