随笔档案「2020年5月」 - 忽逢桃林

Kd Tree算法详解

摘要：kd树（k-dimensional树的简称），是一种分割k维数据空间的数据结构，主要应用于多维空间关键数据的近邻查找(Nearest Neighbor)和近似最近邻查找(Approximate Nearest Neighbor)。一、Kd-tree 其实KDTree就是二叉查找树（Binary S 阅读全文

posted @ 2020-05-24 21:53 忽逢桃林阅读(6209) 评论(0) 推荐(1)

【面试考】【入门】决策树算法ID3，C4.5和CART

摘要：关于决策树的purity的计算方法可以参考：决策树purity/基尼系数/信息增益 Decision Trees 如果有不懂得可以私信我，我给你讲。 ID3 用下面的例子来理解这个算法：下图为我们的训练集。总共有14个训练样本，每个样本中有4个关于天气的属性，这些属性都是标称值。输出结果只有2个阅读全文

posted @ 2020-05-24 00:19 忽逢桃林阅读(812) 评论(0) 推荐(0)

【一致性检验指标】Kappa(cappa)系数

摘要：1 定义百度百科的定义：它是通过把所有地表真实分类中的像元总数（N）乘以混淆矩阵对角线（Xkk）的和，再减去某一类地表真实像元总数与被误分成该类像元总数之积对所有类别求和的结果，再除以总像元数的平方减去某一类中地表真实像元总数与该类中被误分成该类像元总数之积对所有类别求和的结果所得到的。这对于阅读全文

posted @ 2020-05-23 02:20 忽逢桃林阅读(3336) 评论(0) 推荐(0)

决策树purity/基尼系数/信息增益 Decision Trees

摘要：站主近期建立了一个自己的网站来发博文，文章已经搬运到了下面的地址：决策树purity/基尼系数/信息增益 Decision Trees 阅读全文

posted @ 2020-05-22 22:07 忽逢桃林阅读(461) 评论(0) 推荐(0)

【科普入门】概率与分布密度贝叶斯理论入门数据挖掘基础入门

摘要：站主近期建立了一个自己的网站来发博文，文章已经搬运到了下面的地址：【科普入门】概率与分布密度贝叶斯理论入门数据挖掘基础入门阅读全文

posted @ 2020-05-21 23:03 忽逢桃林阅读(311) 评论(0) 推荐(0)

2020春秋招聘图像处理人工智能方向各大厂面试常见题整理一（附答案）（阿里腾讯华为字节）

摘要：因为本人近期也要紧临毕业，面临招聘面试，所以整体别人公开的面经，做一个整理，并且加上自己认为的答案，欢迎各位读者对答案进行指正和交流。深度残差的作用直观上，深度加深，出现梯度消失和梯度爆炸的问题在论文中，出现了一个奇怪的现象，就是56层网络效果没有20层的好。本质问题是因为网络深造成信息丢失从阅读全文

posted @ 2020-05-20 19:55 忽逢桃林阅读(521) 评论(0) 推荐(0)

LSTM的备胎，用卷积处理时间序列——TCN与因果卷积（理论+Python实践）

摘要：什么是TCN TCN全称Temporal Convolutional Network，时序卷积网络，是在2018年提出的一个卷积模型，但是可以用来处理时间序列。卷积如何处理时间序列时间序列预测，最容易想到的就是那个马尔可夫模型： $P(y_k|x_k,x_{k-1},...,x_1)$ 就是阅读全文

posted @ 2020-05-20 19:54 忽逢桃林阅读(9254) 评论(0) 推荐(3)

特征工程：利用卡尔曼滤波器处理时间序列（快速入门+python实现）

摘要：卡尔曼滤波器英文kalman filter 这里介绍简单的，只有一个状态的滤波器卡尔曼滤波器经常用在控制系统中、机器人系统中，但是这里主要讲解如何用在AI的大数据分析预测中为什么要用kalman filter处理时间序列假设我们有100个时间点的数据，这个数据就是分别在100个点观测出来的结阅读全文

posted @ 2020-05-20 19:53 忽逢桃林阅读(7064) 评论(1) 推荐(1)

讲解GoogleNet的Inception从v1到v4的演变

摘要：通俗讲：端侧神经网络GhostNet（2019） GhostNet是华为诺亚方舟实验室提出的一个新型神经网络结构。目的类似Google提出的MobileNet，都是为了硬件、移动端设计的轻小网络，但是效果想摆MobileNet更好。 GhostNet基于Ghost模块，这个特点是不改变卷积的输出特征阅读全文

posted @ 2020-05-20 19:52 忽逢桃林阅读(600) 评论(0) 推荐(0)

讲解GoogleNet的Inception从v1到v4的演变

摘要：GoogleNet和VGG是ImageNet挑战赛中的第一名和第二名。共同特点就是两个网络的层次都更深了。但是： VGG继承了LeNet和AlexNet的一些框架结构而GoogleNet则做了更大胆的尝试，虽然深度有22层，但是参数却是Alexnet的1/12.而VGG都是Alexnet的三倍，由阅读全文

posted @ 2020-05-20 19:51 忽逢桃林阅读(457) 评论(0) 推荐(0)

什么是GoogleNet？什么是Inception？GoogleNet结构详解（2014年）

摘要：googleNet是2014年的ILSVRC的冠军模型，GoogleNet做了更大胆的网络上的尝试，而不是像vgg继承了lenet以及alexnet的一切框架。GoogleNet虽然有22层，但是参数量只有AlexNet的1/12 GoogleNet论文指出获得高质量模型最保险的做法就是增加模型的深阅读全文

posted @ 2020-05-20 19:49 忽逢桃林阅读(1642) 评论(0) 推荐(0)

【从零学习PyTorch】如何残差网络resnet作为pre-model +代码讲解+残差网络resnet是个啥

摘要：看的多个Kaggle上图片分类比赛的代码，发现基本都会选择resnet网络作为前置网络进行训练，那么如何实现这个呢？本文主要分为两个部分第一个部分讲解如何使用PyTorch来实现前置网络的设置，以及参数的下载和导入第二个部分简单讲一下resnet运行的原理。第一部分：实现有一个非常好用阅读全文

posted @ 2020-05-20 19:48 忽逢桃林阅读(1399) 评论(0) 推荐(0)

什么是test-time argument（测试数据增强）

摘要：可将准确率提高若干个百分点，它就是测试时增强（test time augmentation, TTA）。这里会为原始图像造出多个不同版本，包括不同区域裁剪和更改缩放程度等，并将它们输入到模型中；然后对多个版本进行计算得到平均输出，作为图像的最终输出分数这种技术很有效，因为原始图像显示的区域可能会缺阅读全文

posted @ 2020-05-20 19:46 忽逢桃林阅读(1056) 评论(0) 推荐(0)

全网最详细最好懂 PyTorch CNN案例分析识别手写数字

摘要：先来看一下这是什么任务。就是给你手写数组的图片，然后识别这是什么数字： ![ ](https://pic1.zhimg.com/80/v2 a549cdd27383bcde894e0c604301f25d_hd.png) dataset 首先先来看PyTorch的dataset类：我已经在 "从零阅读全文

posted @ 2020-05-20 19:36 忽逢桃林阅读(1180) 评论(0) 推荐(0)

【Python Deap库】遗传算法/遗传编程进化算法基于python DEAP库深度解析讲解

摘要：[TOC] 前言看了很多，发现这个遗传算法，进化算法是一个非常有用的一个方法。而且可解释性远远强于神经网络。之前写了一篇博文，专门讲解基于DEAP库的python编程，来编写遗传算法，但是那一篇主要偏重代码，出于想要深入理解代码的含义，因此专门记下这篇博文，既是笔记，也是分享。所有的用pytho 阅读全文

posted @ 2020-05-18 00:04 忽逢桃林阅读(7956) 评论(0) 推荐(0)

【比较】遗传算法GA和遗传编程GP有什么不同？

摘要：遗传算法GA 本质上有一个固定的长度，这意味着所产生的功能有限的复杂性通常会产生无效状态，因此需要以非破坏性方式处理这些状态通常依赖于运算符优先级（例如，在我们的例子中，乘法发生在减法之前），这可以被看作是一种限制遗传编程GP 本质上具有可变长度，这意味着它们更加灵活，但往往复杂度增加很少产阅读全文

posted @ 2020-05-18 00:03 忽逢桃林阅读(1131) 评论(0) 推荐(0)

【python(deap库)实现】GEAP 遗传算法/遗传编程 genetic programming +

摘要：[TOC] 前言本文不介绍原理的东西，主要是实现进化算法的python实现。原理介绍可以看这里，能学习要很多，我也在这里写了一些感受心得： "遗传算法/遗传编程进化算法基于python DEAP库深度解析讲解" 1.优化问题的定义单目标优化在创建单目标优化问题时，weights用来指示阅读全文

posted @ 2020-05-18 00:01 忽逢桃林阅读(3041) 评论(0) 推荐(0)

【比较】粒子群算法PSO 和遗传算法GA 的相同点和不同点

摘要：[TOC] 粒子群算法（PSO）和遗传算法(GA)都是优化算法，都力图在自然特性的基础上模拟个体种群的适应性，它们都采用一定的变换规则通过搜索空间求解。 PSO和GA的相同点 1. 都属于仿生算法。PSO主要模拟鸟类觅食、人类认知等社会行为而提出；GA主要借用生物进化中“适者生存”的规律。 2. 都阅读全文

posted @ 2020-05-17 23:57 忽逢桃林阅读(5814) 评论(0) 推荐(1)

【遗传编程/基因规划】Genetic Programming

摘要：[TOC] 本篇博文提供了关于GP过程的总结型概览与讨论，旨在帮助初学者建立一个对GP的基础印象。主要参考文献 A Field Guide to Genetic Programming，后文中简写为"Field Guide1"。文章转载自 "博文" 背景介绍 “物竞天择，优胜劣汰”，达尔文提出了阅读全文

posted @ 2020-05-17 23:56 忽逢桃林阅读(2709) 评论(0) 推荐(0)

【经典大数据竞赛科普】泰坦尼克灾难到底是个什么东西

摘要：@[toc] 这是传奇性的Titanic ML竞赛参加ML竞赛并熟悉Kaggle平台的工作原理的最佳，首要挑战。这是国外Kaggle大数据网站的一个经典的入门比赛。这个网站要FQ。简单来说，就是一个简单的大数据预测的题目：我们知道一些人的信息，比如这个人是否有兄弟姐妹，是否是头等舱，这样的信息阅读全文

posted @ 2020-05-17 23:54 忽逢桃林阅读(429) 评论(0) 推荐(0)

【Python代码】TSNE高维数据降维可视化工具 + python实现

摘要：[TOC] 1.概述 1.1 什么是TSNE TSNE是由T和SNE组成，T分布和随机近邻嵌入(Stochastic neighbor Embedding). TSNE是一种==可视化工具==，将高位数据降到2 3维，然后画成图。 t SNE是目前==效果最好的数据降维和可视化方法== t SNE的阅读全文

posted @ 2020-05-17 05:45 忽逢桃林阅读(10744) 评论(0) 推荐(0)

【python代码】最大流问题+最小花费问题+python(ortool库)实现

摘要：[TOC] 基本概念图定义：图G(V,E)是指一个二元组(V(G),E(G))，其中: 1. V(G)={v1,v2,…, vn}是非空有限集，称为顶点集， 2. E(G)是V(G)中的元素对(vi,vj)组成的集合称为边集。举例： V(G)={v1,v2,v3,v4} E(G)= {e1, 阅读全文

posted @ 2020-05-17 05:43 忽逢桃林阅读(2316) 评论(0) 推荐(0)

【Python代码】混合整数规划MIP/线性规划LP+python(ortool库)实现

摘要：[TOC] 相关知识点 LP线性规划问题 Linear Problem [百度百科]：研究线性约束条件下线性目标函数的极值问题的数学理论和方法。学过运筹学的小伙伴，可以看这个LP问题的标准型来回顾一下：不太熟悉的朋友可以看这个例题，再结合上面的标准型，来感受一下： MIP混合整数规划 Mixed 阅读全文

posted @ 2020-05-17 05:42 忽逢桃林阅读(4265) 评论(0) 推荐(0)

【python深度学习】KS,KL,JS散度衡量两组数据是否同分布

摘要：[TOC] KS(不需要两组数据相同shape) 奇怪之处：有的地方也叫KL KS距离，相对熵，KS散度当P(x)和Q(x)的相似度越高，KS散度越小 KS散度主要有两个性质：（1）不对称性不对称性尽管KL散度从直观上是个度量或距离函数，但它并不是一个真正的度量或者距离，因为它不具有对称性，阅读全文

posted @ 2020-05-17 05:41 忽逢桃林阅读(5429) 评论(0) 推荐(0)

python中copy与deepcopy的区别

摘要：[TOC] 区别高级语言中变量是对内存及其地址的抽象 copy.copy(object), 拷贝的是内嵌套结构的地址引用，当前到结构发生变化的时候，浅拷贝也相应的改变。 copy.deepcopy(object),完全复制与变量相关的数据，而不再考虑嵌套结构 python代码举例阅读全文

posted @ 2020-05-17 05:40 忽逢桃林阅读(1391) 评论(0) 推荐(0)

ASHRAE KAGGLE大能源预测（前三名方案总结+相关知识点讲解+python实现）

摘要：@[toc] 1 概述先上第一名分析的图 2 处理思想学习 2.1 移除异常值 Long steaks of constant values 1. 恒定值的长条纹 Large positive/negative spikes 2. 极端的大尖峰我们使用一个数据中所有建筑物验证了潜在的异常如果同阅读全文

posted @ 2020-05-17 05:38 忽逢桃林阅读(905) 评论(0) 推荐(0)

深度学习激活函数深入浅出通俗易懂教你如何选择合适的激活函数

摘要：图看不懂不要紧，把文章看完就肯定理解了。这是一个方便总结的图 1 概述本文会介绍六种激活函数，并且比较他们的区别。 1.1 梯度消失问题 $$w^{(L)} = w^{(L)} learning rate \times \frac{\partial C}{\partial w^{(L)}}$$ 当阅读全文

posted @ 2020-05-17 05:37 忽逢桃林阅读(1034) 评论(0) 推荐(0)

Kappa(cappa)系数只需要看这一篇就够了，算法到python实现

摘要：1 定义百度百科的定义：它是通过把所有地表真实分类中的像元总数（N）乘以混淆矩阵对角线（Xkk）的和，再减去某一类地表真实像元总数与被误分成该类像元总数之积对所有类别求和的结果，再除以总像元数的平方减去某一类中地表真实像元总数与该类中被误分成该类像元总数之积对所有类别求和的结果所得到的。这对于阅读全文

posted @ 2020-05-17 05:36 忽逢桃林阅读(6027) 评论(0) 推荐(0)

贝叶斯优化(Bayesian Optimization)只需要看这一篇就够了,算法到python实现

摘要：贝叶斯优化（BayesianOptimization） 1 问题提出神经网咯是有许多超参数决定的，例如网络深度，学习率，正则等等。如何寻找最好的超参数组合，是一个老人靠经验，新人靠运气的任务。穷举搜索 Grid Search 效率太低；随机搜索比穷举搜索好一点；目前比较好的解决方案是贝叶斯优化阅读全文

posted @ 2020-05-17 05:34 忽逢桃林阅读(9857) 评论(0) 推荐(0)

公众号【机器学习炼丹术】

05 2020 档案

公告