会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
李燕
博客园
::
首页
::
新随笔
::
联系
::
订阅
::
管理
::
公告
上一页
1
2
3
4
5
6
···
11
下一页
2017年8月20日
如何开发一个异常检测系统:如何评价一个异常检测算法
摘要: 利用数值来评价一个异常检测算法的重要性 使用实数评价法很重要,当你用某个算法来开发一个具体的机器学习应用时,你常常需要做出很多决定,如选择什么样的特征等等,如果你能找到如何来评价算法,直接返回一个实数来告诉你算法的好坏,那样你做决定就会更容易一些。如现在有一个特征,要不要将这个特征考虑进来?如果你带
阅读全文
posted @ 2017-08-20 21:59 李燕
阅读(824)
评论(0)
推荐(0)
2017年8月18日
异常检测(Anomaly detection): 异常检测算法(应用高斯分布)
摘要: 估计P(x)的分布--密度估计 我们有m个样本,每个样本有n个特征值,每个特征都分别服从不同的高斯分布,上图中的公式是在假设每个特征都独立的情况下,实际无论每个特征是否独立,这个公式的效果都不错。连乘的公式表达如上图所示。 估计p(x)的分布问题被称为密度估计问题(density estimatio
阅读全文
posted @ 2017-08-18 22:00 李燕
阅读(1350)
评论(0)
推荐(0)
异常检测(Anomaly detection): 高斯分布(正态分布)
摘要: 高斯分布 高斯分布也称为正态分布,μ为平均值,它描述了正态分布概率曲线的中心点。σ为标准差,σ2为方差,σ描述了曲线的宽度。在中心点附近概率密度大,远离中心点概率密度小。 高斯分布图 概率曲线下方的面积为1(积分为1),概率和为1。μ为中心点,σ为宽度。σ小时图形更尖更高,σ大时图形更矮更宽,因为面
阅读全文
posted @ 2017-08-18 21:38 李燕
阅读(2377)
评论(0)
推荐(0)
异常检测(Anomaly detection): 什么是异常检测及其一些应用
摘要: 异常检测的例子: 如飞机引擎的两个特征:产生热量与振动频率,我们有m个样本画在图中如上图的叉叉所示,这时来了一个新的样本(xtest),如果它落在上面,则表示它没有问题,如果它落在下面(如上图所示),表示这个样本有些问题,在把它交付给客户之前,我们需要对它做进一步的检测。 对异常检测一般化的描述:
阅读全文
posted @ 2017-08-18 20:54 李燕
阅读(1324)
评论(0)
推荐(0)
2016年8月18日
Python中的None
摘要: None是一个特殊的常量。 None是一个特殊的常量。 None和False不同。 None不是0。 None不是空字符串。 None和任何其他的数据类型比较永远返回False。 None有自己的数据类型NoneType。 你可以将None复制给任何变量,但是你不能创建其他NoneType对象。 >
阅读全文
posted @ 2016-08-18 10:57 李燕
阅读(254)
评论(0)
推荐(0)
2016年3月7日
PCA: PCA的具体实现过程
摘要: 数据预处理:mean normalization & feature scaling 先进行均值归一化(mean normalization),计算出每个特征的均值(uj),然后用xj-uj来替代,这样归一化后每个特征的均值就为0了 由于不同特征的取值范围有很大的不同(如一个为房子面积,一个为房间数
阅读全文
posted @ 2016-03-07 21:14 李燕
阅读(970)
评论(0)
推荐(0)
2016年3月6日
Principal Component Analysis: 用公式来描述我们想要PCA做什么
摘要: PCA要做什么? 我们想将数据从二维降到一维,那么怎么找到这条好的直线对数据进行投影呢? 上图中红色的那条直线是个不错的选择,因为点到投影到这条直线上的点之间的距离(蓝色的线)非常小;反之那条粉红色的线,数据投影到这条线上的距离非常大,所以PCA会选择红色的那条线而不是粉色的那条线。 PCA要做的就
阅读全文
posted @ 2016-03-06 16:57 李燕
阅读(590)
评论(0)
推荐(0)
2016年3月4日
dimensionality reduction动机---visualization(将数据可视化帮助我们更好地理解数据)
摘要: 如果我们能更好地理解我们的数据,这样会对我们开发高效的机器学习算法有作用,将数据可视化(将数据画出来能更好地理解数据)出来将会对我们理解我们的数据起到很大的帮助。 高维数据如何进行显示 GDP: gross domestic product 假设我们可能有50个features,那么我们怎么查看我们
阅读全文
posted @ 2016-03-04 16:09 李燕
阅读(387)
评论(0)
推荐(0)
2016年3月3日
dimensionality reduction动机---data compression(使算法提速)
摘要: data compression可以使数据占用更少的空间,并且能使算法提速 什么是dimensionality reduction(维数约简) 例1:比如说我们有一些数据,它有很多很多的features,取其中的两个features,如上图所示,一个为物体的长度用cm来度量的,一个也是物体的长度是用
阅读全文
posted @ 2016-03-03 21:57 李燕
阅读(363)
评论(0)
推荐(0)
K-means:如何选择K(cluster的数目)
摘要: 目前决定cluster数目的常用方法是手动地决定cluster的数目 哪个K是正确的? 上图中的数据集,我们可以说它有4个clusters,也可以说它有2个clusters,但哪个是正确答案呢?其实这儿没有正确答案,数据集要划分的cluster的数目本来就是模拟两可的,可以是2个,3个,4个。这也是
阅读全文
posted @ 2016-03-03 20:30 李燕
阅读(6604)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
11
下一页