上一页 1 ··· 193 194 195 196 197 198 199 200 201 ··· 273 下一页
摘要: 用机器学习检测异常点击流 用机器学习检测异常点击流 本文内容是我学习ML时做的一个练手项目,描述应用机器学习的一般步骤。该项目的目标是从点击流数据中找出恶意用户的请求。点击流数据长下图这样子,包括请求时间、IP、平台等特征: 该项目从开始做到阶段性完成,大致可分为两个阶段:算法选择和工程优化。算法选 阅读全文
posted @ 2017-11-03 09:43 bonelee 阅读(34382) 评论(2) 推荐(3)
摘要: 给定数据集 x(1),x(2),..,x(m),我们假使数据集是正常的,我们希望知道新的数据 xtest 是不 是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测 试数据的位置告诉我们其属于一组数据的可能性 p(x)。 高斯分布 高斯分布,也称为正态分布。回顾高斯分布的 阅读全文
posted @ 2017-11-03 09:27 bonelee 阅读(2928) 评论(1) 推荐(0)
摘要: https://wenku.baidu.com/view/ee9d9800cdbff121dd36a32d7375a417866fc131.html 使用kmeans算法做流量异常检测 明确指出数据预处理需要规范化 例如网络流量异常检测方法,对网络流量样本数据进行归一化和均值化处理,得到网络流量样本 阅读全文
posted @ 2017-11-03 09:01 bonelee 阅读(10506) 评论(0) 推荐(0)
摘要: kmeans demo 摘自:http://spark.apache.org/docs/latest/api/python/pyspark.mllib.html#module-pyspark.mllib.feature pyspark.mllib.feature module Python pack 阅读全文
posted @ 2017-11-02 20:11 bonelee 阅读(2633) 评论(1) 推荐(0)
摘要: For (much) more power and flexibility, use a dedicated spellchecking library like PyEnchant. There's a tutorial, or you could just dive straight in: P 阅读全文
posted @ 2017-11-02 12:10 bonelee 阅读(18191) 评论(0) 推荐(1)
摘要: 公用函数的放到了 common.py 文件中. 通过 --py-files 可以在pyspark中可以顺利导入: pyspark --py-files lib/common.py > import common OK 阅读全文
posted @ 2017-11-02 12:09 bonelee 阅读(2888) 评论(0) 推荐(0)
摘要: load方法: a=sc.textFile("feature/all.txt")a.collect() [u"('one', 1)", u"('two', 1)", u"('two', 1)", u"('three', 1)", u"('three', 1)", u"('three', 1)"] 阅读全文
posted @ 2017-11-01 17:38 bonelee 阅读(11775) 评论(0) 推荐(0)
摘要: 过滤了出现次数大于2的结果。 阅读全文
posted @ 2017-11-01 09:34 bonelee 阅读(1077) 评论(0) 推荐(0)
摘要: 查看spark是否有僵尸进程,有的话,先杀掉。可以使用下面命令yarn application -listyarn application -kill <jobid> 阅读全文
posted @ 2017-10-31 19:22 bonelee 阅读(1711) 评论(0) 推荐(0)
摘要: 话题 3: 基于深度学习的二进制恶意样本检测 分享主题:全球正在经历一场由科技驱动的数字化转型,传统技术已经不能适应病毒数量飞速增长的发展态势。而基于沙箱的检测方案无法满足 APT 攻击的检测需求,也受到多种反沙箱技术的干扰。在充分考察过各种技术方案的优劣后,瀚思科技开发出了基于深度学习的二进制病毒 阅读全文
posted @ 2017-10-30 09:50 bonelee 阅读(910) 评论(0) 推荐(0)
上一页 1 ··· 193 194 195 196 197 198 199 200 201 ··· 273 下一页