摘要: 作者:July、pluskid、白石。 出处:结构之法算法之道blog。 前言 动笔写这个支持向量机(support vector machine)是 费了不少劲和困难的,从5月22日凌晨两点在微博上说我要写了,到此刻真正动笔要写此文,中间竟然隔了近半个月。原因很简单,一者这个东西本身就并不好 懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲清楚,尽管网上已经有不少朋友已经写得不错了(见文末参考链接..),但在描述数学 公式的时候还是显得不够。得益于同学白石的数学证明,我还是想尝试写一下,希望本文在兼顾通俗易懂的基础上,真真正正能足以成为一篇完整概括和介绍支持向 量机的... 阅读全文
posted @ 2012-06-30 22:51 ChaunceyHao 阅读(436) 评论(0) 推荐(0)
摘要: 所有网络服务及在线游戏的硬伤是什么?也就是游戏开始头几分钟或几小时内出现的大量用户流失情况。已经有不少人通过多种方式探索这个问题的解决之道,其中多由界面的易用性和简洁性,免费试玩模式的有效性,难度曲线,以及新手教程质量等方面入手。这些都是公认的重要考虑因素。 而我们的目标是研究新用户为何早早退出游戏,并尝试预测哪些用户会提前离开。在此,我们以MMOPRG游戏《永恒之塔》为研究案例,但其研究结果也 适用于多种服务和游戏类型。虽然这款游戏在调查期间是一款纯订阅游戏,并采用7天免费试玩至20级的模式,多数流失用户还不到付费阶段就已经离开游戏。我 们主要研究的是促使用户离开的游戏内部因素。 A... 阅读全文
posted @ 2012-06-30 22:50 ChaunceyHao 阅读(483) 评论(0) 推荐(0)
摘要: 科学家研究发现,通过追踪非处方药的销售情况,可以在疫情变得严重前获取其爆发的线索。 近几个月来,隐私问题已经成为互联网政治的第三条高压线。企业搜集了越来越多的用户在线行为信息。他们能够对这些数据做什么以及可以向何人分享这些数据,成为人权活动家、知识产权持有人以及其他人士所争论的热点问题。 卫生保健工业不能在大数据的浪潮中置身度外,但是它也未必要担心一些东西。事实上,对这种集合效应的理解有益于公众健康。 以医疗用品零售监视系统(NRDM)为例,其对遍及美国各地的21000个零售点非处方药进行了监控。获悉人们购买的药物名称和数量,是公共卫生官员开始预测疾病传播短期趋势的一个方法。 ... 阅读全文
posted @ 2012-06-30 22:12 ChaunceyHao 阅读(278) 评论(0) 推荐(0)
摘要: 本文首先介绍了网络安全、入侵检测和数据挖掘这三方面的基本知识。然后分析了在传统的网络入侵检测技术的不足之后,针对如何提高基于数据挖掘的网络 入侵检测系统的效率和准确度而利用数据挖掘中的关联规则和聚类规则将已有模型结构进行了改进。 当前计算机网络广泛应用于各个领域,不可置疑给人们的生活、学习、工作带来了便利,同时也对网络安全提出了更高的要求。在现代信息化发展的形式下,要求一 个安全的网络系统不仅要有防御手段,而是既要有防火墙等防御的手段,还要有能对网络的安全进行实时监控,攻击与反攻击的网络入侵检测系统。所以在这种情形 下,入侵检测系统应运而生。 1入侵检测的必要性 入侵检测系统就是对已建设的信. 阅读全文
posted @ 2012-06-30 22:07 ChaunceyHao 阅读(606) 评论(0) 推荐(0)
摘要: H= Jeff Hammerbacher Cloudera创始人 C= CBNweekly C:你的数据挖掘工作始于华尔街投行Bear Stearn,那是怎样一份工作? H:当时我是固定收益部的数据分析师,主要处理有关债权、抵押以及其他金融衍生工具的事务。我为交易员清理外汇期权的电子数据表。清除完成后,我还要通过复杂的随机微分方程把定价引擎应用到这些期权上。 后来我得根据金融产品价格变动,维护它的固定收入的期限结构模型。期限结构模型是对收益率曲线发展的预测—很复杂的算法,每晚都得运行。我还开发了同步模拟通货膨胀的期限结构模型。 空下来的时候,我会去维基百科管理一下上面的答... 阅读全文
posted @ 2012-06-30 22:06 ChaunceyHao 阅读(138) 评论(0) 推荐(0)
摘要: 前段时间说过一些关于玩家生命周期的问题,其实那些有点大,有点虚,从宏观的角度 了解我们此时此刻正在做的分析是属于那一部分,哪一个体系的,说实话,这是为了建立一种意识而要做的工作,玩家生命周期价值源于电信行业的客户生命周期管 理和PLC(产品生命周期)的解读和应用,限于本人水平和能力因素,不够深刻,全面,在此请各位谅解,以后的内容会逐步深入到这个体系之下的很多细节的问 题探讨,今天就和大家简单说说流失率。 说到流失率,我们可以考察,可以分析,可以利用的点实在是太多了,这里我也不可能把所有的东西都覆盖,仅从几个指标来说说,至于其他的关联分析部分需要大家自己来看和分析(不要陷入一个误区,那... 阅读全文
posted @ 2012-06-30 22:05 ChaunceyHao 阅读(233) 评论(0) 推荐(0)
摘要: 笔试题: 一、简答题30分 1. extern”C”{}的作用好应用场景; 2.写出两者你熟悉的设计模式,及应用场景,可以给出伪代码; 3.TCP中time_wait是表示那种状态,及应用场景,以及起好处和坏处; 二、算法题40分 1. 有一个任务执行机,任务数N<1000,该机器每次只能执行一个任务,而任务之间存在依赖关系, 但是任务之间没有循环依赖,请给出适当的任务执行顺序。算法、伪代码,并分析其时间复杂度和 空间复杂度。 2. 编写函数,统计在某段英文文本中完整句子的数目,文本中只包括大小写字母,空格,点好(.),逗号(,)。 完整的句子必须包含至少一个字母并以点号,结束。 要求: 阅读全文
posted @ 2012-06-30 22:04 ChaunceyHao 阅读(860) 评论(0) 推荐(0)
摘要: 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计.. 阅读全文
posted @ 2012-06-30 22:01 ChaunceyHao 阅读(506) 评论(0) 推荐(0)
摘要: 在R用户组织的主题为“R与预测分析科学”的panel会议上,有来自工业界的四位代表发表了讲话,介绍各自在工业界是如何应用R进行数据挖掘。他们分别是: Bo Cowgill, Google Itamar Rosenn, Facebook David Smith, Revolution Computing Jim Porzak, The Generations Network 他们分别介绍了在各个公司是如何使用R进行预测分析,R作为分析工具的优势和劣势,并且提供了学习案例,以下是对他们的介绍的相关总结。 Panel介绍 R作为一门编程语言在以下三个方面具有很强的优势:数据处理,统计和数据可视化。和 阅读全文
posted @ 2012-06-30 22:00 ChaunceyHao 阅读(187) 评论(0) 推荐(0)
摘要: 数据挖掘(Data Miming)是近几年随着数据库和人工智能发展起来的一门新兴的数据库技术,其处理对象是大量的日常业务数据,目的是为了从这些数据中抽取一些有价值的知识或信息。 1. 数据挖掘技术在CRM中的作用 数据挖掘技术可以应用到CRM的各个不同领域和阶段,具体来说,在CRM中,它可以应用在以下几个方面: (1)一对一营销:企业内部员工必须认识到客户是企业永恒的宝藏,而不是本部门的一次交易,所以,每一次与客户接触都是了解客户的过程,从而达到营销的目的。 (2)客户盈利能力分析:在客户群中,客户的盈利能力有很大的区别。掌握客户的盈利能力,有利于制定有效的营销策略。数据挖掘技术可以用来预测在 阅读全文
posted @ 2012-06-30 21:59 ChaunceyHao 阅读(266) 评论(0) 推荐(0)
摘要: 在线社交网络在近几年得到迅速发展,如国内的新浪微博在不到三年的时间已积累了近3亿用户,平均每秒有超过1000条的新微博产生。这些微博不仅反 应了一些事件信息,同时也附加了用户对事件的情感表达。基于此,北航软件开发环境国家重点实验室的先进网络分析研究小组(GANA)希望通过新浪微博的情 感分类和波动分析,来实现物理世界异常或突发事件的监测。 该小组将微博的情感分为愤怒、厌恶、高兴和低落四类。与传统的文本情感理解中将感情色彩简单分为褒贬两类不同,他们认为,将贬,即负面情绪进行 进一步的细分,更有利于事件性质的区分和判断。以收集并处理得到的超过350万条具有情感标注的微博为语料,他们实现... 阅读全文
posted @ 2012-06-30 21:53 ChaunceyHao 阅读(333) 评论(0) 推荐(0)
摘要: 推荐机制的两种方式:1、基于用户行为;2、基于产品基因;推荐机制建立的前提:1、用户行为数据记录;2、产品特性基因构成; 1、基于用户行为:案例amazon(亚马逊) 亚马逊的推荐系统是程序自动化和用户相关购物信息天才集合的经典之作。亚马逊花了十几年的时间建立和完善了这个系统。这个系统基于产品和相关用户的巨大数据库;记录的信息包括你在过去几年或几分钟内做过什么。 所有推荐都基于用户个人行为,加上商品本身,或者是其他用户在亚马逊的活动。不管是因为你以前购买过相关产品,还是因为其他很多用户都喜欢,亚马逊每推荐给你一件商品,都增大你把它放进你的购物筐的可能。 2、基于产品基因:案例pando... 阅读全文
posted @ 2012-06-30 21:49 ChaunceyHao 阅读(178) 评论(0) 推荐(0)
摘要: 以下是今天收集到的几个移动平台浏览器的User Agent: Android N1 Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1 Android QQ浏览器 For android MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7... 阅读全文
posted @ 2012-06-30 21:45 ChaunceyHao 阅读(292) 评论(0) 推荐(0)
摘要: SELECT StudentID, AVG(Mark) AS AverageMark, INT(AVG(Mark)) AS RoundDown, ROUND(AVG(Mark) + .5, 0) AS RoundUp, ROUND(AVG(Mark), 0) AS ClosestIntFROM StudentExamGROUP BY StudentID; 阅读全文
posted @ 2012-06-30 13:37 ChaunceyHao 阅读(168) 评论(0) 推荐(0)