11 2012 档案
摘要:本章概要本章主要介绍了遗传程序(Genetic Program,简称GP)。此方法与第五章讲的遗传算法(Genetic Algorithm,简称GA)类似,但是解决的问题不同,GA主要解决优化问题,寻找最优解,而GP主要寻找最优算法。本章还讲解了两个例子,来形象的说明GP的运用。算法解析GP的主要任务是针对一个问题,寻求一个最优的算法。在解决过程中,也是一代一代的精英通过突变(单性繁殖)或杂交(两性繁殖)的方式找到最优解,与GA不同的是,GA对参数进行组合变化,而GP对算法组合变化。这里,就需要将算法抽象出来,以至于可以重行组合。本章采用树的结构组织算法,有点像语法树,每个节点要么是最基本的运
阅读全文
摘要:本章概要本章介绍了优化问题的基本概念,以及常见的优化算法(随机搜索,爬山,模拟退火,遗传算法)。读完本章后,感觉茅塞顿开,之前一直认为遗传算法高深莫测,原来这些算法都是根据生物,物理的启发而来的,顿时亲切了许多。什么是优化(Optimization)一个问题的解有一系列组合,在这些组合中找出最优的解的过程就是优化。最笨的方法,枚举出所有可能的结果,找出最优的解。但是,往往可能性太多,计算机根本上无法枚举出所有的解决方案。成本函数(Cost Function)最优的解决方案在成本函数中得到最大或最小值。成本函数是指导优化继续进行的根本。优化算法随机搜索:计算一组随机的组合方案,在这个方案中找到最
阅读全文
摘要:本章概要本章介绍了搜索引擎的基本原理,PageRank的基本思想和神经网络在学习用户点击行为,用于提高搜索结果的准确性方面的问题搜索引擎基本原理搜索引擎的基本框架:爬取网页—>制作索引—>检索查询。虽然只有这三步,熟练的工程师基本上一天就可以搭建一个小型的搜索引擎。但是每一步中可以深入研究的地方太多,涉及到的技术难点太多。本书概要的介绍了上面三个步骤,并用python实现了一个小巧的搜索引擎,关键点是要介绍如何对检索出来的内容进行排序。内容排序主要介绍了三种方式为搜索结果排序基于页面内容排序:按照检索词的频率,检索词之间的位置,检索词在文本中的距离的标准排序。基于页面之间的关系排序
阅读全文
摘要:本文概要本章主要描述了非负矩阵因式分解(Non-Negative Matrix Factorize)在数据挖掘中的作用。举了两个例子:1)文章主题分析(一些关键的词组);2)股票交易量分析(交易量与重大事件的关系)贝叶斯分类的局限贝叶斯分类时,需要训练数据集,这些数据集是人为划分的,并且不会出现新的分类。如果待处理的数据集的潜在分类很多,而且每一个分类需要一定量的样本才会准确,那么训练的工作量会非常大。所以,贝叶斯分类器适合分类比较少,每个分类样本较多的场景。层级聚类局限在于不太准确,可能导致一些不同类的样本却在一个聚类中。比如2个相关性并不大的文章A,B,但是由于必须要找出距离最近的文章组成
阅读全文
摘要:下面的图片中列举了128个ASCII编码,包括8进制,10进制和16进制。 不多说,直接上图!想了解更多计算机字符编码的知识,可以参考文章《网页中文乱码的那点事儿》
阅读全文
摘要:本章概要本章介绍了线性分类器和支持向量机(Supprt Vector Machine, short for SVM)。同时,还介绍了一些数据预处理的相关实践。SVM的原理比较高深,本章没有详细的说明,只是介绍了如何采用python中的LIBSVM库,进行SVM的训练和预测。线性分类器虽然简单,但是与SVM还是有一定联系,所以本章最开始介绍了线性分类器。决策树的不足本章给出的例子是交友网站上的配对预测,经过数据预处理后,主要是一些数值数据。使用决策树分类,会发现节点基本上是在同一类数据上不同值之间来回变化,比如年龄(如下图)。所以,决策数并不适合数值关系负责,没有明确分割点的数据分类。数据伸缩对
阅读全文
摘要:首先,向万恶的IE 6,7,8,9,10,XXX致敬!下面调试CSS样式时的一些总结,主要是为了兼容IE,有少量chrome.IE <option>没有onclick事件,可以通过select的onclick事件响应IE <label> for <image>时,存在bug,需要通过脚本设定IE <image>默认会有边框,可以通过样式 {border:0}来去除IE的float:right的标签必须在逻辑位置的上边才上边缘对齐jquery的组件选择,使用children,parent,silbings,会存在维护问题,因为修改CSS时,有可能修
阅读全文
摘要:本文概要贝叶斯分类器 ,决策数和支持向量机对数值型数据处理能力较弱。本文介绍kNN(K Nearst Neighbor)算法,可以根据已有的数值型训练集合,对数值型数据做出预测。KNN算法正对当前被预测对象,在训练集合中找出最近的K个物品价格,算出平均值为预测价格。距离算法有很多,如皮尔森系数,余弦定理,欧氏距离等。本章例子是预测商品价格,采用的是欧氏距离(为什么呢?我的理解:商品的价格一般与商品重量,体积等成正比,所以距离的模大小比较重要,采用欧拉距离,可以将向量摸大小的因素考虑在内)。K的选取算法中有K的,都会遇到这个问题,k取多少?在KNN中,k太小,比如1,那么预测价格仅仅与最临近的训
阅读全文
摘要:本章概要决策树与贝叶斯分类,费舍尔分类,神经网络一样,是一种分类技术。但是,与其他分类技术不同的是,决策树做出决策的过程很清晰,可以帮助用户了解决策过程,从而调整自己的策略(比如广告投放),往往决策树本身处理过程比其分类结果更重要。本章主要介绍了CART算法构建决策树与做出决策,同时还介绍了一些决策树的优化方案,容错机制和使用场景。本章还介绍了三种集合纯度计算方法基尼不纯度(Gini Impurity)熵(Entory)方差(Variance)决策树上面就是一个决策树,分叶节点是逻辑判断,叶节点是结果。输入结果按照决策树的节点一级一级的向下走,直到访问到叶节点,得到最后的分类结果。可以理解为一
阅读全文
摘要:本章概要本章主要介绍了两种分类技术:朴素贝叶斯分类(Naive Bayesian Classification)费舍尔分类器(Fisher Classification)上面两种技术的共性都是基于条件概率计算不同分类的概率,然后通过设定一些阀值,找到最适合的分类。分类过程中,都使用了权重概率,用户避免极概率的发生。当然,上述两种分类器不仅仅局对邮件分类,还可以对其他实物,如文章,图像,商品等分类,关键是如何抽取特性。特性特性是根据不同实物而变化的。比如一般的文本,如新闻。可以将词语出现与否作为特性。比如邮件,可以将发送邮件的IP,发送者,发送时间,大写出现频率等均作为特性。训练人工将一系列特性
阅读全文
摘要:一个apache网站,在不同目录下有不同网站,但在同一个域名下,这时可以配置alias,这与多域名不一样。在http.conf里增加:<IfModule alias_module> Alias /your_alias /your/dqm/new/proj/root # 保留其他配置</IfModule># 设置相关目录属性<Directory "/your/dqm/new/proj/web/root"> Options Indexes FollowSymLinks AllowOverride None Order allow...
阅读全文
摘要:当一个页面使用多个jQuery插件时,需要避免重复引入jquery.js文件,因为后面映入的jQuery.js文件中定义的jQuery对象会覆盖掉前面的jQuery对象,导致之前定义的jQuery插件均不可用,下图是jquery.js中开头部分代码,定义了全局jQuery对象 当页面由一个人开发时,基本上不会遇到这个问题,因为大多数前端开发工程师会将js的引入放到一起,这样不容易引入重复的j...
阅读全文
摘要:本章概要本章主要介绍了两种协同过滤(Collaborative Filtering)算法,用于个性化推荐:基于用户的协同过滤(User-Based Collaborative Filtering,又称 K-Nearest Neighbor Collaborative Filtering)基于条目的协同过滤(Item-Based Collaborative Filtering)本章还介绍两种向量相似性算法:欧氏距离(Euclidean Distance)皮尔斯稀疏(Pearson Coefficient)协同过滤协同过滤是在一大群用户中寻找一些与你的用户相似的用户,然后将这些找到的用户使用过但是
阅读全文
摘要:本文目的 最近这几天一直在研究如何评估Kmeans聚类算法中的最优K值。主要理论依据是《数据挖掘导论》8.5.5节中介绍的SSE和Silhouette Coefficient系数的方法评估最优K。现在记录整个实验过程,作为备忘。不过,体验过程中,由于R软件使用的还不太熟练,实现过程中有些地方可能不准确,还请大牛指点。 实验步骤概述 下载实验数据,点击这里。 取k值范围,计算出SSE,并绘制出...
阅读全文
摘要:学习笔记目的 此文档记录本人学习Unix Network Programming 3rd verion volumn I的一些笔记,我只将觉得重要或经过一番功夫才理解的内容记录下来,方便以后回顾。 第二章 传输层TCP,UDP和SCTP 2.10 TCP端口号和并行服务器 tcp是通过一对socket(socket pair)来区分socket通讯的,可以这么理解,socket = ip ...
阅读全文
摘要:本文目的最近在看《数据挖掘导论》,此书作为此领域的入门书籍,很有口碑。这几天抽业余时间,看了第二章,觉得该记点什么,否则对不起自己。人总在与遗忘作斗争,好记性不如烂笔头。主要内容本章节主要讨论了数据处理的4个主要方面:数据类型数据质量数据预处理相似度测量数据类型(Type of Data)定义数据的属性,记录,数据集。属性的类型分为4种名称(Noimal):仅仅只是名称,用来区分不同记录,一一对应,如ID有序(Ordinal):可以理解为计算机语言中枚举类型,有序,有限区间(Interval):数字区域,主要用于加减运算,如时间,日期比例(Radio):计算比例,主要用于乘除运算。数据集的类型
阅读全文