上周出了个bug,按星期几查询数据的时候,发现查到的数据与显示的星期几并不相符,后来发现代码中按星期几查询,有的地方用的是Django QuerySet提供的'__week_day',有的地方用的是python datetime的weekday()方法!这两个方法对weekday的映射数字不同!__... Read More
当做重要决定时,大家可能都会吸取多个专家而不只是一个人的意见。机器学习处理问题时又何尝不是如此?这就是元算法背后的思路。元算法是对其他算法进行组合的一种方式。自举汇聚法(bootstrap aggregating),也称为bagging方法,是从原始数据集选择S次后得到S个新数据集的一种技术。新数据... Read More
Logistic回归也是一种分类算法,其主要思想是:根据现有数据对分类边界建立回归公式,以此进行分类。简单的说就是采用Logistic回归函数,接受所有的特征值输入,然后输出类别。Logistic函数又叫sigmoid函数:形状为:从上图容易看出,输入t,在x!=0的情况下,P(t)大于0.5 或小... Read More
“贝叶斯定理是一则关于随机事件A和B的条件概率定理,其中P(A|B)是在B发生的情况下A发生的可能性。”---百度百科朴素贝叶斯是贝叶斯决策理论的一部分,贝叶斯决策定理的简单解释:p1(x,y)表示数据点(x,y)属于类别1的概率p2(x,y)表示数据点(x,y)属于类别2的概率那么对于一个新数据点... Read More
寻找数据之间的相似性是数据聚合、分类、拟合预测等应用中常见的场景;寻找数据之间的相异性是异常检测,排除离群点等数据操作必需的步骤。所以计算数据之间的相似度和相异度是数据处理的基本手段,常用的方法是计算数据之间的距离和密度。 相似度顾名思义就是两个对象相似程度的数值度量,常常在0(不相似)和1(完全相 Read More
前两天参加了公司组织的一个培训,主题是“如何写出好的代码” ,刚看到这个主题,第一反应是又不知道是哪个培训机构来忽悠钱的!老大安排了,就去听听呗。 说实在的,课程内容没有什么新鲜的东西,就是讲讲如何发现代码的坏味道,如何重构函数,如何修改遗留系统的代码。这些东西从本科到研究生到实习到正式工作,... Read More
数据预处理的目标是改善数据挖掘分析工作,减少时间,降低成本和提高质量。 数据预处理是选择分析所需要的数据对象和属性以及创建/改变属性的过程。方法主要包括:聚集,抽样,维归约,特征子集选择,特征创建,离散化和二元化,变量变换。 聚集(Aggregation):将两个或多个对象合并成单个对象。比如通过合 Read More
数据集:数据对象的集合属性(attribute)是对象的性质或特性,它因对象而异,或随时间而变化。测量标度(measurement scale)是将数值或符号值与对象的属性相关联的规则(函数)属性的不同类型: 标称:标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象。比如:邮政编码... Read More
最近在自学数据挖掘的知识,看的教材是《数据挖掘导论(完整版)》Pang-Ning Tan 著 。为了更好的归纳总结,开一系列DM的帖子,记录书中的重点和自己的心得。数据挖掘(Data Mining)是一种技术,将传统的数据分析方法与处理大量数据的复杂算法相结合,现阶段主要用来支持商务智能(Busin... Read More