随笔分类 - 数据挖掘
数据挖掘知识点及应用案例分享
摘要:摘要:自建国以来我国的气象系统已经十分完备,2015年中国气象局发布27号令后使得气象数据迈向开放数据(Open Data)新阶段,行业与公众可以使用海量气象数据助力企业,目前行业数据和海量气象数据还没有得到完全应用。本文主要研究气象数据对销售的影响,进而利用气象数据特性完成天气驱动行业销售的预测。
阅读全文
摘要:摘要: 买家的评论文本数据是电子商务领域一种重要的数据形式,通过对其分析,电商卖家可以直接了解顾客对产品的态度与建议,提取顾客关注的热点问题,也可以进行顾客分类,实现精准营销,改进和提高生产和服务等;买家可以提取所关注属性的相关评价,了解舆论情感倾向,提高购物决策效率。但是大数据环境下海量文本的出现
阅读全文
摘要:摘要:面向小微商户以及个人消费的小微信贷是当前互联网金融的重要发展方向,并且正在经历爆发式增长。在这个增长过程中,如何在没有实物抵押的情况下,通过互联网大数据分析实现快速准确征信是一个非常重要的问题。为此,不同的数据来源将各显神通地为信用评估提供依据。本文将通过一个真实的案例出发,进行分析和探讨,针
阅读全文
摘要:前言 经常用R处理数据的分析师都会对dplyr包情有独钟,它强大的数据整理功能让原始数据从杂乱无章到有序清晰,便于后期进一步的深入分析,特别是配合上数据库的使用,更是让分析师如虎添翼,轻松搞定Excel难以驾驭的数据容量,下面我们通过一个实用案例来具体看看如何将R和数据库完美融合在一起。在以后的博客
阅读全文
摘要:Courses上台湾大学林轩田老师的机器学习技法课之Aggregation 模型学习笔记。 混合(blending) 本笔记是Course上台湾大学林轩田老师的《机器学习技法课》的学习笔记,用于学习之后的一些总结。 首先,对于Aggregation模型,其基本思想就是使用不同的 g t 来合成最后的
阅读全文
摘要:dummyVars函数:dummyVars creates a full set of dummy variables (i.e. less than full rank parameterization----建立一套完整的虚拟变量先举一个简单的例子: survey<-data.frame(ser
阅读全文
摘要:在数据挖掘过程中,高维数据是非常棘手的研究对象。特别是在文本挖掘、图像处理和基因数据分析中,维度过高使很多学习器无法工作或效率降低,所以降维也是数据预处理过程的一项必要任务。降维大致有两大类别,一类是从原始维度中提取新的维度,例如主成分分析或因子分析,再或者是奇异值分解或是多维标度分析。另一类是从原
阅读全文
摘要:kf=read.csv('d:/kf.csv') # 读取康复数据kfsl=as.matrix(kf[,1:3]) #生成生理指标矩阵xl=as.matrix(kf[,4:6]) #生成训练指标矩阵x=slxy=xlyx0=scale(x)x0y0=scale(y)y0m=t(x0)%*%y0%*%
阅读全文
摘要:在大数据如火如荼的时候,机器学习无疑成为了炙手可热的工具,机器学习是计算机科学和统计学的交叉学科, 旨在通过收集和分析数据的基础上,建立一系列的算法,模型对实际问题进行预测或分类。 R语言无疑为我们提供了很好的工具,它正是计算机科学和统计科学结合的产物,开源免费, 相对于Python、Orange
阅读全文
摘要:I want to consider an approach of forecasting I really like and frequently use. It allows to include the promo campaigns (or another activities and ot...
阅读全文
摘要:This is the third post aboutLifeCycle Grids. You can find the first post about the sense of LifeCycle Grids and A-Z process for creating and visualizi...
阅读全文
摘要:We studied a very powerful approach for customer segmentation inthe previous post, which is based on the customer’s lifecycle. We used two metrics:fre...
阅读全文
摘要:I want to share a very powerful approach for customer segmentation in this post. It is based on customer’s lifecycle, specifically onfrequencyandrecen...
阅读全文
摘要:Machine learning is a branch in computer science that studies the design of algorithms that can learn. Typical machine learning tasks are concept lear...
阅读全文
摘要:导语活动做不好会伤用户,伤产品。很多人以为活动能让产品收入突飞猛进,很多人以为活动能弥补产品的缺陷。其实活动不是解决方案,只是止痛药。他解决不了根本的问题,只能减少疼痛而已。而有时候,药方子开错了,会让伤口更疼!所以有时候不做活动反而更好!┃七宗罪之一:给太多奖励给少了,玩家会骂你抠门。奖励给多了,...
阅读全文
摘要:Statistical approaches to randomised controlled trial analysisThe statistical approach used in the design and analysis of the vast majority of clinica...
阅读全文
摘要:关于分类算法我们之前也讨论过了KNN、决策树、naivebayes、SVM、ANN、logistic回归。关于这么多的分类算法,我们自然需要考虑谁的表现更加的优秀。 既然要对分类算法进行评价,那么我们自然得有评价依据。到目前为止,我们讨论分类的有效性都是基于分类成功率来说的,但是这个指标科学吗...
阅读全文
摘要:This post builds on aprevious post, but can be read and understood independently.As part of my course on statistical learning, we created 3D graphics ...
阅读全文
摘要:1、余弦距离余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。余弦定理描述了三角形中任何一个夹角...
阅读全文
摘要:(1)C4.5算法的特点为:输入变量(自变量):为分类型变量或连续型变量。输出变量(目标变量):为分类型变量。连续变量处理:N等分离散化。树分枝类型:多分枝。分裂指标:信息增益比率gain ratio(分裂后的目标变量取值变异较小,纯度高)前剪枝:叶节点数是否小于某一阈值。后剪枝:使用置信度法和减少...
阅读全文

浙公网安备 33010602011771号