随笔分类 -  数据挖掘

摘要:2013年统计用区划代码和城乡划分代码(截止2013年8月31日)项目地址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2013/index.html数据下载地址:http://pan.baidu.com/share/link?shareid=2... 阅读全文
posted @ 2014-11-04 14:41 杨桃 阅读(469) 评论(0) 推荐(0)
摘要:参考了好多人的算法,但感觉太深奥了,自己写了一个,感觉效果还可以,不过还是有很多杂质在里面成功率没有测试过,以后校验。 public static String extractContent(String url) { Document document = JsoupUitl.readUrl(url); String orderHtml = document.toString().toLowerCase(); orderHtml = orderHtml.replaceAll("(?is)", ""); orderHtml = or... 阅读全文
posted @ 2014-01-08 22:43 杨桃 阅读(317) 评论(0) 推荐(0)
摘要:购物篮分析:Apriori算法:参数设置:1.car 如果设为真,则会挖掘类关联规则而不是全局关联规则。2. classindex 类属性索引。如果设置为-1,最后的属性被当做类属性。3. delta 以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。4. lowerBoundMinSupport 最小支持度下界。5. metricType 度量类型。设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置信度挖掘),提升度(lift),杠杆率(leverage),确信度(conviction)。在 Weka中设置了几个类似置信度(confidence 阅读全文
posted @ 2013-12-17 16:00 杨桃 阅读(5725) 评论(0) 推荐(0)
摘要:步骤:(一) 选择数据源(二)选择要分析的字段(三)选择需要的关联规则算法(四)点击start运行(五) 分析结果算法选择:Apriori算法参数含义1.car:如果设为真,则会挖掘类关联规则而不是全局关联规则。2.classindex: 类属性索引。如果设置为-1,最后的属性被当做类属性。3.delta: 以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。4.lowerBoundMinSupport: 最小支持度下界。5.metricType: 度量类型,设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置信度挖掘),提升度(lift),杠杆率( 阅读全文
posted @ 2013-12-16 11:24 杨桃 阅读(7942) 评论(0) 推荐(0)
摘要:1 用户行为分析简介用户行为分析,是指在获得网站访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站的规律,并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营销策略提供依据。通过对用户行为监测获得的数据进行分析,可以让企业更加详细、清楚地了解用户的行为习惯,从而找出网站、推广渠道等企业营销环境存在的问题,有助于企业发掘高转化率页面,让企业的营销更加精准、有效,提高业务转化率,从而提升企业的广告收益。用户行为分析应该包含以下重点分析数据:用户的来源地区、来路域名和页面;用户在网站的停留时间、跳出率、回访者、新访问者、回访 阅读全文
posted @ 2013-12-11 10:27 杨桃 阅读(825) 评论(0) 推荐(0)
摘要:1 基本概念数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重 阅读全文
posted @ 2013-10-16 15:29 杨桃 阅读(23059) 评论(0) 推荐(2)