posted @ 2017-04-18 07:52 天戈朱 阅读(11864) 评论(1) 推荐(1)
摘要:
读取csv文件出现中文乱码方案,增加编码格式参数 read.csv(trainPath,header=TRUE,stringsAsFactors=TRUE,encoding = "UTF-8") 保存csv文件中出现乱码,编码格式参数 write.csv(outp, file = path, quo 阅读全文
摘要:
决策树模型中最为流行的是C4.5算法, 该类算法70年代末,J Ross Quinlan提出ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。1993年,Quinlan本人以ID3算法为基础研究出C4.5/C5.0算法,C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值 阅读全文
posted @ 2017-04-17 21:26 天戈朱 阅读(539) 评论(0) 推荐(0)
摘要:
随机森林模型是一种数据挖掘模型,常用于进行分类预测。随机森林模型包含多个树形分类器,预测结果由多个分类器投票得出。 决策树相当于一个大师,通过自己在数据集中学到的知识对于新的数据进行分类。俗话说得好,一个诸葛亮,玩不过三个臭皮匠。随机森林就是希望构建多个臭皮匠,希望最终的分类效果能够超过单个大师的一 阅读全文
posted @ 2017-04-17 00:40 天戈朱 阅读(8891) 评论(0) 推荐(0)
摘要:
K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,可以简单的理解为由那离自己最近的K个点来投票决定待分类数据归为哪一类。这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法。其中的K表示最接近自己的K个数据样本。KNN算法和K- 阅读全文
posted @ 2017-04-17 00:40 天戈朱 阅读(1114) 评论(0) 推荐(0)
摘要:
决策树(Decision Tree)是用于分类和预测的主要技术,它着眼于从一组无规则的事例推理出决策树表示形式的分类规则,采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,并根据不同属性判断从该节点向下分支,在决策树的叶节点得到结论。因此,从根节点到叶节点就对应着一条合理规则,整棵树就对应 阅读全文
posted @ 2017-04-17 00:39 天戈朱 阅读(1035) 评论(0) 推荐(0)
摘要:
CART模型 :即Classification And Regression Trees。它和一般回归分析类似,是用来对变量进行解释和预测的工具,也是数据挖掘中的一种常用算法。如果因变量是连续数据,相对应的分析称为回归树,如果因变量是分类数据,则相应的分析称为分类树。决策树是一种倒立的树结构,它由内 阅读全文
posted @ 2017-04-17 00:39 天戈朱 阅读(957) 评论(0) 推荐(0)
摘要:
朴素贝叶斯方法是一种使用先验概率去计算后验概率的方法, 具体见ML(3): 贝叶斯方法 R包 ① e1071::e1071 ② klaR::klaR 参考资料:https://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Classificati 阅读全文
posted @ 2017-04-10 22:17 天戈朱 阅读(1149) 评论(0) 推荐(0)
摘要:
tm包是R语言中为文本挖掘提供综合性处理的package,进行操作前载入tm包,vignette命令可以让你得到相关的文档说明。使用默认安装的R平台是不带tm package的,在安装的过程中,它会依赖于NLP’,‘BH’ ,‘slam’包,所以最简单的方式就是采用在线安装。 在tm 中主要的管理文 阅读全文
posted @ 2017-04-09 12:06 天戈朱 阅读(1543) 评论(0) 推荐(0)
摘要:
对于分类问题,我们每个人每天都在执行分类操作,只是我们没有意识到罢了。例如,当你看到一个陌生人,你的脑子下意识判断TA是男是女;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、那边有个非主流”之类的话,其实这就是一种分类操作。为更好理解Bayes原理,转载参考下面的文章: ① http:// 阅读全文
posted @ 2017-04-08 23:21 天戈朱 阅读(646) 评论(0) 推荐(1)
摘要:
机器学习术语 归纳总结机器学习相关的基本术语,以一批西瓜的数据为例,例如:(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆)。。。 示例(instance)/样本(sample):对于某个事件或对象的描述(上例中的一个西瓜) 数据集 阅读全文
posted @ 2017-04-08 23:20 天戈朱 阅读(433) 评论(0) 推荐(0)
浙公网安备 33010602011771号