随笔分类 -  机器学习

摘要:RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看, RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,spark应用程序所做的无非是把需要 阅读全文
posted @ 2018-07-04 22:29 浪礁 阅读(7056) 评论(0) 推荐(0)
摘要:Python读写excel的工具库很多,比如最耳熟能详的xlrd、xlwt,xlutils,openpyxl等。其中xlrd和xlwt库通常配合使用,一个用于读,一个用于写excel。xlutils结合xlrd可以达到修改excel文件目的。openpyxl可以对excel文件同时进行读写操作。 而 阅读全文
posted @ 2018-06-30 20:52 浪礁 阅读(15526) 评论(0) 推荐(0)
摘要:一、首先,推荐用Anaconda安装 因为Anaconda本身就已经默认安装了很多常用的Python库,可以省去大量的库安装过程,并且解决兼容性问题。 Anaconda本身的安装也非常简单,搜索Anaconda官网,下载最新的Anaconda对应的exe文件,约几百兆,双击安装即可。 启动Anaco 阅读全文
posted @ 2018-04-22 16:08 浪礁 阅读(595) 评论(0) 推荐(0)
摘要:信息熵与信息增益(IE, Information Entropy; IG, Information Gain) 信息增益是机器学习中特征选择的关键指标,而学习信息增益前,需要先了解信息熵和条件熵这两个重要概念。 信息熵(信息量) 信息熵的意思就是一个变量i(就是这里的类别)可能的变化越多(只和值的种 阅读全文
posted @ 2018-01-09 19:23 浪礁 阅读(3043) 评论(0) 推荐(0)