10 2017 档案
《特征工程三部曲》之三:维度压缩
摘要:当特征选择完成之后,就可以直接训练模型了,但是可能由于特征矩阵过大导致计算量大,训练时间长的问题;因此,降低特征矩阵维度,也是必不可少的,主成分分析就是最常用的降维方法,在减少数据集的维度的同时,保持对方差贡献最大的特征,在sk... 阅读全文
posted @ 2017-10-28 21:18 朱元禄 阅读(296) 评论(0) 推荐(0)
《特征工程三部曲》之三:维度压缩
摘要:当特征选择完成之后,就可以直接训练模型了,但是可能由于特征矩阵过大导致计算量大,训练时间长的问题;因此,降低特征矩阵维度,也是必不可少的,主成分分析就是最常用的降维方法,在减少数据集的维度的同时,保持对方差贡献最大的特征,在sklearn中,我们使用PCA类进行主成分... 阅读全文
posted @ 2017-10-28 21:18 朱元禄 阅读(200) 评论(0) 推荐(0)
《特征工程三部曲》之三:维度压缩
摘要:当特征选择完成之后,就可以直接训练模型了,但是可能由于特征矩阵过大导致计算量大,训练时间长的问题;因此,降低特征矩阵维度,也是必不可少的,主成分分析就是最常用的降维方法,在减少数据集的维度的同时,保持对方差贡献最大的特征,在sklearn中,我们使用PCA类进行主成分分析。 主成分分析(Princi 阅读全文
posted @ 2017-10-28 21:18 朱元禄 阅读(264) 评论(0) 推荐(0)
《特征工程三部曲》之二:特征选择
摘要:什么特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。... 阅读全文
posted @ 2017-10-26 15:47 朱元禄 阅读(444) 评论(0) 推荐(0)
《特征工程三部曲》之二:特征选择
摘要:什么特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。... 阅读全文
posted @ 2017-10-26 15:47 朱元禄 阅读(645) 评论(0) 推荐(0)
《特征工程三部曲》之一:数据处理
摘要:要理解特征工程,首先要理解数据(Data)和特征(Feature)的概念概念特征工程(Feature Engineering)其本质上是一项工程活动,它目的是最大限度地从原始数据中提取特征以供算法和模型使用。 特征工程在数据挖掘中有举足轻重的位置 数据领域一致认... 阅读全文
posted @ 2017-10-23 16:02 朱元禄 阅读(266) 评论(0) 推荐(0)
《特征工程三部曲》之一:数据处理
摘要:要理解特征工程,首先要理解数据(Data)和特征(Feature)的概念概念特征工程(Feature Engineering)其本质上是一项工程活动,它目的是最大限度地从原始数据中提取特征以供算法和模型使用。 特征工程在数据挖掘中有举足轻重的位置 数据领域一致认... 阅读全文
posted @ 2017-10-23 16:02 朱元禄 阅读(629) 评论(0) 推荐(0)
数据挖掘之提取关键词
摘要:关键词关键词快速了解文档内容、把握主题的重要方式。广泛应用到新闻报道、科技论文等领域,以方便人们高效的管理和检索文档一篇文档的关键词一般是几个词或短语,作为对该文档主要内容的提要一个简单的关键词提取举例使用jieba包中的extract_tags方法 ... 阅读全文
posted @ 2017-10-06 12:12 朱元禄 阅读(227) 评论(0) 推荐(0)
数据挖掘之提取关键词
摘要:关键词关键词快速了解文档内容、把握主题的重要方式。广泛应用到新闻报道、科技论文等领域,以方便人们高效的管理和检索文档一篇文档的关键词一般是几个词或短语,作为对该文档主要内容的提要一个简单的关键词提取举例使用jieba包中的extract_tags方法 ... 阅读全文
posted @ 2017-10-06 12:12 朱元禄 阅读(584) 评论(0) 推荐(0)
Python地理信息数据可视化
摘要:地图基础铺垫定义地图(map):是指按一定的比例运用符号、颜色、文字标记等描绘显示地球表面的自然地理、行政区域、社会经济状况的图形。地图绘制步骤绘制需要展示的地图,获取地图对象,获取每个区域的名字及顺序;在每个区域的名字和顺序后面,加上我们需要展示的数据以及经纬度;根... 阅读全文
posted @ 2017-10-04 20:53 朱元禄 阅读(2069) 评论(0) 推荐(0)
Python地理信息数据可视化
摘要:地图基础铺垫定义地图(map):是指按一定的比例运用符号、颜色、文字标记等描绘显示地球表面的自然地理、行政区域、社会经济状况的图形。地图绘制步骤绘制需要展示的地图,获取地图对象,获取每个区域的名字及顺序;在每个区域的名字和顺序后面,加上我们需要展示的数据以及经纬度;根... 阅读全文
posted @ 2017-10-04 20:53 朱元禄 阅读(350) 评论(0) 推荐(0)
Python数据可视化
摘要:散点图基础铺垫定义散点图(scatter diagram):是以一个变量为横坐标,另一个变量为纵坐标,利用散点(坐标点)的分布形态反映变量关系的一种图形。它是探索数值型变量数据关系的有力工具;散点图直观简便,不仅可传递变量间关系类型的信息,也能反映变量间关系的明确程度... 阅读全文
posted @ 2017-10-03 14:59 朱元禄 阅读(708) 评论(0) 推荐(0)
Python数据可视化
摘要:散点图基础铺垫定义散点图(scatter diagram):是以一个变量为横坐标,另一个变量为纵坐标,利用散点(坐标点)的分布形态反映变量关系的一种图形。它是探索数值型变量数据关系的有力工具;散点图直观简便,不仅可传递变量间关系类型的信息,也能反映变量间关系的明确程度... 阅读全文
posted @ 2017-10-03 14:59 朱元禄 阅读(523) 评论(0) 推荐(0)