08 2018 档案

摘要:一.方法简介 决策树是一种基本的分类与回归方法,这里主要介绍用于分类的决策树。决策树模式呈树形结构,其中每 个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一个类别。学习时利用 训练数据,根据损失函数最小化的原则建立决策树模型;预测时,对新的数据,利用决策树模型进行分类 二. 阅读全文
posted @ 2018-08-23 17:13 Bean_zheng 阅读(3671) 评论(0) 推荐(0)
摘要:逻辑斯蒂回归: 逻辑斯蒂回归是统计学习中的经典分类方法,属于对数线性模型。logistic回归的因变量可以是二分类的, 也可以是多分类的 基本原理 logistic 分布 折X是连续的随机变量,X服从logistic分布是指X具有下列分布函数和密度函数: 其中为位置参数,为形状参数。与图像如下,其中 阅读全文
posted @ 2018-08-22 13:24 Bean_zheng 阅读(2697) 评论(0) 推荐(0)
摘要:特征选择(Feature Selection)指的是在特征向量中选择出那些“优秀”的特征,组成新的、更“精简”的特征向量的过程。它在 高维数据分析中十分常用,可以剔除掉“冗余”和“无关”的特征,提升学习器的性能。特征选择方法和分类方法一样,也主要分为有监督(Supervised)和无监督(Unsup 阅读全文
posted @ 2018-08-17 12:00 Bean_zheng 阅读(967) 评论(0) 推荐(0)
摘要:之前介绍的StringIndexer是针对单个类别型特征进行转换,倘若所有特征都已经被组织在一个向量中 ,又想对其中某些单个分量进行处理时,Spark ML提供了VectorIndexer类来解决向量数据集中的类别 性特征转换。通过为其提供maxCategories超参数,它可以自动识别哪些特征是类 阅读全文
posted @ 2018-08-17 11:53 Bean_zheng 阅读(1285) 评论(0) 推荐(0)
摘要:​独热编码(One-Hot Encoding) 是指把一列类别性特征(或称名词性特征,nominal/categorical features)映射成一系列的二元 连续特征的过程,原有的类别性特征有几种可能取值,这一特征就会被映射成几个二元连续特征,每一个特征代表一种取值,若该样 本表现出该特征,则 阅读全文
posted @ 2018-08-17 11:46 Bean_zheng 阅读(2444) 评论(0) 推荐(0)
摘要:与StringIndexer相对应,IndexToString的作用是把标签索引的一列重新映射回原有的字符型标签。 其主要使用场景一般都是和StringIndexer配合,先用StringIndexer将标签转化成标签索引,进行模 型训练,然后在预测标签的时候再把标签索引转化成原有的字符标签。当然, 阅读全文
posted @ 2018-08-17 11:33 Bean_zheng 阅读(916) 评论(0) 推荐(0)
摘要:在机器学习处理过程中,为了方便相关算法的实现,经常需要把标签数据(一般是字符串)转化成整数 索引,或是在计算结束后将整数索引还原为相应的标签。 ​StringIndexer转换器可以把一列类别型的特征(或标签)进行编码,使其数值化,索引的 范围从0开始,该过程可以使得相应的特征索引化,使得某些无法接 阅读全文
posted @ 2018-08-17 11:26 Bean_zheng 阅读(2941) 评论(0) 推荐(1)
摘要:CountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时, Countvectorizer作为Estimator提取词汇进行训练,并生成一个CountVectorizerModel 用于存储相应的词汇向量空间。该模型产生文档关于词语的稀疏表示,其表示可以传递给其他算法,例 阅读全文
posted @ 2018-08-16 10:41 Bean_zheng 阅读(1001) 评论(0) 推荐(0)
摘要:#导入相关的库 from pyspark.ml.feature import Word2Vec from pyspark.sql import SparkSession #配置spark spark = SparkSession.builder.master("local").appName("Wo 阅读全文
posted @ 2018-08-16 10:40 Bean_zheng 阅读(917) 评论(0) 推荐(0)
摘要:FTP服务器搭建: 这里直接贴一老哥的链接:https://blog.csdn.net/lj402159806/article/details/78209103 非常感谢 安装vsftpd 1 配置参数 命令行输入 使用如下配置 配置说明 anonymous_enable=NO 拒绝匿名登陆 wri 阅读全文
posted @ 2018-08-15 15:03 Bean_zheng 阅读(976) 评论(0) 推荐(0)
摘要:创建实验数据: from pyspark import SparkContext import random OutputFile = "file:///usr/local/spark/mycode/exercise/people" sc = SparkContext('local','create 阅读全文
posted @ 2018-08-14 11:24 Bean_zheng 阅读(875) 评论(0) 推荐(0)
摘要:自动生成实验数据: 自动生成1000个样例数据 from pyspark import SparkContext,SparkConf import random def getRandomGender(): rand = random.randint(0,2)+1 if rand % 2 ==0: 阅读全文
posted @ 2018-08-13 11:41 Bean_zheng 阅读(713) 评论(0) 推荐(0)
摘要:特征处理相关的算法,大体分为以下三类: 特征抽取:从原始数据中抽取特征 特征转换:特征的维度、特征的转化、特征的修改 特征选取:从大规模特征集中选取一个子集 #导入相关的库 from pyspark.ml.feature import HashingTF,IDF,Tokenizer from pys 阅读全文
posted @ 2018-08-12 11:07 Bean_zheng 阅读(295) 评论(0) 推荐(0)
摘要:#导入相关库 from pyspark import SparkContext from pyspark.sql import SparkSession from pyspark.ml import Pipeline from pyspark.ml.classification import Log 阅读全文
posted @ 2018-08-11 12:07 Bean_zheng 阅读(346) 评论(0) 推荐(0)
摘要:<?xml version="1.0" encoding="utf-8"?> <beans --整个配置文件的根节点,包含一个或多个bean元素 xmlns= --最基本的命名空间定义 xmlns:xsi= --最基本的命名空间定义 xmlns:context= --启动自动扫描或注解装配时的,命名 阅读全文
posted @ 2018-08-10 09:35 Bean_zheng 阅读(507) 评论(0) 推荐(0)
摘要:程序就开始运行,就可以看到类似下面的结果: 阅读全文
posted @ 2018-08-09 16:36 Bean_zheng 阅读(195) 评论(0) 推荐(0)
摘要:在nc第一个终端窗口窗口中随意输入一些单词,监听窗口就会自动获得单词数据流信息,在监听窗口每隔1秒就会打印出词频统计信息,大概会再屏幕上出现类似如下的结果: 阅读全文
posted @ 2018-08-09 16:34 Bean_zheng 阅读(234) 评论(0) 推荐(0)
摘要:#导入库 from operator import add from pyspark import SparkContext, SparkConf from pyspark.streaming import StreamingContext #配置创建StreamingContext对象 conf 阅读全文
posted @ 2018-08-09 16:27 Bean_zheng 阅读(708) 评论(0) 推荐(0)
摘要:##按照hadoop的思想胡乱搞了一下,但是结果不对。。。。 ##需要再思考 from pyspark import SparkContext sc = SparkContext('local','STJoin') rdd = sc.textFile("file:///usr/local/spark 阅读全文
posted @ 2018-08-04 10:48 Bean_zheng 阅读(203) 评论(0) 推荐(0)
摘要:#原理很简单:先是通过flatMap函数,把rdd进行扁平化操作,再用map函数得到(k,1)的样式,然后再用groupByKey函数,合并value值,就相当于对key进行去重操作,再用keys()函数,取出key 实验数据:delcp.txt hello hello world world h 阅读全文
posted @ 2018-08-03 09:53 Bean_zheng 阅读(6117) 评论(1) 推荐(0)
摘要:##由于才开始学,此做法为只为结果,不为过程型 实验数据: math.txt: English.txt: Ben 98 Ben 89 Bean 99 Bean 98 Harry 89 Harry 78 Sam 79 Sam 87 Tom 80 Tom 80 from pyspark import S 阅读全文
posted @ 2018-08-02 15:03 Bean_zheng 阅读(691) 评论(0) 推荐(0)
摘要:#直接调用sortByKey()函数就可以做到 from pyspark import SparkContext sc = SparkContext('local','Sort') list = ["7","4","8","2","5"] textFile = sc.parallelize(list 阅读全文
posted @ 2018-08-01 12:15 Bean_zheng 阅读(551) 评论(0) 推荐(0)
摘要:#基于python的spark #导入pyspark库 from pyspark import SparkContext #配置SparkContext sc = SparkContext('local','wordcount') #创建一个新的RDD,加载本地文件 textFile = sc.te 阅读全文
posted @ 2018-08-01 11:01 Bean_zheng 阅读(608) 评论(0) 推荐(0)