随笔档案「2018年8月」 - Bean_zheng

决策树分类器

摘要：一.方法简介决策树是一种基本的分类与回归方法，这里主要介绍用于分类的决策树。决策树模式呈树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一个类别。学习时利用训练数据，根据损失函数最小化的原则建立决策树模型；预测时，对新的数据，利用决策树模型进行分类二. 阅读全文

posted @ 2018-08-23 17:13 Bean_zheng 阅读(3671) 评论(0) 推荐(0)

用二项逻辑斯蒂回归解决二分类问题

摘要：逻辑斯蒂回归: 逻辑斯蒂回归是统计学习中的经典分类方法，属于对数线性模型。logistic回归的因变量可以是二分类的，也可以是多分类的基本原理 logistic 分布折X是连续的随机变量，X服从logistic分布是指X具有下列分布函数和密度函数: 其中为位置参数，为形状参数。与图像如下，其中阅读全文

posted @ 2018-08-22 13:24 Bean_zheng 阅读(2697) 评论(0) 推荐(0)

特征选取--卡方选择器

摘要：特征选择（Feature Selection）指的是在特征向量中选择出那些“优秀”的特征，组成新的、更“精简”的特征向量的过程。它在高维数据分析中十分常用，可以剔除掉“冗余”和“无关”的特征，提升学习器的性能。特征选择方法和分类方法一样，也主要分为有监督（Supervised）和无监督（Unsup 阅读全文

posted @ 2018-08-17 12:00 Bean_zheng 阅读(967) 评论(0) 推荐(0)

特征抽取--标签与索引的转化: VectorIndexer

摘要：之前介绍的StringIndexer是针对单个类别型特征进行转换，倘若所有特征都已经被组织在一个向量中，又想对其中某些单个分量进行处理时，Spark ML提供了VectorIndexer类来解决向量数据集中的类别性特征转换。通过为其提供maxCategories超参数，它可以自动识别哪些特征是类阅读全文

posted @ 2018-08-17 11:53 Bean_zheng 阅读(1285) 评论(0) 推荐(0)

特征抽取--标签与索引的转化: OneHotEncoder

摘要：独热编码（One-Hot Encoding）是指把一列类别性特征（或称名词性特征，nominal/categorical features）映射成一系列的二元连续特征的过程，原有的类别性特征有几种可能取值，这一特征就会被映射成几个二元连续特征，每一个特征代表一种取值，若该样本表现出该特征，则阅读全文

posted @ 2018-08-17 11:46 Bean_zheng 阅读(2444) 评论(0) 推荐(0)

特征抽取--标签与索引的转化: IndexToString

摘要：与StringIndexer相对应，IndexToString的作用是把标签索引的一列重新映射回原有的字符型标签。其主要使用场景一般都是和StringIndexer配合，先用StringIndexer将标签转化成标签索引，进行模型训练，然后在预测标签的时候再把标签索引转化成原有的字符标签。当然，阅读全文

posted @ 2018-08-17 11:33 Bean_zheng 阅读(916) 评论(0) 推荐(0)

特征抽取--标签与索引的转化: StringIndexer

摘要：在机器学习处理过程中，为了方便相关算法的实现，经常需要把标签数据（一般是字符串）转化成整数索引，或是在计算结束后将整数索引还原为相应的标签。 StringIndexer转换器可以把一列类别型的特征（或标签）进行编码，使其数值化，索引的范围从0开始，该过程可以使得相应的特征索引化，使得某些无法接阅读全文

posted @ 2018-08-17 11:26 Bean_zheng 阅读(2941) 评论(0) 推荐(1)

特征抽取---CountVectorizer

摘要：CountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时， Countvectorizer作为Estimator提取词汇进行训练，并生成一个CountVectorizerModel 用于存储相应的词汇向量空间。该模型产生文档关于词语的稀疏表示，其表示可以传递给其他算法，例阅读全文

posted @ 2018-08-16 10:41 Bean_zheng 阅读(1001) 评论(0) 推荐(0)

特征抽取----Word2Vec

摘要：#导入相关的库 from pyspark.ml.feature import Word2Vec from pyspark.sql import SparkSession #配置spark spark = SparkSession.builder.master("local").appName("Wo 阅读全文

posted @ 2018-08-16 10:40 Bean_zheng 阅读(917) 评论(0) 推荐(0)

实现从windos到linux的文件传输----ftp服务器

摘要：FTP服务器搭建: 这里直接贴一老哥的链接：https://blog.csdn.net/lj402159806/article/details/78209103 非常感谢安装vsftpd 1 配置参数命令行输入使用如下配置配置说明 anonymous_enable=NO 拒绝匿名登陆 wri 阅读全文

posted @ 2018-08-15 15:03 Bean_zheng 阅读(976) 评论(0) 推荐(0)

计算人口平均年龄

摘要：创建实验数据: from pyspark import SparkContext import random OutputFile = "file:///usr/local/spark/mycode/exercise/people" sc = SparkContext('local','create 阅读全文

posted @ 2018-08-14 11:24 Bean_zheng 阅读(875) 评论(0) 推荐(0)

统计人口性别和身高

摘要：自动生成实验数据: 自动生成1000个样例数据 from pyspark import SparkContext,SparkConf import random def getRandomGender(): rand = random.randint(0,2)+1 if rand % 2 ==0: 阅读全文

posted @ 2018-08-13 11:41 Bean_zheng 阅读(713) 评论(0) 推荐(0)

特征抽取 — TF-IDF

摘要：特征处理相关的算法，大体分为以下三类：特征抽取：从原始数据中抽取特征特征转换：特征的维度、特征的转化、特征的修改特征选取：从大规模特征集中选取一个子集 #导入相关的库 from pyspark.ml.feature import HashingTF,IDF,Tokenizer from pys 阅读全文

posted @ 2018-08-12 11:07 Bean_zheng 阅读(295) 评论(0) 推荐(0)

构建机器学习工作流

摘要：#导入相关库 from pyspark import SparkContext from pyspark.sql import SparkSession from pyspark.ml import Pipeline from pyspark.ml.classification import Log 阅读全文

posted @ 2018-08-11 12:07 Bean_zheng 阅读(346) 评论(0) 推荐(0)

applicationContext配置文件模板

摘要：<?xml version="1.0" encoding="utf-8"?> <beans --整个配置文件的根节点，包含一个或多个bean元素 xmlns= --最基本的命名空间定义 xmlns:xsi= --最基本的命名空间定义 xmlns:context= --启动自动扫描或注解装配时的，命名阅读全文

posted @ 2018-08-10 09:35 Bean_zheng 阅读(507) 评论(0) 推荐(0)

创建RDD队列流

摘要：程序就开始运行，就可以看到类似下面的结果：阅读全文

posted @ 2018-08-09 16:36 Bean_zheng 阅读(195) 评论(0) 推荐(0)

Spark套接字监听

摘要：在nc第一个终端窗口窗口中随意输入一些单词，监听窗口就会自动获得单词数据流信息，在监听窗口每隔1秒就会打印出词频统计信息，大概会再屏幕上出现类似如下的结果：阅读全文

posted @ 2018-08-09 16:34 Bean_zheng 阅读(234) 评论(0) 推荐(0)

Streaming监控指定文件夹文件内容变化

摘要：#导入库 from operator import add from pyspark import SparkContext, SparkConf from pyspark.streaming import StreamingContext #配置创建StreamingContext对象 conf 阅读全文

posted @ 2018-08-09 16:27 Bean_zheng 阅读(708) 评论(0) 推荐(0)

用Spark做单表关联

摘要：##按照hadoop的思想胡乱搞了一下，但是结果不对。。。。 ##需要再思考 from pyspark import SparkContext sc = SparkContext('local','STJoin') rdd = sc.textFile("file:///usr/local/spark 阅读全文

posted @ 2018-08-04 10:48 Bean_zheng 阅读(203) 评论(0) 推荐(0)

用Spark做去重操作

摘要：#原理很简单：先是通过flatMap函数，把rdd进行扁平化操作，再用map函数得到(k,1)的样式，然后再用groupByKey函数，合并value值，就相当于对key进行去重操作，再用keys()函数，取出key 实验数据：delcp.txt hello hello world world h 阅读全文

posted @ 2018-08-03 09:53 Bean_zheng 阅读(6117) 评论(1) 推荐(0)

用Spark做求平均成绩算法

摘要：##由于才开始学，此做法为只为结果，不为过程型实验数据: math.txt: English.txt: Ben 98 Ben 89 Bean 99 Bean 98 Harry 89 Harry 78 Sam 79 Sam 87 Tom 80 Tom 80 from pyspark import S 阅读全文

posted @ 2018-08-02 15:03 Bean_zheng 阅读(691) 评论(0) 推荐(0)

用Spark做key排序

摘要：#直接调用sortByKey()函数就可以做到 from pyspark import SparkContext sc = SparkContext('local','Sort') list = ["7","4","8","2","5"] textFile = sc.parallelize(list 阅读全文

posted @ 2018-08-01 12:15 Bean_zheng 阅读(551) 评论(0) 推荐(0)

用Spark做wordcount

摘要：#基于python的spark #导入pyspark库 from pyspark import SparkContext #配置SparkContext sc = SparkContext('local','wordcount') #创建一个新的RDD，加载本地文件 textFile = sc.te 阅读全文

posted @ 2018-08-01 11:01 Bean_zheng 阅读(608) 评论(0) 推荐(0)

Bean_zheng

08 2018 档案

公告