Python+Spark2.0+hadoop学习笔记——Python Spark MLlib决策树回归
摘要:机器学习领域中分类方法和回归方法是相对的,大多数的方法可以相互转换,即一般的机器学习方法如果可以分类的话,也会可以做回归预测。在本例的回归方法中,使用的评价指标是RMSE。 第一步:导入数据库 import sysfrom time import timeimport pandas as pdimp
阅读全文
posted @
2020-04-06 15:30
桌子哥
阅读(429)
推荐(0)
Python+Spark2.0+hadoop学习笔记——Python Spark MLlib Decision Tree MultiClassification多分类
摘要:二分类分类器大多可以用来进行开展多分类的问题,这篇以决策树为例来介绍Spark里MLlib的多分类问题实例,在这一篇中使用的评价指标是Accuracy。 第一步:导入库函数 import sysfrom time import timeimport pandas as pdimport matplo
阅读全文
posted @
2020-04-05 23:30
桌子哥
阅读(453)
推荐(0)
Python+Spark2.0+hadoop学习笔记——Python Spark MLlib Naive Bayes二分类
摘要:朴素贝叶斯是一种经典的分类方法,其原理在高中或大学的概率论部分学习了很多了,下面开始介绍在Spark环境下使用MLlib来使用Naive Bayes来对网站性质进行分类判断。 第一步:导入库函数 import sysfrom time import timeimport pandas as pdim
阅读全文
posted @
2020-04-03 22:57
桌子哥
阅读(293)
推荐(0)
Python+Spark2.0+hadoop学习笔记——Python Spark MLlib支持向量机二分类
摘要:支持向量机是一个应用很广的机器学习模型,利用核空间变换可以将数据从一个空间变换到另外一个空间当中,从而使得数据呈现出更清晰的分布。支持向量机不论是在工业界还是在学界都有举足亲重的意义,在学界,基于支持向量机的改进方法有很多,通过算法层面的改进可以得到一种针对特定数据情况的优质算法,从而能更好的解决实
阅读全文
posted @
2020-04-03 17:16
桌子哥
阅读(623)
推荐(0)
Python+Spark2.0+hadoop学习笔记——Python Spark MLlib逻辑斯蒂回归二分类
摘要:同上一部分的内容,在进行二分类问题时,逻辑斯蒂回归也是一种常用的分类方法。逻辑斯蒂回归使用了一个Sigmoid函数来作为核心的内容来实现分类的思想,接下里介绍在Pyspark中使用MLlib来实现逻辑斯蒂回归。 第一步:导入需要的库函数 import sysfrom time import time
阅读全文
posted @
2020-04-03 15:47
桌子哥
阅读(491)
推荐(0)
Python+Spark2.0+hadoop学习笔记——Python Spark MLlib决策树二分类
摘要:决策树是在数据分类问题中的一种常用且经典的机器学习方法,在本例里使用决策树模型来分析StumbleUpon数据集,来预测网页是暂时的(ephemeral)还是长青的(evergreen),并且调教参数找出最佳的参数组合,来提高预测准确度。 像这类经典的二分类问题,在python中调包来做的话会非常容
阅读全文
posted @
2020-04-02 21:58
桌子哥
阅读(626)
推荐(0)
Python+Spark2.0+hadoop学习笔记——实战之推荐引擎
摘要:推荐引擎是最常见的机器学习应用,在spark中,Spark MLlib支持ALS(Alternating Least Squares)推荐算法,是机器学习的协同过滤推荐算法。机器学习的协同过滤推荐算法用过观察所有用户给产品的评价来推断每个用户的喜好,并向用户推荐适合的多个产品,也可以把某一个产品推荐
阅读全文
posted @
2020-04-01 14:20
桌子哥
阅读(551)
推荐(0)
Python+Spark2.0+hadoop学习笔记——Python Spark RDD
摘要:Spark的核心是RDD(弹性分布式数据集),是由AMPLab实验室提出的概念,属于一种分布式的内存系统数据集应用。Spark的主要优势来自RDD本身的特性,RDD能与其他系统兼容,可以导入外部存储系统数据,例如HDFS、HBase或者其他Hadoop数据源。 RDD的3种基本运算: 1)“转换“运
阅读全文
posted @
2020-03-31 17:32
桌子哥
阅读(502)
推荐(0)
Python+Spark2.0+hadoop学习笔记——pyspark基础
摘要:在历经千辛万苦后,终于把所有的东西都配置好了。 下面开始介绍pyspark的一些基础内容,以字数统计为例。 1)在本地运行pyspark程序 读取本地文件 textFile=sc.textFile("file:/usr/local/spark/README.md") textFile.count()
阅读全文
posted @
2020-03-31 10:47
桌子哥
阅读(1560)
推荐(0)
Python+Spark2.0+hadoop学习笔记——Hadoop MapReduce
摘要:MapReduce是一种程序开发模式,可以使用大量服务器来并行处理。MapReduce,就是Map分配工作,Reduce将工作结果汇总整理。 本次之中以WordCount为范例,计算文件中每一个英文单词出现的次数。 1)创建wordcount目录 mkdir -p ~/wordcount/input
阅读全文
posted @
2020-03-27 18:46
桌子哥
阅读(366)
推荐(0)
Python+Spark2.0+hadoop学习笔记——Hadoop HDFS命令
摘要:历经千辛万苦,终于把Ubuntu和Hadoop安装好了,过程很繁琐也很费时间,在这里就不展开讲述了。 下面将开始介绍Hadoop HDFS命令。 HDFS命令格式如下: hadoop fs -命令 1)常用的HDFS命令: hadoop fs -mkdir 创建HDFS目录 hadoop fs -l
阅读全文
posted @
2020-03-27 15:57
桌子哥
阅读(428)
推荐(0)
Python+Spark2.0+hadoop学习笔记——VirtualBox虚拟机软件的安装
摘要:我在硕士期间的课题做的是狭义上的一种大数据分析,在学校里的大数据不是实际生产中的大数据量级。因此学校里的大数据分析使用单机来使用一系列的机器学习方法进行处理就绰绰有余了,但是想在大数据领域有更好更全面的发展,获得更为综合性的知识,需要学习Spark和Hadoop。 接到正题,因为Hadoop最主要是
阅读全文
posted @
2020-03-25 16:30
桌子哥
阅读(249)
推荐(0)