随笔分类 -  Spark

摘要:此程序功能: 1.完成对10.4G.csv文件各个元素频率的统计 2.获得最大的统计个数 3.对获取到的统计个数进行降序排列 4.对各个元素出现次数频率的统计 数据内容: Spark 保存的文件是这样的: 这里可以用一个脚本将这么多的文件进行合并: 结果太多只写一个: 获取统计的最大数2948874 阅读全文
posted @ 2018-03-24 20:20 soyosuyang 阅读(1459) 评论(0) 推荐(0)
摘要:Spark 机器学习库从 1.2 版本以后被分为两个包: spark.mllib 包含基于RDD的原始算法API。Spark MLlib 历史比较长,在1.0 以前的版本即已经包含了,提供的算法实现都是基于原始的RDD。 spark.ml 则提供了基于DataFrames 高层次的API,可以用来构 阅读全文
posted @ 2017-12-09 13:30 soyosuyang 阅读(1294) 评论(1) 推荐(0)
摘要:1.启动Hadoop,hive,mysql 2.在mysql中建表(需要导入数据的) 选中要被导出的数据: 3.使用Sqoop将数据从Hive导入MySQL 阅读全文
posted @ 2017-12-05 18:35 soyosuyang 阅读(7096) 评论(0) 推荐(0)
摘要:1.下载:https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.6/ sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 2.解压 3.修改文件名+给文件夹附权限 4.修改配置文件sqoop-env.sh cd 阅读全文
posted @ 2017-12-05 16:54 soyosuyang 阅读(1332) 评论(0) 推荐(0)
摘要:hive 内部表: hive> create table soyo55(name STRING,addr STRING,money STRING) row format delimited fields terminated by ',' stored as textfile; hive> load 阅读全文
posted @ 2017-12-05 15:32 soyosuyang 阅读(515) 评论(0) 推荐(0)
摘要:Spark 分布式环境:master,worker 节点都配置好的情况下 : 却无法通过spark-shell连接到 独立集群管理器 spark-shell --master spark://soyo-VPCCB3S1C:7077 问题处理: 原因:因为前期在非分布式情况下使用Spark通过JDBC 阅读全文
posted @ 2017-11-30 19:53 soyosuyang 阅读(267) 评论(0) 推荐(0)
摘要:soyo@soyo-VPCCB3S1C:~$ start-slaves.sh soyo-slave01: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local2/spark/logs/spark-soyo-org. 阅读全文
posted @ 2017-11-30 17:42 soyosuyang 阅读(3988) 评论(0) 推荐(0)
摘要:集群机器: 1台 装了 ubuntu 14.04的 台式机 1台 装了ubuntu 16.04 的 笔记本 (机器更多时同样适用) 1.需要安装好Hadoop分布式环境 参照:Hadoop分类 -->http://www.cnblogs.com/soyo/p/7868282.html 2.安装Spa 阅读全文
posted @ 2017-11-28 19:16 soyosuyang 阅读(650) 评论(0) 推荐(0)
摘要:package Spark_GraphX import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.graphx._ import org.apache.spark.graphx.util.GraphGenerators /** * 计算每一个用户的追随者数量和追随者的平均年龄 */ objec... 阅读全文
posted @ 2017-11-24 15:45 soyosuyang 阅读(626) 评论(0) 推荐(0)
摘要:1.集群机器: 1台 装了 ubuntu 14.04的 台式机 1台 装了ubuntu 16.04 的 笔记本 (机器更多时同样适用) 搭建步骤: 准备工作: 使两台机器处于同一个局域网:相互能够 ping 通 主机名称 IP地址soyo-VPCCB3S1C 192.168.1.130 (maste 阅读全文
posted @ 2017-11-20 21:13 soyosuyang 阅读(232) 评论(0) 推荐(0)
摘要:结果: 阅读全文
posted @ 2017-11-19 16:20 soyosuyang 阅读(850) 评论(0) 推荐(0)
摘要:结果: 阅读全文
posted @ 2017-11-19 14:49 soyosuyang 阅读(972) 评论(0) 推荐(1)
摘要:问题处理: 在IDEA Spark程序中需要操作Hbase时,需要:start-hbase.sh 启动Hbase服务。不然就会报以上错误 阅读全文
posted @ 2017-11-19 14:38 soyosuyang 阅读(1316) 评论(0) 推荐(0)
摘要:版权声明:本文为博主原创文章,转载或者引用请务必注明作者和出处,谢谢!线性回归:训练数据中特征是单个,但特征值可以是多个y=wx+b (w: 是单个值)多元线性回归:训练数据中特征数量是多个y=W1X1+W2X2+W3X3+...+b或表示为:y=Wx+b(W:w1,w2,w3.....组成的向量的 阅读全文
posted @ 2017-11-15 13:50 soyosuyang 阅读(1251) 评论(0) 推荐(0)
摘要:结果: 阅读全文
posted @ 2017-11-14 19:56 soyosuyang 阅读(1607) 评论(0) 推荐(0)
摘要:结果: *****************找到图中属性是student的点soyo is student 找到途中边的属性是advisor的边5 to 3 属性为 advisor 找到图中的最大出度,入度,度数最大的出度:(5,2)最大的入度:(7,2)最大的度数:(5,3) 阅读全文
posted @ 2017-11-13 20:25 soyosuyang 阅读(179) 评论(0) 推荐(0)
摘要:package Spark_MLlib import org.apache.spark.ml.{Pipeline, PipelineModel} import org.apache.spark.ml.classification.{LogisticRegression, LogisticRegressionModel} import org.apache.spark.ml.evaluation... 阅读全文
posted @ 2017-11-13 16:07 soyosuyang 阅读(2286) 评论(0) 推荐(0)
摘要:结果: 阅读全文
posted @ 2017-11-12 16:20 soyosuyang 阅读(638) 评论(0) 推荐(0)
摘要:结果: + +| features|+ +|[5.1,3.5,1.4,0.2]||[4.9,3.0,1.4,0.2]||[4.7,3.2,1.3,0.2]||[4.6,3.1,1.5,0.2]||[5.0,3.6,1.4,0.2]||[5.4,3.9,1.7,0.4]||[4.6,3.4,1.4,0 阅读全文
posted @ 2017-11-10 14:59 soyosuyang 阅读(493) 评论(0) 推荐(0)
摘要:问题1. IDEA 中Kafa_Producer程序数据输出缓慢 但不报错 问题2. Kafa_Consumer程序报错: 17/11/10 11:31:11 ERROR ReceiverTracker: Deregistered receiver for stream 0: Error start 阅读全文
posted @ 2017-11-10 11:38 soyosuyang 阅读(1294) 评论(0) 推荐(0)