Spark - 随笔分类 - soyosuyang

Spark 大数据文本统计

摘要：此程序功能：１．完成对10.４G.csv文件各个元素频率的统计２．获得最大的统计个数３．对获取到的统计个数进行降序排列４．对各个元素出现次数频率的统计数据内容： Spark 保存的文件是这样的：这里可以用一个脚本将这么多的文件进行合并：结果太多只写一个：获取统计的最大数2948874 阅读全文

posted @ 2018-03-24 20:20 soyosuyang 阅读(1462) 评论(0) 推荐(0)

Spark SVM分类器

摘要：Spark 机器学习库从 1.2 版本以后被分为两个包： spark.mllib 包含基于RDD的原始算法API。Spark MLlib 历史比较长，在1.0 以前的版本即已经包含了，提供的算法实现都是基于原始的RDD。 spark.ml 则提供了基于DataFrames 高层次的API,可以用来构阅读全文

posted @ 2017-12-09 13:30 soyosuyang 阅读(1301) 评论(1) 推荐(0)

将数据从数据仓库Hive导入到MySQL

摘要：1.启动Hadoop，hive，mysql 2.在mysql中建表（需要导入数据的）选中要被导出的数据： 3.使用Sqoop将数据从Hive导入MySQL 阅读全文

posted @ 2017-12-05 18:35 soyosuyang 阅读(7104) 评论(0) 推荐(0)

ubuntu 16.04 Sqoop 安装

摘要：1.下载：https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.6/ sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 2.解压 3.修改文件名+给文件夹附权限 4.修改配置文件sqoop-env.sh cd 阅读全文

posted @ 2017-12-05 16:54 soyosuyang 阅读(1339) 评论(0) 推荐(0)

hive 内部表与外部表的区别

摘要：hive 内部表： hive> create table soyo55(name STRING,addr STRING,money STRING) row format delimited fields terminated by ',' stored as textfile; hive> load 阅读全文

posted @ 2017-12-05 15:32 soyosuyang 阅读(521) 评论(0) 推荐(0)

Spark 分布式环境--连接独立集群管理器

摘要：Spark 分布式环境：master，worker 节点都配置好的情况下：却无法通过spark-shell连接到独立集群管理器 spark-shell --master spark://soyo-VPCCB3S1C:7077 问题处理：原因：因为前期在非分布式情况下使用Spark通过JDBC 阅读全文

posted @ 2017-11-30 19:53 soyosuyang 阅读(270) 评论(0) 推荐(0)

Spark 分布式环境---slave节点无法启动（已解决）

摘要：soyo@soyo-VPCCB3S1C:~$ start-slaves.sh soyo-slave01: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local2/spark/logs/spark-soyo-org. 阅读全文

posted @ 2017-11-30 17:42 soyosuyang 阅读(3997) 评论(0) 推荐(0)

Spark 2.2.0 分布式集群环境搭建

摘要：集群机器： 1台装了 ubuntu 14.04的台式机 1台装了ubuntu 16.04 的笔记本（机器更多时同样适用） 1.需要安装好Hadoop分布式环境参照：Hadoop分类 -->http://www.cnblogs.com/soyo/p/7868282.html 2.安装Spa 阅读全文

posted @ 2017-11-28 19:16 soyosuyang 阅读(655) 评论(0) 推荐(0)

Spark GraphX 聚合操作

摘要：package Spark_GraphX import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.graphx._ import org.apache.spark.graphx.util.GraphGenerators /** * 计算每一个用户的追随者数量和追随者的平均年龄 */ objec... 阅读全文

posted @ 2017-11-24 15:45 soyosuyang 阅读(630) 评论(0) 推荐(0)

Hadoop 分布式环境搭建

摘要：1.集群机器： 1台装了 ubuntu 14.04的台式机 1台装了ubuntu 16.04 的笔记本（机器更多时同样适用）搭建步骤：准备工作：使两台机器处于同一个局域网：相互能够 ping 通主机名称 IP地址soyo-VPCCB3S1C 192.168.1.130 （maste 阅读全文

posted @ 2017-11-20 21:13 soyosuyang 阅读(236) 评论(0) 推荐(0)

IDEA中Spark往Hbase中写数据

摘要：结果：阅读全文

posted @ 2017-11-19 16:20 soyosuyang 阅读(854) 评论(0) 推荐(0)

IDEA中Spark读Hbase中的数据

摘要：结果：阅读全文

posted @ 2017-11-19 14:49 soyosuyang 阅读(974) 评论(0) 推荐(1)

IDEA中 Spark 读Hbase 报错处理：

摘要：问题处理：在IDEA Spark程序中需要操作Hbase时，需要:start-hbase.sh 启动Hbase服务。不然就会报以上错误阅读全文

posted @ 2017-11-19 14:38 soyosuyang 阅读(1319) 评论(0) 推荐(0)

最直白的线性回归，多元线性回归，正则化项的理解

posted @ 2017-11-15 13:50 soyosuyang 阅读(1258) 评论(0) 推荐(0)

Spark GraphX 属性图操作

摘要：结果：阅读全文

posted @ 2017-11-14 19:56 soyosuyang 阅读(1616) 评论(0) 推荐(0)

Spark GraphX

摘要：结果： *****************找到图中属性是student的点soyo is student 找到途中边的属性是advisor的边5 to 3 属性为 advisor 找到图中的最大出度,入度,度数最大的出度:(5,2)最大的入度:(7,2)最大的度数:(5,3) 阅读全文

posted @ 2017-11-13 20:25 soyosuyang 阅读(184) 评论(0) 推荐(0)

交叉验证_自动获取模型最优超参数

摘要：package Spark_MLlib import org.apache.spark.ml.{Pipeline, PipelineModel} import org.apache.spark.ml.classification.{LogisticRegression, LogisticRegressionModel} import org.apache.spark.ml.evaluation... 阅读全文

posted @ 2017-11-13 16:07 soyosuyang 阅读(2296) 评论(0) 推荐(0)

协同过滤算法

摘要：结果：阅读全文

posted @ 2017-11-12 16:20 soyosuyang 阅读(646) 评论(0) 推荐(0)

聚类-----高斯混合模型

摘要：结果： + +| features|+ +|[5.1,3.5,1.4,0.2]||[4.9,3.0,1.4,0.2]||[4.7,3.2,1.3,0.2]||[4.6,3.1,1.5,0.2]||[5.0,3.6,1.4,0.2]||[5.4,3.9,1.7,0.4]||[4.6,3.4,1.4,0 阅读全文

posted @ 2017-11-10 14:59 soyosuyang 阅读(499) 评论(0) 推荐(0)

IDEA kafka producer数据输出缓慢和 kafka consumer 报错的处理

摘要：问题1. IDEA 中Kafa_Producer程序数据输出缓慢但不报错问题2. Kafa_Consumer程序报错： 17/11/10 11:31:11 ERROR ReceiverTracker: Deregistered receiver for stream 0: Error start 阅读全文

posted @ 2017-11-10 11:38 soyosuyang 阅读(1305) 评论(0) 推荐(0)

soyosuyang

随笔分类 - Spark

公告