11 2017 档案

摘要:Spark 分布式环境:master,worker 节点都配置好的情况下 : 却无法通过spark-shell连接到 独立集群管理器 spark-shell --master spark://soyo-VPCCB3S1C:7077 问题处理: 原因:因为前期在非分布式情况下使用Spark通过JDBC 阅读全文
posted @ 2017-11-30 19:53 soyosuyang 阅读(269) 评论(0) 推荐(0)
摘要:soyo@soyo-VPCCB3S1C:~$ start-slaves.sh soyo-slave01: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local2/spark/logs/spark-soyo-org. 阅读全文
posted @ 2017-11-30 17:42 soyosuyang 阅读(3995) 评论(0) 推荐(0)
摘要:Hadoop 分布式环境slaves节点重启: 忽然无法启动DataNode和NodeManager处理: 在master节点: vim /etc/hosts: 修改slave 节点的IP (这个时候的IP应当登录slave节点ifconfig 查看) 造成这个原因是: slave节点如果是通过有线 阅读全文
posted @ 2017-11-29 11:50 soyosuyang 阅读(538) 评论(0) 推荐(0)
摘要:集群机器: 1台 装了 ubuntu 14.04的 台式机 1台 装了ubuntu 16.04 的 笔记本 (机器更多时同样适用) 1.需要安装好Hadoop分布式环境 参照:Hadoop分类 -->http://www.cnblogs.com/soyo/p/7868282.html 2.安装Spa 阅读全文
posted @ 2017-11-28 19:16 soyosuyang 阅读(655) 评论(0) 推荐(0)
摘要:free -m 查看内存情况 (单位MB) mem 行显示了从系统角度看来内存使用的情况, total是系统可用的内存大小, 数量上等于系统物理内存减去内核保留的内存. buffers和cached是系统用做缓冲的内存. buffers与某个块设备关联, 包含了文件系统元数据, 并且跟踪了块的变化. 阅读全文
posted @ 2017-11-28 10:47 soyosuyang 阅读(36024) 评论(0) 推荐(1)
摘要:ubuntu 16.04下查看机器是cpu是几核的 几个cpu more /proc/cpuinfo |grep "physical id"|uniq|wc -l 每个cpu是几核(假设cpu配置相同) more /proc/cpuinfo |grep "physical id"|grep "0"| 阅读全文
posted @ 2017-11-28 10:37 soyosuyang 阅读(17408) 评论(0) 推荐(0)
摘要:1.解压文件:RG_Supplicant_For_Linux_V1.31.zip2.sudo chmod -R 777 rjsupplicant3.进入文件夹(./rjsupplicant.sh -a1 -d1 -neth0 -u用户名 -p 密码) shell 出现:【联网成功】 连接认证服务器. 阅读全文
posted @ 2017-11-27 15:15 soyosuyang 阅读(237) 评论(0) 推荐(0)
摘要:sudo apt-get install nautilus-open-terminal然后重启 ok! 阅读全文
posted @ 2017-11-27 15:08 soyosuyang 阅读(583) 评论(0) 推荐(0)
摘要:package Spark_GraphX import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.graphx._ import org.apache.spark.graphx.util.GraphGenerators /** * 计算每一个用户的追随者数量和追随者的平均年龄 */ objec... 阅读全文
posted @ 2017-11-24 15:45 soyosuyang 阅读(628) 评论(0) 推荐(0)
摘要:Java是一门编程语言,同时也是一个运行平台和开发平台。大家进入Java开发领域,一定会经常与JDK、JRE和JVM三个名词打交道。我们梳理一下这三个名词,对整个Java平台也会有更清晰的理解。 JDK : Java Development ToolKit JRE:Java Runtime Envi 阅读全文
posted @ 2017-11-24 13:33 soyosuyang 阅读(227) 评论(0) 推荐(0)
摘要:object 归约操作_reduce { def main(args: Array[String]): Unit = { val list=List(1,2,3,4,5) val result=list.reduce(_+_) println("结果1为:"+result) println("结果2为:"+list.reduceLeft(_+_)) ... 阅读全文
posted @ 2017-11-24 11:14 soyosuyang 阅读(2992) 评论(0) 推荐(0)
摘要:Java中提供了接口,允许一个类实现任意数量的接口。在Scala中没有接口的概念,而是提供了“特质(trait)”,它不仅实现了接口的功能,还具备了很多其他的特性。 Scala的特质,是代码重用的基本单元,可以同时拥有抽象方法和具体方法。 Scala中,一个类只能继承自一个超类,却可以实现多个特质, 阅读全文
posted @ 2017-11-24 10:56 soyosuyang 阅读(258) 评论(0) 推荐(0)
摘要:1.集群机器: 1台 装了 ubuntu 14.04的 台式机 1台 装了ubuntu 16.04 的 笔记本 (机器更多时同样适用) 搭建步骤: 准备工作: 使两台机器处于同一个局域网:相互能够 ping 通 主机名称 IP地址soyo-VPCCB3S1C 192.168.1.130 (maste 阅读全文
posted @ 2017-11-20 21:13 soyosuyang 阅读(236) 评论(0) 推荐(0)
摘要:结果: 阅读全文
posted @ 2017-11-19 16:20 soyosuyang 阅读(854) 评论(0) 推荐(0)
摘要:结果: 阅读全文
posted @ 2017-11-19 14:49 soyosuyang 阅读(974) 评论(0) 推荐(1)
摘要:问题处理: 在IDEA Spark程序中需要操作Hbase时,需要:start-hbase.sh 启动Hbase服务。不然就会报以上错误 阅读全文
posted @ 2017-11-19 14:38 soyosuyang 阅读(1319) 评论(0) 推荐(0)
摘要:版权声明:本文为博主原创文章,转载或者引用请务必注明作者和出处,谢谢!线性回归:训练数据中特征是单个,但特征值可以是多个y=wx+b (w: 是单个值)多元线性回归:训练数据中特征数量是多个y=W1X1+W2X2+W3X3+...+b或表示为:y=Wx+b(W:w1,w2,w3.....组成的向量的 阅读全文
posted @ 2017-11-15 13:50 soyosuyang 阅读(1256) 评论(0) 推荐(0)
摘要:结果: 阅读全文
posted @ 2017-11-14 19:56 soyosuyang 阅读(1616) 评论(0) 推荐(0)
摘要:通过隐式转换,程序员可以在编写Scala程序时故意漏掉一些信息,让编译器去尝试在编译期间自动推导出这些信息来,这种特性可以极大的减少代码量,忽略那些冗长,过于细节的代码。 使用方式: 1.将方法或变量标记为implicit 2.将方法的参数列表标记为implicit 3.将类标记为implicit 阅读全文
posted @ 2017-11-14 18:16 soyosuyang 阅读(164) 评论(0) 推荐(0)
摘要:结果: *****************找到图中属性是student的点soyo is student 找到途中边的属性是advisor的边5 to 3 属性为 advisor 找到图中的最大出度,入度,度数最大的出度:(5,2)最大的入度:(7,2)最大的度数:(5,3) 阅读全文
posted @ 2017-11-13 20:25 soyosuyang 阅读(183) 评论(0) 推荐(0)
摘要:package Spark_MLlib import org.apache.spark.ml.{Pipeline, PipelineModel} import org.apache.spark.ml.classification.{LogisticRegression, LogisticRegressionModel} import org.apache.spark.ml.evaluation... 阅读全文
posted @ 2017-11-13 16:07 soyosuyang 阅读(2296) 评论(0) 推荐(0)
摘要:结果: 阅读全文
posted @ 2017-11-12 16:20 soyosuyang 阅读(645) 评论(0) 推荐(0)
摘要:结果: + +| features|+ +|[5.1,3.5,1.4,0.2]||[4.9,3.0,1.4,0.2]||[4.7,3.2,1.3,0.2]||[4.6,3.1,1.5,0.2]||[5.0,3.6,1.4,0.2]||[5.4,3.9,1.7,0.4]||[4.6,3.4,1.4,0 阅读全文
posted @ 2017-11-10 14:59 soyosuyang 阅读(497) 评论(0) 推荐(0)
摘要:问题1. IDEA 中Kafa_Producer程序数据输出缓慢 但不报错 问题2. Kafa_Consumer程序报错: 17/11/10 11:31:11 ERROR ReceiverTracker: Deregistered receiver for stream 0: Error start 阅读全文
posted @ 2017-11-10 11:38 soyosuyang 阅读(1301) 评论(0) 推荐(0)
摘要:结果: + +| features|+ +|[5.1,3.5,1.4,0.2]||[4.9,3.0,1.4,0.2]||[4.7,3.2,1.3,0.2]||[4.6,3.1,1.5,0.2]||[5.0,3.6,1.4,0.2]||[5.4,3.9,1.7,0.4]||[4.6,3.4,1.4,0 阅读全文
posted @ 2017-11-07 16:02 soyosuyang 阅读(339) 评论(0) 推荐(0)
摘要:结果: + + + + + + +| features| label|indexedLabel| indexedFeatures|prediction|predictedLabel|+ + + + + + +|[4.6,3.1,1.5,0.2]|hadoop| 1.0|[4.6,3.1,1.5,0. 阅读全文
posted @ 2017-11-06 16:08 soyosuyang 阅读(1093) 评论(0) 推荐(0)
摘要:方差:是每个样本值与全体样本值的平均数之差的平方值的平均数 标准差:是方差的算术平方根。标准差能反映一个数据集的离散程度 均方误差:对每一个样本,利用机器学习模型判定的类型与真实类型的差值的平方的平均数。(它是观测值与真值偏差的平方与观测次数n比值) 均方根误差(亦称标准误差):它是观测值与真值偏差 阅读全文
posted @ 2017-11-06 15:49 soyosuyang 阅读(1914) 评论(0) 推荐(0)
摘要:结果为: + + +| features| label|+ + +|[5.1,3.5,1.4,0.2]|hadoop||[4.9,3.0,1.4,0.2]|hadoop||[4.7,3.2,1.3,0.2]|hadoop||[4.6,3.1,1.5,0.2]|hadoop||[5.0,3.6,1.4 阅读全文
posted @ 2017-11-06 14:22 soyosuyang 阅读(533) 评论(0) 推荐(0)
摘要:分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化。 举几个例子: 1. Logistic Regression 和 Linear Regression: Linear Regression: 输出一个标量 wx+b,这个值是连续值,所以可以用来处理回归问题。 Logistic Regre 阅读全文
posted @ 2017-11-05 16:30 soyosuyang 阅读(4746) 评论(0) 推荐(0)
摘要:结果: + + + + + + + + +| features|label|indexedLabel| indexedFeatures| rawPrediction| probability|prediction|predictionLabel|+ + + + + + + + +|[4.4,3.2, 阅读全文
posted @ 2017-11-05 15:58 soyosuyang 阅读(2293) 评论(1) 推荐(0)
摘要:结果: + + +| features|label|+ + +|[5.1,3.5,1.4,0.2]|soyo1||[4.9,3.0,1.4,0.2]|soyo1||[4.7,3.2,1.3,0.2]|soyo1||[4.6,3.1,1.5,0.2]|soyo1||[5.0,3.6,1.4,0.2]| 阅读全文
posted @ 2017-11-05 15:48 soyosuyang 阅读(675) 评论(0) 推荐(0)
摘要:结果: + + + + + + + + +|features |label|indexedLabel|indexedFeatures |rawPrediction |probability |prediction|predictionLabel|+ + + + + + + + +|[4.4,2.9, 阅读全文
posted @ 2017-11-05 15:46 soyosuyang 阅读(1346) 评论(0) 推荐(0)
摘要:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 (1) 面向主题:指数据仓库中的数据是按照一定的主题域进行组织。 阅读全文
posted @ 2017-11-05 10:15 soyosuyang 阅读(272) 评论(0) 推荐(0)
摘要:总结:(图上 R的计算的分母应该是 :40+10 )(笔误) 模型条件放宽,负类被误判为正类的可能性就变大(即FP变大)精确率和准确率会受影响(变小) 模型条件变严格,正类有可能被误判为负类(即FN变大)召回率会变小 F-measure是一种统计量,F-Measure又称为F-Score,F-Mea 阅读全文
posted @ 2017-11-04 10:33 soyosuyang 阅读(1744) 评论(0) 推荐(0)
摘要:错误一: 错误处理:将IDEA中的Scala 改为2.10.4版本 这个问题主要出现在 Spark程序使用 case class 类时 错误二: 错误处理:将IDEA中的Scala 改为2.12.3版本 这个问题主要出现在 Spark程序使用 Seq时: 比如: 阅读全文
posted @ 2017-11-02 16:26 soyosuyang 阅读(2334) 评论(0) 推荐(0)
摘要:信息 阅读全文
posted @ 2017-11-02 14:01 soyosuyang 阅读(265) 评论(0) 推荐(0)
摘要:特征选择(Feature Selection)指的是在特征向量中选择出那些“优秀”的特征,组成新的、更“精简”的特征向量的过程。它在高维数据分析中十分常用,可以剔除掉“冗余”和“无关”的特征,提升学习器的性能。 特征选择方法和分类方法一样,也主要分为有监督(Supervised)和无监督(Unsup 阅读全文
posted @ 2017-11-01 14:08 soyosuyang 阅读(336) 评论(0) 推荐(0)