随笔档案「2017年11月」 - soyosuyang

Spark 分布式环境--连接独立集群管理器

摘要：Spark 分布式环境：master，worker 节点都配置好的情况下：却无法通过spark-shell连接到独立集群管理器 spark-shell --master spark://soyo-VPCCB3S1C:7077 问题处理：原因：因为前期在非分布式情况下使用Spark通过JDBC 阅读全文

posted @ 2017-11-30 19:53 soyosuyang 阅读(269) 评论(0) 推荐(0)

Spark 分布式环境---slave节点无法启动（已解决）

摘要：soyo@soyo-VPCCB3S1C:~$ start-slaves.sh soyo-slave01: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local2/spark/logs/spark-soyo-org. 阅读全文

posted @ 2017-11-30 17:42 soyosuyang 阅读(3995) 评论(0) 推荐(0)

Hadoop 分布式环境slave节点重启忽然不好使了

摘要：Hadoop 分布式环境slaves节点重启：忽然无法启动DataNode和NodeManager处理：在master节点： vim /etc/hosts: 修改slave 节点的IP （这个时候的IP应当登录slave节点ifconfig 查看）造成这个原因是： slave节点如果是通过有线阅读全文

posted @ 2017-11-29 11:50 soyosuyang 阅读(538) 评论(0) 推荐(0)

Spark 2.2.0 分布式集群环境搭建

摘要：集群机器： 1台装了 ubuntu 14.04的台式机 1台装了ubuntu 16.04 的笔记本（机器更多时同样适用） 1.需要安装好Hadoop分布式环境参照：Hadoop分类 -->http://www.cnblogs.com/soyo/p/7868282.html 2.安装Spa 阅读全文

posted @ 2017-11-28 19:16 soyosuyang 阅读(655) 评论(0) 推荐(0)

ubuntu16.04 查看系统可用内存

摘要：free -m 查看内存情况（单位MB） mem 行显示了从系统角度看来内存使用的情况, total是系统可用的内存大小, 数量上等于系统物理内存减去内核保留的内存. buffers和cached是系统用做缓冲的内存. buffers与某个块设备关联, 包含了文件系统元数据, 并且跟踪了块的变化. 阅读全文

posted @ 2017-11-28 10:47 soyosuyang 阅读(36024) 评论(0) 推荐(1)

ubuntu16.04 查看CPU是几核

posted @ 2017-11-28 10:37 soyosuyang 阅读(17408) 评论(0) 推荐(0)

Ubuntu 14.04 台式机锐捷使用：

摘要：1.解压文件:RG_Supplicant_For_Linux_V1.31.zip2.sudo chmod -R 777 rjsupplicant3.进入文件夹（./rjsupplicant.sh -a1 -d1 -neth0 -u用户名 -p 密码） shell 出现：【联网成功】连接认证服务器. 阅读全文

posted @ 2017-11-27 15:15 soyosuyang 阅读(237) 评论(0) 推荐(0)

ubuntu 14.04中：像ubuntu16.04 一样可以在文件夹内打开此路径下的shell

摘要：sudo apt-get install nautilus-open-terminal然后重启 ok！阅读全文

posted @ 2017-11-27 15:08 soyosuyang 阅读(583) 评论(0) 推荐(0)

Spark GraphX 聚合操作

摘要：package Spark_GraphX import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.graphx._ import org.apache.spark.graphx.util.GraphGenerators /** * 计算每一个用户的追随者数量和追随者的平均年龄 */ objec... 阅读全文

posted @ 2017-11-24 15:45 soyosuyang 阅读(628) 评论(0) 推荐(0)

JDK、JRE与JVM的关系

摘要：Java是一门编程语言，同时也是一个运行平台和开发平台。大家进入Java开发领域，一定会经常与JDK、JRE和JVM三个名词打交道。我们梳理一下这三个名词，对整个Java平台也会有更清晰的理解。 JDK : Java Development ToolKit JRE:Java Runtime Envi 阅读全文

posted @ 2017-11-24 13:33 soyosuyang 阅读(227) 评论(0) 推荐(0)

Scala 归约操作- - - - -reduce

摘要：object 归约操作_reduce { def main(args: Array[String]): Unit = { val list=List(1,2,3,4,5) val result=list.reduce(_+_) println("结果1为:"+result) println("结果2为:"+list.reduceLeft(_+_)) ... 阅读全文

posted @ 2017-11-24 11:14 soyosuyang 阅读(2992) 评论(0) 推荐(0)

Scala 特质

摘要：Java中提供了接口，允许一个类实现任意数量的接口。在Scala中没有接口的概念，而是提供了“特质(trait)”，它不仅实现了接口的功能，还具备了很多其他的特性。 Scala的特质，是代码重用的基本单元，可以同时拥有抽象方法和具体方法。 Scala中，一个类只能继承自一个超类，却可以实现多个特质，阅读全文

posted @ 2017-11-24 10:56 soyosuyang 阅读(258) 评论(0) 推荐(0)

Hadoop 分布式环境搭建

摘要：1.集群机器： 1台装了 ubuntu 14.04的台式机 1台装了ubuntu 16.04 的笔记本（机器更多时同样适用）搭建步骤：准备工作：使两台机器处于同一个局域网：相互能够 ping 通主机名称 IP地址soyo-VPCCB3S1C 192.168.1.130 （maste 阅读全文

posted @ 2017-11-20 21:13 soyosuyang 阅读(236) 评论(0) 推荐(0)

IDEA中Spark往Hbase中写数据

摘要：结果：阅读全文

posted @ 2017-11-19 16:20 soyosuyang 阅读(854) 评论(0) 推荐(0)

IDEA中Spark读Hbase中的数据

摘要：结果：阅读全文

posted @ 2017-11-19 14:49 soyosuyang 阅读(974) 评论(0) 推荐(1)

IDEA中 Spark 读Hbase 报错处理：

摘要：问题处理：在IDEA Spark程序中需要操作Hbase时，需要:start-hbase.sh 启动Hbase服务。不然就会报以上错误阅读全文

posted @ 2017-11-19 14:38 soyosuyang 阅读(1319) 评论(0) 推荐(0)

最直白的线性回归，多元线性回归，正则化项的理解

posted @ 2017-11-15 13:50 soyosuyang 阅读(1256) 评论(0) 推荐(0)

Spark GraphX 属性图操作

摘要：结果：阅读全文

posted @ 2017-11-14 19:56 soyosuyang 阅读(1616) 评论(0) 推荐(0)

Scala隐式转换

摘要：通过隐式转换，程序员可以在编写Scala程序时故意漏掉一些信息，让编译器去尝试在编译期间自动推导出这些信息来，这种特性可以极大的减少代码量，忽略那些冗长，过于细节的代码。使用方式： 1.将方法或变量标记为implicit 2.将方法的参数列表标记为implicit 3.将类标记为implicit 阅读全文

posted @ 2017-11-14 18:16 soyosuyang 阅读(164) 评论(0) 推荐(0)

Spark GraphX

摘要：结果： *****************找到图中属性是student的点soyo is student 找到途中边的属性是advisor的边5 to 3 属性为 advisor 找到图中的最大出度,入度,度数最大的出度:(5,2)最大的入度:(7,2)最大的度数:(5,3) 阅读全文

posted @ 2017-11-13 20:25 soyosuyang 阅读(183) 评论(0) 推荐(0)

交叉验证_自动获取模型最优超参数

摘要：package Spark_MLlib import org.apache.spark.ml.{Pipeline, PipelineModel} import org.apache.spark.ml.classification.{LogisticRegression, LogisticRegressionModel} import org.apache.spark.ml.evaluation... 阅读全文

posted @ 2017-11-13 16:07 soyosuyang 阅读(2296) 评论(0) 推荐(0)

协同过滤算法

摘要：结果：阅读全文

posted @ 2017-11-12 16:20 soyosuyang 阅读(645) 评论(0) 推荐(0)

聚类-----高斯混合模型

摘要：结果： + +| features|+ +|[5.1,3.5,1.4,0.2]||[4.9,3.0,1.4,0.2]||[4.7,3.2,1.3,0.2]||[4.6,3.1,1.5,0.2]||[5.0,3.6,1.4,0.2]||[5.4,3.9,1.7,0.4]||[4.6,3.4,1.4,0 阅读全文

posted @ 2017-11-10 14:59 soyosuyang 阅读(497) 评论(0) 推荐(0)

IDEA kafka producer数据输出缓慢和 kafka consumer 报错的处理

摘要：问题1. IDEA 中Kafa_Producer程序数据输出缓慢但不报错问题2. Kafa_Consumer程序报错： 17/11/10 11:31:11 ERROR ReceiverTracker: Deregistered receiver for stream 0: Error start 阅读全文

posted @ 2017-11-10 11:38 soyosuyang 阅读(1301) 评论(0) 推荐(0)

聚类-----KMeans

摘要：结果： + +| features|+ +|[5.1,3.5,1.4,0.2]||[4.9,3.0,1.4,0.2]||[4.7,3.2,1.3,0.2]||[4.6,3.1,1.5,0.2]||[5.0,3.6,1.4,0.2]||[5.4,3.9,1.7,0.4]||[4.6,3.4,1.4,0 阅读全文

posted @ 2017-11-07 16:02 soyosuyang 阅读(339) 评论(0) 推荐(0)

Spark 决策树--回归模型

posted @ 2017-11-06 16:08 soyosuyang 阅读(1093) 评论(0) 推荐(0)

方差标准差均方误差均方根误差

摘要：方差：是每个样本值与全体样本值的平均数之差的平方值的平均数标准差：是方差的算术平方根。标准差能反映一个数据集的离散程度均方误差：对每一个样本，利用机器学习模型判定的类型与真实类型的差值的平方的平均数。（它是观测值与真值偏差的平方与观测次数n比值）均方根误差（亦称标准误差）：它是观测值与真值偏差阅读全文

posted @ 2017-11-06 15:49 soyosuyang 阅读(1914) 评论(0) 推荐(0)

Spark 决策树--分类模型

摘要：结果为： + + +| features| label|+ + +|[5.1,3.5,1.4,0.2]|hadoop||[4.9,3.0,1.4,0.2]|hadoop||[4.7,3.2,1.3,0.2]|hadoop||[4.6,3.1,1.5,0.2]|hadoop||[5.0,3.6,1.4 阅读全文

posted @ 2017-11-06 14:22 soyosuyang 阅读(533) 评论(0) 推荐(0)

回归和分类的区别

摘要：分类模型和回归模型本质一样，分类模型是将回归模型的输出离散化。举几个例子: 1. Logistic Regression 和 Linear Regression： Linear Regression：输出一个标量 wx+b，这个值是连续值，所以可以用来处理回归问题。 Logistic Regre 阅读全文

posted @ 2017-11-05 16:30 soyosuyang 阅读(4746) 评论(0) 推荐(0)

Spark 多项式逻辑回归__多分类

posted @ 2017-11-05 15:58 soyosuyang 阅读(2293) 评论(1) 推荐(0)

Spark 多项式逻辑回归__二分类

摘要：结果： + + +| features|label|+ + +|[5.1,3.5,1.4,0.2]|soyo1||[4.9,3.0,1.4,0.2]|soyo1||[4.7,3.2,1.3,0.2]|soyo1||[4.6,3.1,1.5,0.2]|soyo1||[5.0,3.6,1.4,0.2]| 阅读全文

posted @ 2017-11-05 15:48 soyosuyang 阅读(675) 评论(0) 推荐(0)

Spark 二项逻辑回归__二分类

posted @ 2017-11-05 15:46 soyosuyang 阅读(1346) 评论(0) 推荐(0)

数据仓库 VS 数据库

摘要：数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。（1）面向主题：指数据仓库中的数据是按照一定的主题域进行组织。阅读全文

posted @ 2017-11-05 10:15 soyosuyang 阅读(272) 评论(0) 推荐(0)

准确率，精确率，召回率，F-measure 之间的关系

摘要：总结：（图上 R的计算的分母应该是：40+10 ）（笔误）模型条件放宽，负类被误判为正类的可能性就变大（即FP变大）精确率和准确率会受影响（变小）模型条件变严格，正类有可能被误判为负类（即FN变大）召回率会变小 F-measure是一种统计量，F-Measure又称为F-Score，F-Mea 阅读全文

posted @ 2017-11-04 10:33 soyosuyang 阅读(1744) 评论(0) 推荐(0)

IDEA Spark程序报错处理

摘要：错误一：错误处理：将IDEA中的Scala 改为2.10.4版本这个问题主要出现在 Spark程序使用 case class 类时错误二：错误处理：将IDEA中的Scala 改为2.12.3版本这个问题主要出现在 Spark程序使用 Seq时：比如：阅读全文

posted @ 2017-11-02 16:26 soyosuyang 阅读(2334) 评论(0) 推荐(0)

逻辑回归与多项逻辑回归

摘要：信息阅读全文

posted @ 2017-11-02 14:01 soyosuyang 阅读(265) 评论(0) 推荐(0)

特征选择--->卡方选择器

摘要：特征选择（Feature Selection）指的是在特征向量中选择出那些“优秀”的特征，组成新的、更“精简”的特征向量的过程。它在高维数据分析中十分常用，可以剔除掉“冗余”和“无关”的特征，提升学习器的性能。特征选择方法和分类方法一样，也主要分为有监督（Supervised）和无监督（Unsup 阅读全文

posted @ 2017-11-01 14:08 soyosuyang 阅读(336) 评论(0) 推荐(0)

soyosuyang

11 2017 档案

公告